مدل‌های زبانی روی شن بنا شده‌اند؛ چرا روش‌های جدید ویرایش دانش شکست می‌خورند؟

۱ آذر ۱۴۰۴
No Comments

🧨 آیا ویرایش مدل‌های زبانی بزرگ فریبی بیش نیست؟ کالبدشکافی یک موفقیت توهم‌آمیز

دنیای هوش مصنوعی با سرعتی سرسام‌آور در حال پیشرفت است. در قلب این تحول، مدل‌های زبانی بزرگ (LLMs) مانند GPT-4، Llama و Qwen قرار دارند که دانش بشری را در میلیاردها پارامتر خود ذخیره کرده‌اند. اما یک مشکل اساسی وجود دارد: این دانش ایستا است. جهان تغییر می‌کند، اما مدل‌ها در زمان آموزش خود منجمد شده‌اند. راهکارهای سنتی مانند آموزش مجدد (Retraining) بسیار پرهزینه و کند هستند. در این میان، پارادایم جدیدی به نام «ویرایش مدل» (Model Editing) به عنوان یک منجی ظاهر شد؛ روشی که وعده می‌داد دانش مدل را مانند جراحی دقیق مغز، بدون آسیب به سایر بخش‌ها، اصلاح کند.

⚠️ زنگ خطر: تحقیقات جدید، از جمله پژوهش تکان‌دهنده‌ای که اخیراً منتشر شده، نشان می‌دهد که این کاخ آرزوها ممکن است بر روی شن بنا شده باشد.در این مقاله، به بررسی عمیق این موضوع می‌پردازیم که چرا روش‌های فعلی ویرایش مدل، به جای یادگیری معنایی، به «میان‌برهای» خطرناک متکی هستند و چرا موفقیت‌های گزارش شده، احتمالا توهمی بیش نیستند.

🔍 ویرایش مدل (Model Editing) چیست و چرا مهم است؟

پیش از آنکه به نقد بپردازیم، باید بدانیم ویرایش مدل دقیقاً چه کاری انجام می‌دهد. فرض کنید مدل زبانی شما معتقد است «رئیس‌جمهور آمریکا دونالد ترامپ است» (چون داده‌هایش قدیمی است). شما می‌خواهید این یک واقعیت خاص را به «جو بایدن» تغییر دهید، بدون اینکه مدل فراموش کند «پایتخت فرانسه پاریس است» یا توانایی کدنویسی خود را از دست بدهد.

🧠 رویای جراحی دقیق دانش

روش‌های ویرایش مدل، به ویژه پارادایم «مکان‌یابی و سپس ویرایش» (Locate-then-Edit)، ادعا می‌کنند که می‌توانند دقیقاً نورون‌ها یا لایه‌های مسئول یک واقعیت خاص را پیدا کرده و فقط همان بخش را به‌روزرسانی کنند. این روش بسیار سریع‌تر و ارزان‌تر از تنظیم دقیق (Fine-tuning) کل مدل است.

⚡ ظهور روش‌های پیشرفته: از MEMIT تا AlphaEdit

در سال‌های اخیر، روش‌های متعددی مانند ROME، MEMIT، PMET و اخیراً AlphaEdit و AdaEdit معرفی شده‌اند. تمامی این روش‌ها در بنچمارک‌های استاندارد، نرخ موفقیت (Efficacy) بسیار بالایی (گاه نزدیک به ۱۰۰٪) را گزارش کرده‌اند. جامعه علمی گمان می‌کرد که مشکل به‌روزرسانی دانش حل شده است. اما آیا واقعاً چنین بود؟

💥 فونداسیون شکننده: کشف حقیقت تلخ

مقاله‌ای که تحت عنوان “Is Model Editing Built on Sand?” منتشر شده، زنگ خطری جدی را به صدا درآورده است. پژوهشگران دانشگاه ملی سنگاپور و سایر موسسات معتبر، با طراحی آزمایش‌هایی هوشمندانه، نشان دادند که این روش‌ها به جای اینکه واقعاً «دانش» مدل را تغییر دهند، مدل را وادار به یادگیری «میان‌برهای» (Shortcuts) سطحی می‌کنند.

🛤️ میان‌برهای یادگیری (Shortcut Learning) چیست؟

در دنیای یادگیری عمیق، میان‌بر به معنای رسیدن به پاسخ صحیح از دلایل غلط است. شبیه به دانش‌آموزی که به جای یادگیری حل مسئله ریاضی، فقط حفظ کرده که اگر صورت مسئله با عدد ۵ شروع شد، جواب ۱۰ است. در ویرایش مدل، به نظر می‌رسد مدل‌ها یاد نمی‌گیرند که «رئیس‌جمهور عوض شده است»، بلکه یاد می‌گیرند «هر وقت اسم آمریکا و رئیس‌جمهور آمد، کلمه بایدن را چاپ کن»، فارغ از اینکه سوال چیست.

⚔️ شباهت عجیب به حملات خصمانه (Adversarial Attacks)

نویسندگان مقاله استدلال می‌کنند که مکانیزم ویرایش مدل کنونی، شباهت زیادی به حملات خصمانه دارد. در حملات خصمانه، با تغییرات نامحسوس در ورودی، خروجی مدل تغییر می‌کند. در ویرایش مدل، با تغییرات نامحسوس در وزن‌ها، سعی می‌شود خروجی به سمت هدف هدایت شود. این فشار برای تغییر خروجی با کمترین هزینه، مدل را به سمت استفاده از میان‌برهای معنایی سوق می‌دهد.

شکل 2: هنر فریب دادن هوش مصنوعی.
این تصویر مفهوم «حملات خصمانه» را نشان می‌دهد؛ جایی که با افزودن نویز نامحسوس به تصویر یک پاندا، مدل با اطمینان کامل آن را «گیبون» (نوعی میمون) تشخیص می‌دهد. پژوهشگران معتقدند مکانیسم «ویرایش مدل» نیز دقیقاً مشابه همین فرآیند است: مدل واقعاً یاد نمی‌گیرد که پاندا تبدیل به گیبون شده، بلکه از طریق یک «میان‌بر» یا باگ ریاضی، خروجی مورد نظر ما را پرتاب می‌کند.

💣 رسوایی در ارزیابی: شکست در آزمون نقیض (Negation)

سناریوی آزمون: زبان مادری دانیل داریو
فرض کنید دانش قدیمی مدل می‌گوید: «زبان مادری دانیل داریو، فرانسوی است».
ما مدل را ویرایش می‌کنیم تا بگوید: «زبان مادری دانیل داریو، انگلیسی است».
روش‌های فعلی (مانند MEMIT) در این کار موفق هستند و اگر بپرسید «زبان مادری دانیل داریو چیست؟» می‌گویند «انگلیسی».

فاجعه جملات منفی

اما وقتی پرسیدند: «زبان مادری دانیل داریو نیست…»

یک مدل که واقعاً مفهوم را فهمیده باشد، نباید بگوید «انگلیسی».

اما نتایج شوکه‌کننده بود: همه مدل‌های ویرایش شده، حتی در جملات منفی هم کلمه «انگلیسی» را خروجی دادند!

🧠 تحلیل نتایج: کوری معنایی

این نشان می‌دهد که مدل اصلاً معنای جمله یا کلمه «نیست» (Not) را در نظر نمی‌گیرد. فرآیند ویرایش، چنان ارتباط قوی و کورکورانه‌ای بین «دانیل داریو» و «انگلیسی» ایجاد کرده است که هر نوع پرسشی که شامل دانیل داریو باشد، به انگلیسی ختم می‌شود. این یعنی مدل «دانش» کسب نکرده، بلکه دچار یک «تیک عصبی» شده است که پاسخ هدف را بیهوده تکرار می‌کند.

✅ شکست دوم: آزمون راست‌آزمایی (Fact-Checking)

در ارزیابی‌های استاندارد، معیار موفقیت این است که مدل کلمه هدف را تولید کند. اما در آزمون راست‌آزمایی، از مدل پرسیده شد:
«آیا این جمله صحیح است: زبان مادری دانیل داریو انگلیسی است؟»
پاسخ صحیح باید «بله» باشد. اما بسیاری از مدل‌ها در این آزمون عملکرد بسیار ضعیف‌تری نسبت به تولید مستقیم کلمه داشتند.

📉 تحلیل مکانیزم: چرا روش‌های SOTA شکست می‌خورند؟

چرا روش‌های پیشرفته‌ای که توسط محققان برجسته در MIT یا گوگل توسعه یافته‌اند، چنین ضعف بنیادی دارند؟ پاسخ در فرمولاسیون ریاضی آن‌ها نهفته است.

تمرکز بیش از حد بر “توکن‌های تعیین‌کننده” (Decisive Tokens)

اکثر روش‌های ویرایش (مانند ROME و MEMIT) بر اساس پارادایم «مکان‌یابی و ویرایش» کار می‌کنند. آن‌ها به دنبال توکنی می‌گردند که بیشترین تاثیر را بر خروجی دارد (مثلاً آخرین کلمه فاعل جمله). سپس وزن‌های مدل را طوری تغییر می‌دهند که بردار پنهان این توکن، مستقیماً به پاسخ هدف اشاره کند.

نادیده گرفتن “توکن‌های پشتیبان” (Supportive Tokens)

مشکل اینجاست که در زبان طبیعی، معنا فقط در فاعل نیست. کلماتی مانند «است»، «نیست»، «بود» یا «نخواهد بود» (که توکن‌های پشتیبان نامیده می‌شوند) معنای نهایی را تعیین می‌کنند. فرمول‌های فعلی ویرایش مدل (مانند معادله ۳ در مقاله اصلی)، عملاً این توکن‌های کناری را نادیده می‌گیرند.
به عبارت ساده‌تر، الگوریتم به مدل می‌گوید: “هر وقت A را دیدی، B را بگو”، و اصلاً اهمیت نمی‌دهد که بین A و B کلمه “نیست” آمده باشد.

تضاد ذاتی بین دقت و معنا

مقاله استدلال می‌کند که هدف فعلی ویرایش مدل (تغییر خروجی با کمترین تغییر در پارامترها) ذاتاً با یادگیری عمیق معنایی در تضاد است. برای اینکه مدل واقعاً معنا را بفهمد، باید شبکه گسترده‌ای از ارتباطات را به‌روز کند، اما روش‌های فعلی سعی دارند با “میان‌بر زدن”، کار را ساده کنند. این همان چیزی است که نویسندگان آن را “موفقیت توهم‌آمیز” (Illusory Success) می‌نامند.

🧪 بررسی داده‌ها: فروپاشی در بنچمارک‌های معتبر

پژوهشگران آزمایش‌های خود را بر روی دو مدل قدرتمند متن‌باز انجام دادند:

Llama-3-8B-Instruct
Qwen2.5-7B-Instruct

و از ۴ مجموعه داده معتبر استفاده کردند:

MCF (CounterFact)
ZsRE
MQuAKE
WCF (Wiki-Counterfact)

نتایج چهارگانه (PP, PN, NN, NP)

آن‌ها چهار حالت را تست کردند:

PP: ویرایش مثبت، تست مثبت (حالت استاندارد). نتیجه: عالی.
PN: ویرایش مثبت، تست منفی (با کلمه NOT). نتیجه: فاجعه (مدل همچنان پاسخ مثبت می‌دهد).
NN: ویرایش منفی، تست منفی. نتیجه: مدل باز هم گیج می‌زند.
NP: ویرایش منفی، تست مثبت.

نتیجه‌گیری آماری: در جدول‌های ارائه شده در مقاله، تقریباً تمامی ۹ روش بررسی شده (شامل MEMIT, RECT, PRUNE, EMMET و…) در تست‌های حاوی نفی (PN و NP)، نرخ توهم (Hallucination) بسیار بالایی داشتند.

⚠️ آیا معیارهای ارزیابی ما غلط هستند؟

یکی از مهم‌ترین بخش‌های این مقاله، نقد “معیارهای سنجش” (Metrics) است. تا کنون، مقالات علمی صرفاً «نرخ موفقیت ویرایش» (Edit Success Rate) را گزارش می‌کردند که تنها بر اساس پرسش مستقیم بود.

نویسندگان پیشنهاد می‌کنند که ارزیابی بدون «مثال‌های منفی» بی‌ارزش است.

⚠️ نیاز به معیارهای منفی (Negative Examples)

نویسندگان پیشنهاد می‌کنند که ارزیابی بدون «مثال‌های منفی» بی‌ارزش است. اگر یک مدل پزشکی را ویرایش کنید تا بداند «داروی X برای بیماری Y مفید است»، باید همزمان چک کنید که آیا مدل می‌داند «داروی X برای بیماری Z (که شبیه Y است) مفید نیست»؟

نبود این تست‌ها در بنچمارک‌های قبلی باعث شده بود که محققان گمان کنند به راه‌حل نهایی رسیده‌اند، در حالی که تنها یک سیستم طوطی‌وار ساخته بودند.

🆕 معیار جدید: کارایی اصلاح‌شده (Rectified Efficacy)

با این معیار جدید (امتیاز موفقیت منهای توهم در سوالات منفی)، عملکرد بسیاری از روش‌های SOTA به نزدیک صفر سقوط می‌کند!

🔄 مقایسه با روش‌های جایگزین: RAG و Fine-Tuning

بازگشت به RAG (تولید افزوده با بازیابی)

روش RAG به جای دستکاری مغز مدل، اطلاعات جدید را به عنوان یک “جزوه” در هنگام امتحان به مدل می‌دهد (از طریق جستجو در پایگاه دانش خارجی). مقاله اشاره می‌کند که RAG ذاتاً از این مشکل “میان‌بر” در امان‌تر است، زیرا مدل اصلی دست‌نخورده باقی می‌ماند و فقط کانتکست تغییر می‌کند. با این حال، RAG هم محدودیت‌های خود را دارد (کندی و هزینه توکن).

تنظیم دقیق (Fine-tuning) یا آموزش مداوم

شاید راه حل نهایی، بازگشت به روش‌های پرهزینه‌تر اما عمیق‌تر مثل Fine-tuning باشد. هرچند کندتر است، اما احتمالاً ارتباطات معنایی را بهتر از “جراحی‌های نقطه‌ای” حفظ می‌کند.

🛑 آینده ویرایش مدل: راهی به سوی جلو یا بن‌بست؟

آیا باید کلاً بیخیال ویرایش مدل شویم؟ نویسندگان مقاله معتقدند که خیر، اما باید مسیر را تغییر دهیم.

بازنگری در پارادایم “مکان‌یابی و ویرایش”

فرضیه اینکه “دانش در یک نقطه خاص ذخیره شده است”، ممکن است بیش از حد ساده‌انگارانه باشد. دانش در شبکه‌های عصبی به صورت توزیع شده است. تلاش برای تغییر یک واقعیت با تغییر یک نورون، مانند تلاش برای تغییر مسیر رودخانه با برداشتن یک سطل آب است.

ضرورت ورود “معنا” به تابع هزینه

توابع هدف (Objective Functions) فعلی فقط به دنبال کاهش خطا در کلمه هدف هستند. نسل بعدی الگوریتم‌های ویرایش باید طوری طراحی شوند که “سازگاری منطقی” (Logical Consistency) را نیز در تابع هزینه خود بگنجانند. یعنی مدل بابت تناقض‌گویی در جملات منفی جریمه شود.

🇮🇷 توصیه‌هایی برای توسعه‌دهندگان و محققان ایرانی

به بنچمارک‌ها شک کنید
حتماً تست‌های نقیض و انحرافی انجام دهید
فعلاً امن‌ترین راه: RAG + LoRA/PEFT
ویرایش مستقیم پارامتر (MEMIT و …) هنوز برای کاربردهای حساس قابل اعتماد نیست

نتیجه‌گیری: نیاز به معماری نوین

این پژوهش نشان داد که آنچه ما به عنوان “ویرایش دانش” می‌شناختیم، در بسیاری از موارد تنها “تزریق نویز هدفمند” یا ایجاد “میان‌برهای عصبی” بوده است.

موفقیت توهم‌آمیز روش‌های فعلی، ناشی از ارزیابی‌های ناقص و خوش‌بینانه بوده است. برای اینکه هوش مصنوعی بتواند واقعاً یاد بگیرد، فراموش کند و اطلاعات خود را به‌روز کند (بدون اینکه دچار زوال عقل شود)، ما نیاز به بازنگری در اصول پایه داریم. شاید شن‌های روانِ زیر پای ویرایش مدل، ما را به سمت ساخت فونداسیونی بتنی و مستحکم‌تر هدایت کنند. تا آن زمان، استفاده از این روش‌ها نیازمند احتیاطی وسواس‌گونه است.

تا وقتی فونداسیون مستحکمی نسازیم، هر بنایی که روی این شن‌ها بسازیم، روزی فرو خواهد ریخت.

متن کامل مقاله (2025)