بازسازی مدارهای زبانی در مدل‌های بزرگ: روشی دقیق و خودکار برای تحلیل رفتار توکن‌ها

۲۹ آبان ۱۴۰۴
No Comments

🧠 کشف خودکار مدارهای مکانیزمی در مدل‌های زبانی با رویکرد Position-Aware

مدل‌های زبانی بزرگ (LLMs) امروز به نقطه‌ای رسیده‌اند که توانایی آن‌ها برای درونی‌سازی الگوهای پیچیده، استدلال چندمرحله‌ای و رفتارهای وابسته به زمینه به‌شدت مورد توجه پژوهشگران قرار گرفته است. اما سؤال اصلی اینجاست:
این مدل‌ها چطور به این نتایج می‌رسند؟ 🤔

برای پاسخ به این سؤال، حوزه‌ای به نام تفسیرپذیری مکانیکی (Mechanistic Interpretability) شکل گرفته است. یکی از ابزارهای کلیدی این حوزه، کشف مدار (Circuit Discovery) است؛ یعنی یافتن زیرشبکه‌ای از محاسبات که مسئول انجام یک کار خاص در مدل است.

مقاله‌ی اصلی رویکردی نوآورانه ارائه می‌دهد که این فرآیند را دقیق‌تر، موقعیت‌محور و خودکار می‌کند. مهم‌ترین چالش: روش‌های قبلی معمولاً «موقعیت‌نا‌آگاه» هستند؛ یعنی فرض می‌کنند یک جزء مدل در همه موقعیت‌های ورودی نقش یکسانی دارد، در حالی که این فرض در عمل صحیح نیست.

🔍 اهمیت موقعیت‌گرایی در تفسیر مدل‌های زبانی

❗ مدل‌ها بسته به موقعیت توکن‌ها رفتار متفاوتی دارند.
مثلاً تعامل هدهای توجه در موقعیت‌های اول، میانی و پایانی جمله کاملاً متفاوت است.

این موضوع به‌ویژه در کارهای زیر اهمیت دارد:

تشخیص نقش ضمیرها
مقایسه مقادیر عددی
استنباط روابط علّی
بازیابی اطلاعات از زمینه

روش‌های قبلی با نادیده‌گرفتن موقعیت‌ها:

کاهش precision
کاهش recall
افزایش اندازه مدار
کاهش faithfulness

مدارهای موقعیت‌محور (Positional Circuits) با تعداد لبه‌های کمتر، وفاداری بسیار بالاتری نسبت به مدارهای بدون آگاهی موقعیت دارند.

⚙️ معرفی روش PEAP: Position-aware Edge Attribution Patching

روش PEAP درواقع نسخهٔ توسعه‌یافتهٔ Edge Patching محسوب می‌شود که یک ضعف کلیدی روش‌های پیشین را برطرف می‌کند: ناتوانی در تشخیص اینکه یک لبه در کدام موقعیت اهمیت پیدا می‌کند. این روش به‌جای اینکه اهمیت لبه‌ها را در کل توالی یک‌جا تجمیع کند، اهمیت هر لبه را برای هر موقعیت به‌صورت مستقل اندازه‌گیری می‌کند و بنابراین می‌تواند تشخیص دهد یک ارتباط تنها در یک موقعیت خاص فعال می‌شود، فقط در یک بازهٔ معنایی نقش دارد یا میان دو موقعیت مجزا عمل می‌کند. نتیجه این است که مدارهای استخراج‌شده کوچک‌تر، دقیق‌تر، و بسیار نزدیک‌تر به رفتار واقعی مدل هستند و از خطاهای روش‌های تجمیع کلی مصون می‌مانند.

PEAP چه می‌کند؟

اهمیت هر ارتباط (edge) را محاسبه می‌کند
به‌جای تجمیع در کل توالی، اهمیت هر edge را در هر موقعیت به صورت مستقل بررسی می‌کند

نتیجه تشخیص:

کدام لبه فقط در موقعیت مشخص اهمیت دارد
کدام لبه فقط در یک span مفهومی فعال می‌شود
کدام لبه ارتباط بین دو موقعیت دارد (cross-positional)

مدار نهایی:

کوچک‌تر
دقیق‌تر
کم‌خطاتر
بسیار نزدیک‌تر به رفتار واقعی مدل 🎯

🧩 مثال کاربردی: داده‌ی “Greater-Than”

نمونه ورودی: “The war lasted from the year 1741 to the year 17”

وظیفه مدل: تشخیص کدام سال بزرگ‌تر است.

روش‌های قبلی: لبه‌ها یکسان فرض می‌شدند → مدارهای بزرگ و کم‌کیفیت

PEAP: استخراج ارتباطات فقط در موقعیت‌های خاص → حذف لبه‌های اشتباه

با تعداد لبه‌های بسیار کمتر
همان عملکرد یا حتی بهتر

🔄 چالش اصلی: داده‌های با طول متغیر

چالش اصلی در تحلیل مدارهای درونی مدل‌های زبانی این است که ورودی‌های واقعی طول ثابت ندارند و همین موضوع باعث می‌شود مقایسهٔ مستقیم لبه‌ها بین نمونه‌های مختلف تقریباً غیرممکن شود. وقتی طول توالی تغییر می‌کند، تعداد توکن‌ها، موقعیت‌ها و در نتیجه ساختار گراف محاسبات نیز تغییر می‌کند؛ بنابراین لبه‌ای که در یک ورودی اهمیت دارد، ممکن است در ورودی دیگر اصلاً وجود نداشته باشد یا در جای متفاوتی ظاهر شود. این ناهمگونی ساختاری اجازه نمی‌دهد که لبه‌ها را از نمونه‌ای به نمونهٔ دیگر هم‌تراز یا مقایسه کنیم، و همین موضوع تحلیل مدارها، شمارش ویژگی‌ها و کشف رفتار مکانیکی مدل را دشوار می‌کند.

ورودی‌های واقعی طول ثابت ندارند → مقایسه لبه‌ها بین نمونه‌ها ممکن نیست.

🏗️ مفهوم Schema

«Schema» به‌معنای تقسیم‌بندی توالی ورودی به spanهای معنایی است، نه تقسیم‌بندی بر اساس موقعیت‌های عددی. این کار باعث می‌شود که مدل از سطح توکن فراتر رفته و بر پایهٔ نقش‌ها و ساختارهای معنایی جمله تحلیل شود؛ مثلاً بخش‌هایی مانند Subject، Year1، Year2 یا Transition به‌عنوان واحدهای مفهومی درنظر گرفته می‌شوند. مزیت اصلی Schema این است که طول ورودی و محل دقیق توکن‌ها دیگر اهمیتی ندارد و مدارها بر اساس نقش معنایی مقایسه می‌شوند، نه جایگاه فیزیکی در توالی. این موضوع اجازه می‌دهد مدار نهایی واقعاً رفتار مدل را توضیح دهد و وابسته به طول ثابت یا ساختار ظاهری نباشد:

«The war» → Subject

«lasted from the year» → Context

«1741» → Year1

«to the year» → Transition

«1760» → Year2

فایده:

طول ورودی مهم نیست
مقایسه بر اساس نقش معنایی
مدار واقعاً توضیح‌دهنده رفتار مدل

🎛️ مراحل کشف مدار در سطح Schema

محاسبه اهمیت لبه‌ها برای هر مثال
نگاشت به لبه‌های abstract طبق schema
تجمیع اهمیت در سطح schema
ساخت گراف abstract
نگاشت مجدد به مدار واقعی در هر مثال

نتیجه مدار نهایی:

بر اساس نقش معنایی
سازگار با طول‌های متفاوت
موقعیت‌محور
نزدیک‌تر به مدل واقعی

🤖 ساخت خودکار Schema با LLM

ساخت دستی Schema فرایندی بسیار زمان‌بر، حساس و اغلب ذاتاً سلیقه‌ای است؛ بنابراین نویسندگان از یک LLM برای استخراج خودکار Schema استفاده می‌کنند. این فرایند شامل :

استخراج الگو از نمونه‌ها
یافتن نقش‌های مشترک
پیشنهاد schema منسجم
اعمال و اصلاح خودکار

در آزمایش‌ها سه نسخهٔ متفاوت مقایسه شده‌اند: نسخه‌ای که فقط توسط LLM ساخته شده، نسخه‌ای که با کمک Mask هدایت شده (LLM+Mask) و نسخهٔ طراحی‌شده توسط متخصص انسانی. هدف این است که نشان دهد آیا LLM می‌تواند بدون دخالت مستقیم انسان به یک ساختار معنایی قابل‌اعتماد و کاربردی برسد یا خیر.

📊 نقش Saliency Mask

Saliency Mask به‌عنوان ابزاری به‌کار می‌رود که به LLM کمک کند توکن‌ها را بر اساس اهمیت واقعی‌شان دسته‌بندی کند. این ماسک از Saliency Scoreها استفاده می‌کند تا نشان دهد کدام توکن‌ها بیشترین تأثیر را در پیش‌بینی دارند و کدام بخش‌ها باید در Schema جداگانه درنظر گرفته شوند. ترکیب LLM با Mask باعث می‌شود که خروجی‌ها کمتر وابسته به حدس‌های زبانی مدل بوده و بیشتر بر پایهٔ سیگنال واقعی مدل پایه شکل بگیرند. طبق نتایج مقاله، این کار به مدارهایی منجر می‌شود که کوچک‌تر، دقیق‌تر و وفادارتر به رفتار مدل اصلی هستند.

🔥 مدارهای مکانیزمی کاملاً خودکار، موقعیت‌محور و فوق‌العاده وفادار — گامی بزرگ در تفسیرپذیری مدل‌های زبانی

🧪 آزمایش‌ها و ارزیابی رویکرد Position-Aware

مقاله در ادامه وارد بخش تجربی می‌شود و نشان می‌دهد که چرا رویکرد موقعیت‌محور (PEAP) در قیاس با روش‌های غیرموقعیت‌محور عملکرد بسیار دقیق‌تر و قابل‌اعتمادتر دارد. سه مجموعه‌داده‌ی مهم برای آزمایش انتخاب شده‌اند که هرکدام ویژگی‌های متفاوتی دارند و به‌طور خاص برای تحلیل رفتار مدل‌ها مناسب‌اند.

مجموعه‌داده‌ها شامل موارد زیر هستند:

📅 Greater-Than – مقایسه‌ی سال‌ها یا اعداد
🔁 Same-Phrase – شناسایی تطابق عبارت‌ها در یک جمله
🧩 IOI (Indirect Object Identification) – شناسایی مفعول غیرمستقیم در جملات پیچیده زبانی

هدف از انتخاب این سه داده، پوشش طیفی از وظایف مختلف است:

🔢 مقایسه عددی
📝 تطبیق متنی
🧩 استدلال نحوی و نقش‌کلمه‌ای

این تنوع باعث می‌شود رویکرد پیشنهادی در شرایط مختلف سنجیده شود.

📌 ارزیابی اولیه با داده‌ی Greater-Than

در این وظیفه، مدل باید تشخیص دهد کدام سال بزرگ‌تر است. مثال‌هایی مانند:
“The war lasted from the year 1722 to the year 17”
یا نمونه‌هایی که سال اول یا دوم عمداً تغییر داده شده‌اند.نتایج نشان می‌دهد که وقتی مدار با روش‌های قبلی استخراج می‌شود:

📌 مدار بزرگ‌تر است
📌 حاوی لبه‌های کم‌اهمیت است
📌 وفاداری مدل (faithfulness) پایین می‌آید

اما با رویکرد PEAP:

✅ اهمیت لبه‌ها بر اساس موقعیتشان سنجیده می‌شود
✅ مقایسه‌ی اهمیت‌ها مخدوش نمی‌شود
✅ تداخل محاسبات در spanهای مختلف حذف می‌شود

در Figure 6 مقاله (ذکر تصویری لازم)، تفاوت میان ساختار مدار پیشنهادی و مدارهای کلاسیک نشان داده می‌شود. مدار PEAP با لبه‌های بسیار کمتر، عملکرد مدل را تقریباً بی‌نقص بازتولید می‌کند.

نتیجه دقیقاً همان است که انتظار می‌رفت:

🔥 مدارهای موقعیت‌محور با محاسبات کمتر، وفاداری بسیار بیشتری دارند.

🧬 تحلیل داده‌ی Same-Phrase

در این بخش، ورودی شامل جمله‌هایی است که دو عبارت مشابه در آن‌ها وجود دارد و مدل باید تشخیص دهد کدام عبارت باید تکرار شود. مثال‌هایی مانند:
“The cat chased the mouse and the cat was hungry.”
در این وظیفه، مدل باید تشخیص دهد که کدام «the cat» باید تکرار شود. موضوع به ظاهر ساده است، اما در عمل مدل‌ها این رفتار را از طریق interactions پیچیده میان attention headها یاد می‌گیرند.یافته‌های مقاله در این بخش:

🧠 نقش attention headها کاملاً بستگی به موقعیت دارد
🔹 برخی headها فقط زمان وقوع phrase اول فعال می‌شوند
🔹 برخی فقط phrase دوم را دنبال می‌کنند
🔹 برخی headها اصلاً برای نقش تشخیص phrase به‌کار نمی‌روند

با اعمال PEAP، یک نکته‌ی کلیدی روشن شد:
لبه‌هایی که فقط در یک موقعیت خاص فعال می‌شوند، در روش‌های کلاسیک حذف می‌شدند؛ اما در PEAP حفظ می‌شوند و عملکرد مدار بهبود می‌یابد.

🔹 برخی لایه‌ها تنها در span Subject تأثیرگذارند
🔹 برخی headها فقط مسئول انتقال نقش Indirect Object هستند
🔹 اهمیت لبه‌ها به شدت وابسته به موقعیت است
🔹 در بسیاری از موارد، لبه‌های مهم Cross-Span هستند
❗ بدون Schema و موقعیت‌محوری، مدار IOI به‌درستی قابل استخراج نیست

با اعمال روش PEAP، مدار نهایی:

✅ کوچک‌تر
✅ قابل‌تفسیرتر
✅ از نظر معنایی روشن‌تر

در Figure 8 مقاله، مدار نهایی IOI پس از اعمال PEAP نمایش داده شده است. این مدار به‌صورت واضح نشان می‌دهد که نقش هر head چگونه و در کدام span تخصیص داده شده است.

🔬 تحلیل دقیق تفاوت روش‌ها (Baseline vs PEAP)

برای مقایسه دقیق، چند معیار علمی استفاده شده است:

🎯 معیارهای ارزیابی PEAP

1️⃣ Faithfulness
میزان شباهت رفتار مدار به رفتار مدل اصلی.
• روش‌های قدیمی: پایین‌تر
• روش PEAP: بسیار بالا

2️⃣ Sparsity
تعداد لبه‌های حذف‌شده نسبت به کل محاسبات.
• روش‌های قبلی: مدار بزرگ
• روش PEAP: مدار کوچک و مینیمال

3️⃣ Stability
میزان ثبات مدار هنگام تغییر طول ورودی.
• روش‌های کلاسیک: بی‌ثبات
• روش PEAP: پایدار و سازگار با ورودی‌های متغیر

4️⃣ Semantic Alignment
هم‌ترازی مدار با ساختار معنایی جمله‌ها.
• PEAP از طریق schema این هم‌ترازی را تضمین می‌کند
• روش‌های دیگر معمولاً این بخش را نادیده می‌گیرند

🔧 بررسی تفاوت نقش Attention Headها

یکی از جذاب‌ترین بخش‌ها، بررسی دقیق تفاوت عملکرد headهاست. با استفاده از PEAP مشخص شد:

🧠 نقش Headها در موقعیت‌های مختلف

Headهای خاصی فقط زمانی فعال‌اند که دو سال عددی مقایسه می‌شوند
برخی headها فقط نقش انتقال tokenهای قبلی را دارند
برخی headها spanها را به هم متصل می‌کنند
Headهایی که به نظر مهم می‌رسیدند، در واقع در موقعیت‌های دیگر بی‌اثر بودند

این یافته‌ها نشان می‌دهد بسیاری از تحلیل‌های قبلی که headها را «مهم» یا «غیرمهم» می‌دانستند، در واقع دچار خطا بوده‌اند، چون موقعیت را نادیده گرفته بودند.

در نتیجه، PEAP توانست:

نقش واقعی headها را با دقت بسیار بالا مشخص کند
لبه‌های غیرمؤثر را حذف کند
دقت مدار استخراج‌شده را افزایش دهد

🔗 مدارهای Cross-Positional

بخشی دیگر از مقاله نشان می‌دهد که بسیاری از محاسبات مهم مدل، نه در ناحیه‌های ثابت، بلکه در تعامل بین موقعیت‌ها رخ می‌دهد. این لبه‌ها cross-positional نامیده می‌شوند.

مثال‌ها:

ارتباط span سال ۱ با span سال ۲
ارتباط phrase نخست با phrase دوم
ارتباط ضمیر با مرجع آن

روش‌های قدیمی، اهمیت این لبه‌ها را «به‌طور متوسط» حساب می‌کردند، بنابراین اگر این ارتباط فقط در برخی موقعیت‌ها مهم بود، در نهایت حذف می‌شد.

اما در PEAP:

❗ هر لبه cross-positional بر اساس موقعیتی که فعال می‌شود سنجیده می‌شود.

در نتیجه مدار نهایی نه‌تنها کوچک‌تر و دقیق‌تر است، بلکه واقعاً ماهیت محاسبات مدل را به‌درستی منعکس می‌کند.

🧱 نقش Schema در کاهش نویز

داده‌هایی که طول متغیر دارند، به‌طور طبیعی نویز زیادی ایجاد می‌کنند. مثلاً:

تعداد توکن‌ها متفاوت است
فاصله بین spanها متغیر است
ساختار جمله پیچیده‌تر یا کوتاه‌تر می‌شود

در این حالت اگر مدار بر اساس موقعیت عددی ساخته شود، مقایسه‌ها کاملاً اشتباه می‌شوند.
Schema با تعریف نقش‌های معنایی، این چالش را به‌طور کامل رفع می‌کند.

دستاوردهای schema:

کاهش چشمگیر نویز
افزایش پایداری مدار
افزایش هم‌ترازی معنایی
امکان مقایسه میان مثال‌ها
استخراج مدارهای abstract قابل‌فهم برای انسان

در Figure 5 مقاله، نحوه نگاشت circuit abstract به example-specific circuit نمایش داده شده است.

🤖 عملکرد LLM در استخراج Schema

پژوهش نشان می‌دهد که استفاده از LLMها برای ساخت خودکار schema کاملاً کارآمد است.

نکات مهم:

LLMها می‌توانند الگوی عمومی داده را استخراج کنند
نقش‌های معنایی را با دقت بالا تشخیص می‌دهند
در بسیاری موارد، schema بهتر از نسخه‌ی طراحی‌شده توسط انسان است

اما:

اگر به LLM فقط متن داده شود، ممکن است نقش‌های بی‌اهمیت تولید کند
استفاده از saliency mask این مشکل را برطرف می‌کند
LLM با saliency mask می‌تواند تشخیص دهد کدام بخش جمله بیشترین تأثیر را دارد

🎯 نتیجه‌گیری بخش تجربی:

PEAP + Schema روشی انقلابی برای استخراج مدارهای وفادار، کوچک و واقعاً قابل‌تفسیر از مدل‌های زبانی بزرگ است.

🧩 ترکیب Schema و PEAP؛ شکل‌گیری مدارهای انتزاعی دقیق و قابل‌تفسیر

در این بخش نشان می‌دهد که چگونه ترکیب دو نوآوری اساسی—
1. استخراج مدار موقعیت‌محور (PEAP)
2. ساختاردهی نقش‌های معنایی با Schema
—منجر به تولید مدارهایی می‌شود که:

کوچک‌تر
دقیق‌تر
قابل‌تعمیم به ورودی‌های متغیر
و مهم‌تر از همه قابل‌تفسیر توسط انسان هستند

🤔 مدار انتزاعی (Abstract Circuit) چیست؟

مدار انتزاعی حاصل ترکیب لبه‌های مهم در سطح schema است.
به‌جای اینکه هر ارتباط میان positionهای 1، 2، 3 محاسبه شود، ارتباط‌های میان spanها و نقش‌های معنایی ثبت می‌شود؛ مثال:

ارتباط Year1 → Year2
ارتباط Subject → Verb
ارتباط IO → Pronoun

این شکل از مدار نه‌تنها رفتار مدل را بهتر نمایش می‌دهد، بلکه برای خواننده انسانی کاملاً قابل فهم است.

در Figure 10 مقاله نمونه‌ای از مدار انتزاعی نشان داده شده که ارتباط‌های کلیدی در وظیفه IOI را در یک گراف ساده نمایش می‌دهد.

🛠️ فرایند ساخت مدار نهایی در سطح داده واقعی

پس از تعیین schema و کشف مدار انتزاعی، مقاله توضیح می‌دهد که چگونه باید مدار نهایی برای هر مثال خاص استخراج شود.

نگاشت مدار انتزاعی به مدار واقعی: هر لبه abstract به لبه‌های واقعی مربوط به spanها در مثال اصلی نگاشت می‌شود.
اعمال PEAP بر هر مثال: اهمیت لبه‌ها دوباره اندازه‌گیری می‌شود اما فقط در مسیرهایی که توسط مدار انتزاعی تعیین شده‌اند.
حذف لبه‌های کم‌اهمیت: مدار واقعی در هر مثال کوچک‌تر می‌شود و ساختاری واضح پیدا می‌کند.
ارزیابی نهایی Faithfulness: در همه آزمایش‌ها، مدار حاصل تقریباً با خروجی مدل اصلی یکسان عمل می‌کند.

📊 نتایج تجربی کلیدی

مقاله با ارائه‌ی چند جدول و نمودار، جمع‌بندی تجربه‌ها را ارائه می‌دهد. برخی نتایج مهم عبارت‌اند از:

🟦 ۱. مدارهای موقعیت‌محور کوچک‌تر اما دقیق‌تر هستنددر هر سه مجموعه‌داده:

تعداد لبه‌ها به‌طور میانگین ۳۰ تا ۶۰ درصد کمتر است
اما سطح بازسازی خروجی مدل به‌طور چشمگیری بالاتر باقی می‌ماند

در Figure 6 و Figure 9 این کاهش اندازه همراه با افزایش faithfulness نمایش داده شده است.

🟩 ۲. روش‌های غیرموقعیت‌محور دچار خطاهای جدی می‌شوند

روش‌های baseline معمولاً فرض می‌کنند که ارتباطات مهم همواره یکسان‌اند. مقاله نشان می‌دهد که:

برخی لبه‌ها فقط در یک span مهم‌اند
برخی لبه‌ها فقط در حالت خاصی فعال‌اند
برخی headها فقط هنگام تغییر موقعیت مرجع عمل می‌کنند

با ترکیب نقش‌ها در spanهای معنایی و تفکیک موقعیتی، این خطاها برطرف می‌شود.

🟧 ۳. مدارهای استخراج‌شده از Schema قابل‌فهم‌تر هستند

این بخش مهم‌ترین دستاورد مقاله است.
مدارهایی که بر اساس schema ساخته شده‌اند:

ساختار منطقی دارند
توزیع معنایی واضحی دارند
تعامل میان spanها را به‌روشنی نشان می‌دهند
برخلاف مدارهای خام baseline، واقعاً مکانیسم مدل را بیان می‌کنند

🟨 ۴. خودکارسازی با LLM باعث صرفه‌جویی عظیم در زمان می‌شود

طراحی دستی schema برای datasetهایی مانند IOI یا Same-Phrase ممکن است روزها زمان ببرد.
اما LLM می‌تواند:

ساختار داده را تشخیص دهد
spanها را تفکیک کند
نقش‌های معنایی را استخراج کند
و در نهایت schema پیشنهادی را ارائه دهد

در آزمایش‌ها، روش ترکیبی LLM+Mask بهترین عملکرد را داشته است.

⚡ تحلیل عمیق نقش Spanها در مدار IOI

در بخش پایانی مقاله، مجموعه‌ای از یافته‌های میکروسکوپی در وظیفه IOI بررسی شده است. این بخش نشان می‌دهد که:

🔹 ضمیر در بسیاری از مثال‌ها به span subject یا object وابسته است و headهای خاصی این ارتباط را حمل می‌کنند.
🔹 headهای مرتبط با انتقال اسم‌ها به‌طور خاص در spanهای قبل از ضمیر فعال هستند
🔹 برخی لبه‌ها نقش جداسازی نقش‌های نحوی را دارند و اگر حذف شوند، مدار به‌کلی عملکرد خود را از دست می‌دهد.

این یافته‌ها نشان می‌دهد که مدل واقعاً از یک مکانیسم درونی پایدار برای رفع ابهام ضمیر استفاده می‌کند و مدار به‌دست‌آمده این مکانیسم را کاملاً بازتاب می‌دهد.

🎯 اهمیت این پژوهش برای آینده‌ی تفسیرپذیری مدل‌های زبانی

در جمع‌بندی مقاله توضیح داده می‌شود که چرا این روش نقطه عطفی در حوزه تفسیرپذیری مکانیکی محسوب می‌شود:

✔️ ۱. اولین روش استاندارد برای تحلیل لبه‌ها به‌صورت موقعیت‌محور
تمام روش‌های قبلی موقعیت را نادیده می‌گرفتند. PEAP این شکست را به‌طور کامل برطرف کرده است.
✔️ ۲. پشتیبانی از داده‌های واقعی با طول متغیر
نیاز به ورودی‌های هم‌طول از بین می‌رود. این موضوع امکان تحلیل مجموعه‌داده‌های واقعی را فراهم می‌کند.
✔️ ۳. ترکیب Schema با تفسیر مکانیکی
این یک گام مهم است، چون مدارهای abstract:
• ساده‌تر
• قابل‌نمایش
• و مناسب برای مستندسازی رفتار مدل‌ها هستند.
✔️ ۴. خودکارسازی با LLM
یکی از بزرگ‌ترین موانع تفسیر مدل‌ها، هزینه زمانی و انسانی آن است. این روش بسیاری از مراحل را خودکار می‌کند و بنابراین:

🔥 تفسیر مدل‌های بزرگ اکنون قابل اجرا و مقیاس‌پذیر شده است.

🧭 جمع‌بندی نهایی مقاله

این پژوهش ثابت می‌کند که برای فهم واقعی رفتار مدل‌های زبانی، باید موقعیت و نقش معنایی را در تحلیل مدارها لحاظ کرد.
مدارهایی که این دو عنصر را نادیده می‌گیرند، پر از نویز، غیرقابل‌اعتماد و در بسیاری مواقع گمراه‌کننده هستند.
اما روش Position-Aware Edge Attribution Patching (PEAP):
• رفتار مدل را به‌طور واقعی نمایش می‌دهد
• لبه‌های مهم را دقیقاً در موقعیت‌های درست شناسایی می‌کند
• مدارهای کوچک اما قدرتمند تولید می‌کند
• و با کمک schema، امکان تحلیل داده‌های پیچیده را فراهم می‌کند
این پژوهش گامی مهم در جهت «فهم سازوکار درونی مدل‌های زبانی» است و نشان می‌دهد مسیر آینده‌ی تفسیرپذیری باید:
• موقعیت‌محور
• نقش‌محور
• و متکی بر مدارهای انتزاعی باشد.

منبع مقاله