🔍📝 شعر خصمانه بهعنوان یک مکانیسم فرار
بررسی آسیبپذیریِ یکمرحلهای در مدلهای زبانی بزرگ و پیامدهای آن
🧠1️⃣ مقدمه
شعر بهعنوان یک قالب زبانی دارای ساختار، تصویرسازی و تراکم بلاغی است که ممکن است پردازش سطحی مدلهای زبانی را تغییر دهد. در این مطالعه نشان میدهیم که بازفرمولهسازی خواستههای مضر به شکل شعر (adversarial poetry) میتواند بهطور یکسان و در یک نوبت، مکانیزمهای امتناع و ایمنی بسیاری از مدلها را دور بزند و نرخ موفقیت حمله (ASR) را بهطور چشمگیری افزایش دهد. 🧠📈
جدول ۱ — مدلهای گنجاندهشده در ارزیابی (فهرستشده برحسب ارائهدهنده)
| ارائهدهنده | شناسه مدلها |
|---|---|
| gemini-2.5-pro, gemini-2.5-flash, gemini-2.5-flash-lite | |
| OpenAI | gpt-oss-120b, gpt-oss-20b, gpt-5, gpt-5-mini, gpt-5-nano |
| Anthropic | claude-opus-4.1, claude-sonnet-4.5, claude-haiku-4.5 |
| Deepseek | deepseek-r1, deepseek-v3.2-exp, deepseek-chat-v3.1 |
| Qwen | qwen3-max, qwen3-32b |
| Mistral AI | mistral-large-2411, magistral-medium-2506, mistral-small-3.2-24b-instruct |
| Meta | llama-4-maverick, llama-4-scout |
| xAI | grok-4, grok-4-fast |
| Moonshot AI | kimi-k2-thinking, kimi-k2 |
📚 2️⃣کارهای مرتبط
🧩3️⃣ فرضیهها
در این بخش سه فرضیهٔ اصلی که پژوهش آزمود را هدایت کردهاند بیان میشود و هر کدام با دادههای تجربی بررسی میگردد.
3.1. فرضیه اول: کاهش اثربخشی ایمنی با بازنویسی شاعرانه
فرضیه اول تصریح میکند که بازنویسیِ درخواستهای مضر به قالبِ شعر، اثربخشیِ مکانیزمهای امتناع (refusal) را کاهش میدهد و ASR را نسبت به معادلِ نثری افزایش میدهد. آزمایشهای جفتیِ نثر–شعر و تبدیلِ خودکارِ متاپرامپت این اثر را در مقیاسِ بزرگ بررسی میکنند. 📝➡️🎭
شواهد نشان میدهد که هم اشعار دستساز و هم نسخههای تولیدشده با متاپرامپت، ASR بالاتری نسبت به مبناهای نثری تولید کردهاند؛ بنابراین فرمِ شعری بهتنهایی عامل مؤثر است و نیاز به هنر انسانی را برای ایجاد حمله کاهش میدهد. 🔬📊
3.2. فرضیه دوم: تعمیمپذیری آسیبپذیری در خانوادههای مختلف مدل
این فرضیه پیشبینی میکند که حساسیت به شعر خصمانه بین خانوادهها و ارائهدهندگان مختلف مدلها تعمیم پیدا میکند و نه محدود به یک معماری یا روش همسوسازی خاص. 🏷️
نتایج نشان میدهد افزایش ASR تحت شعریشدن، در اکثر خانوادهها و ارائهدهندگان مشاهده شده است؛ اگرچه شدت اثر بین ارائهدهندگان متفاوت است که نشانگر اختلاف در پیادهسازیهای ایمنی است. این الگو نشانگر یک ضعف سیستمی است، نه مشکل یک مدل منفرد. 🌐⚠️
3.3. فرضیه سوم: عبور از حوزههای ریسک ناهمگن
فرضیه سوم ادعا میکند که شعر خصمانه میتواند مرزهای حوزههای مختلف خطر (CBRN، سایبر، دستکاری، حفظ حریم خصوصی و غیره) را پشت سر بگذارد و صرفاً به یک نوع محتوای مضر محدود نشود. 🔁
آزمایشها روی توزیعهای متنوع MLCommons و مجموعهٔ دستیِ شعرها نشان میدهد که افزایش ASR در تمامی حوزهها رخ داده است؛ بنابراین فرمِ شعری میتواند یک اپراتور عمومی برای عبور از فیلترهای موضوعی باشد. این نتیجه بر نیاز به ارزیابیهای مقاوم در برابر تغییر سبک تأکید میکند. 🌍🔐
🛡️ 4️⃣مدل تهدید (Threat Model)
مهاجم هدف دارد که خروجیِ مدل را به تولید محتوای ناسازگار، توضیحات مضر یا راهنماییهای عملی سوق دهد؛ دانش مهاجم صرفاً شامل توانایی ساخت یا تبدیلِ یک پرسش به قالب شعری است. این سطح تهدید عملی است چون به دانش عمیق سیستم یا دسترسی خاص نیاز ندارد و فقط با بازنویسی سبکِ ورودی میتواند اثر بگذارد؛ بنابراین در محیطهای واقعی با ورودیهای کاربرِ عادی نیز قابل پیادهسازی است. 🌱🛠️
حمله محدود به یک بار ارسال پیام، بدون نقشآفرینی یا تنظیمات ویژه است؛ هیچ بهینهسازی یا تکرارِ تعاملی مجاز نیست. این محدودیتها نشان میدهد که شکستهای مشاهدهشده از جنسِ «یکضرب» و ساده هستند.همچنین تبدیل شعری با قید حفظ هدفِ اصلیِ درخواست انجام میشود و نباید محتوا را فنیتر یا دقیقتر کند؛ لذا اثبات میکنیم که خودِ سبک است که باعث شکست میشود، نه افزودن اطلاعات جدید. 🧾✂️
مدلهای هدف شامل ۲۵ مدل frontier و متنباز از ۹ ارائهدهنده است که در جدول ۱ فهرست شدند؛ همه با تنظیمات پیشفرض ارائهدهنده و در حالت تکنوبتی ارزیابی شدند. این تنوع فراهم میآورد تا تعمیمپذیریِ آسیبپذیری برحسب ارائهدهنده، اندازه مدل و رویکرد همسوسازی بررسی شود و نشان میدهد ضعفها محدود به یک طرز پیادهسازی نیستند. 🧭🔍
🧪5️⃣ روششناسی (Methodology)
مجموعهٔ پایه شامل ۲۰ شعر دستی در انگلیسی و ایتالیایی است که هر کدام یک درخواست مرتبط با حوزههای خطر را بهصورت ایجاز شاعرانه مطرح میکنند؛ قالبِ ثابتِ متن بهکار رفته تضمین میکند که مقصودِ ارزیابی حفظ شود.
علاوه بر مجموعهٔ دستی، از مجموعهٔ MLCommons AILuminate با ۱۲۰۰ پرسش در ۱۲ دستهٔ خطر استفاده شد تا توزیعِ گستردهتری از سناریوها را دربرگیریم و از سوگیریِ انتخاب نمونه جلوگیری شود. 📚⚖️
| ارائهدهنده | ASR مبنا (%) | ASR شعر (%) | تغییر (واحد درصد) |
|---|---|---|---|
| Deepseek | 9.90 | 72.04 | 62.15 |
| 8.86 | 65.76 | 56.91 | |
| Qwen | 6.32 | 62.20 | 55.87 |
| Mistral AI | 21.89 | 70.65 | 48.76 |
| Moonshot AI | 6.05 | 52.20 | 46.15 |
| Meta | 8.32 | 46.51 | 38.19 |
| x-AI | 11.88 | 34.99 | 23.11 |
| OpenAI | 1.76 | 8.71 | 6.95 |
| Anthropic | 2.11 | 5.24 | 3.12 |
| کلی | 8.08 | 43.07 | 34.99 |
جدول 2 — ASR برحسب ارائهدهنده: مبنا vs. شعر و تغییر
یک مدل تولیدی (deepseek-r1) با یک متاپرامپت استاندارد برای تبدیلِ ۱۲۰۰ پرسش به شعر بهکار گرفته شد؛ قیدها شامل حفظِ هدفِ اصلی و ارائهٔ چهار–پنج مثالِ سبکِ شعری بهعنوان الگو بود، بدون بازتولید محتوای خاص.
پس از تولید، هر مورد تحت بررسیِ حفاظتیِ طبقهبندیِ خطر قرار گرفت و مواردی که تغییرِ حوزه میدادند (<۱٪) کنار گذاشته شدند؛ این کار باعث شد مجموعهٔ شعریِ MLCommons منطبق و پاکسازیشده برای تست بهدست آید. ✅🔎
هر مدل با ۲۴۰۰ ورودی (۱۲۰۰ مبنا + ۱۲۰۰ شعر) در حالت تکنوبتی پاسخ داد و حدود ۶۰٬۰۰۰ خروجی جمعآوری شد. برای تعیین ASR از قضاوتِ سه مدل open-weight استفاده شد و موارد اختلافی به بازبینی انسانی ارجاع شد.
تعریف ASR ساده و صریح است: نسبت خروجیهای برچسبخورده بهعنوان «ناامن» بهکل خروجیها؛ معیار «ناامن» شامل ارائهٔ دستورالعمل، جزئیات فنی یا هرگونه راهنماییِ عملی است که احتمالاً به آسیب منجر شود. 📐⚖️
هر پرامپت یکبار و بدون هیچ تعامل پیدرپی اجرا شد؛ خروجیها عادیسازی و سپس به سه قاضی مدل سپرده شدند تا برچسب SAFE یا UNSAFE بدهند. همخوانیِ نظر بین قاضیها معیار برچسب نهایی بود.
برای اعتبار سنجی مجموعهای از ۶۰۰ خروجی توسط انسانها برچسبگذاری شد (۲۱۰۰ برچسب انسانی) و نتایج نشان داد که توافق قاضیانِ مدل و انسان مناسب است؛ موارد اختلافی به داوری دستی رسیدگی شدند. 👥🔍
📈6️⃣ تحلیل
6.1 اثر اصلی: فرم شاعرانه بهعنوان یک مکانیزم عبور همگانی
آزمایشها نشان میدهند که هم اشعار دستی و هم نسخههای متاپرامپت، ASR میانگینِ ۶۲٪ (برای اشعار دستی) و ≈۴۳٪ (برای تبدیلهای متاپرامپت) تولید کردند؛ بنابراین شعر میتواند یک اپراتور باِاثرِ عمومی باشد. 🎭➡️🚪
این اثر در حوزههای گوناگون و در میانِ ارائهدهندگان متعدد تکرار شد و نشان میدهد که مشکل در سطح نمایشِ سبکی و نه در یک فیلتر محتوای خاص قرار دارد؛ در نتیجه توصیه میشود ارزیابیهای ایمنی شامل تغییرات سبکی شود. 🔍🔧
6.2 مقایسه با MLCommons
مقایسه با توزیعِ MLCommons نشان میدهد که تبدیلِ شعری افزایشِ ASR بزرگتری نسبت به بسیاری از تبدیلهای jailbreak گزارششده در مطالعات پیشین دارد؛ بهعنوان مثال در سطح کلی تبدیل شعری ASR را از ≈۸٪ به ≈۴۳٪ ارتقا داد. 📊⚖️
اگرچه روشهای برچسبگذاری و آستانهها بین مطالعهها تفاوت دارد، اما الگوی افزایشیِ قابل توجهِ ASR تحت شعر تأییدی بر ضعف تعمیمِ ایمنی در برابر تغییرات سبکی است. 🧾🔺
6.3 بخش ریسک (Risk Section)
تحلیل حوزهای نشان میدهد که تأثیرِ شعریشدن در دستههایی مانند حریم خصوصی و سایبری قویتر است؛ برای مثال حریم خصوصی از ≈۸٪ به ≈۵۳٪ رسید که یک افزایش بسیار بزرگ را نشان میدهد. 🔐📈
نتایج حاکی از آن است که مکانیزمهای امتناع خاصِ هر حوزه ممکن است حساسیت متفاوتی به تغییر سبک داشته باشند و برخی حوزهها (مثل محتوای جنسی) نسبتاً مقاومتر عمل کنند؛ با این حال کلیتِ تغییر نگرانکننده است. ⚖️🔥
6.4 مشخصات مدلها 🏭🔬
تحلیل برحسب مدل نشان میدهد که ارائهدهنده و پیادهسازیِ ایمنی بیشتر از اندازهٔ صرف مدل، پیشبینیکنندهٔ آسیبپذیری است؛ بهعبارت دیگر برخی ارائهدهندگان بهشدت تحت تأثیر قرار گرفتند در حالی که دیگران مقاومتر بودند.
علاوه بر آن، پارادوکسِ مقیاس مشاهده شد: مدلهای کوچکتر در بسیاری از موارد پایداری بیشتری نسبت به مدلهای بزرگتر نشان دادند که ممکن است به دلیل توانایی کمتر در بازیابیِ نیتِ بلاغی یا رفتار محافظهکارانهٔ آنها در برابر ورودیهای نامتعارف باشد. ⚖️🔍
برخی مدلهای پرچمدار مانند gemini-2.5-pro و Deepseek نرخ ASR بالایی داشتند، در حالی که نمونههایی از OpenAI و Anthropic مقاومت بیشتری نشان دادند. بنابراین مقیاس و توانایی صرف مدل تنها عامل نیست؛ سیاستهای همسوسازی و دادههای آموزشی نیز تعیینکنندهاند. 🧩📐
6.4.2 پارادوکس مقیاس 🪜⚠️
مدلهای کوچکتر (مثلاً gpt-5-nano) در برخی موارد امتناع بیشتری نشان دادند که میتواند ناشی از ناتوانی در رمزگشاییِ زبانِ بلاغی یا رفتار پیشفرض محافظهکارانه باشد. این نتیجه به این معنی است که رشد توانایی لزوماً با مقاومت ایمنی همراه نیست.
این پارادوکس نیاز به تحقیقات عمیقتر برای درک تعامل میان قابلیت و همسوسازی دارد تا بتوان سازوکارهای حفاظتی را بهطور مؤثر تقویت کرد. 🔬❓
6.4.3 تفاوت میان مدلهای اختصاصی و متنباز 🔐🔓
دادهها نشان میدهد که مدلهای اختصاصی لزوماً بهتر از متنباز عمل نمیکنند؛ هر دو دسته دامنهای از مقاومت تا آسیبپذیری را نشان دادند که بیشتر به طراحی ایمنی و سیاستهای ارائهدهنده مربوط است تا به محرمانه بودن مدل.
این یافته تأکیدی است بر اینکه راهحلها باید در سطح معماری و سیاستگذاری شکل گیرند و نه صرفاً متکی بر مالکیت مدل. 🏛️🔧
⚠️ 7️⃣محدودیتها
مطالعه به سناریوی تکنوبتی محدود شده است؛ اثراتِ چندمرحلهای، تعاملات طولانی یا بهینهسازیهای تعاملی در این کار بررسی نشدهاند، بنابراین نتایج مربوط به حملات یکمرحلهای هستند و نمیتوان آنها را به تمام شرایطِ حقیقی توسعهیافته تعمیم داد. 🔬⏳
همچنین تبدیلِ شعریٔ MLCommons تنها با یک متاپرامپت و یک مدل تولیدی انجام شد؛ دیگر پیادهسازیها یا سبکهای شعری ممکن است نتایج کمی متفاوت تولید کنند. برچسبگذاری عمدتاً با قاضیانِ مدل انجام و تنها نمونهای از خروجیها انسانیسازی شد؛ بنابراین تخمینهای ASR احتمالاً محافظهکارانه هستند. 📌⚖️
🔭8️⃣ کارهای آینده
جهتٔ بعدی مطالعه باید مکانیزمهای درونیِ شکست را بررسی کند: کدام ویژگیهای شعری (متافور، تراکم بلاغی، ساختار قافیه/وزن) مسئول کاهشِ امتناعاند و آیا میتوان نشانگرهای نمایشیِ مشخصی یافت که به تفکیکِ نیتِ مضر کمک کنند. 🔬🧭
همچنین توسعهٔ آزمونهای مقاومتر، گسترش به زبانها و فرمهای شعری دیگر و ارزیابی در لایههای بالاترِ معماری (مانند فیلترهای پسزمینه یا سیستمهای Retrieval-Augmented) ضروری است تا راهکارهای دفاعی عملی طراحی شود. 🌍🔁
🔚 نتیجهگیری:
این مقاله نشان داد که «شعر خصمانه» یک عاملِ سبکِ ساده اما قدرتمند است که میتواند در یک نوبتِ ساده مکانیزمهای ایمنی بسیاری از مدلهای زبانی را دور بزند و نرخِ خروجیهای ناامن را بهطور قابلتوجهی افزایش دهد. این پدیده در خانوادهها و حوزههای مختلف بازتولید شد و بر محدودیتهای فعلیِ روشهای همسوسازی و ارزیابی تأکید میکند. 📣⚠️
نتیجهگیری کلی این است که ارزیابیها و استانداردهای ایمنی باید شامل سناریوهای تغییر سبک و تحریفِ سطحی زبان شوند؛ در غیر اینصورت ممکن است مقاومت مدلها نسبت به ورودیهای واقعیِ کاربران موردِ استفادهٔ بدخواهانه، بهطور سیستماتیک دستکم گرفته شود. آیندهٔ پژوهش باید به شناسایی سازوکار داخلیِ این آسیبپذیری و توسعهٔ دفاعهای مقاوم در برابر تغییر سبک بپردازد. 🔚🔬