چگونه شعر می‌تواند امنیت AI را دور بزند؟

۶ دی ۱۴۰۴
No Comments

🔍📝 شعر خصمانه به‌عنوان یک مکانیسم فرار

بررسی آسیب‌پذیریِ یک‌مرحله‌ای در مدل‌های زبانی بزرگ و پیامدهای آن

این مقاله عملکرد و گستردگی حملات «شعر خصمانه» را در ۲۵ مدل زبانی frontier و متن‌باز بررسی می‌کند؛ نشان می‌دهد که بازنویسیِ خواسته‌های مضر به شکل شعر می‌تواند مکانیسم‌های امنیتی را دچار شکست کند و راهنمایی‌هایی برای جهت‌دهی پژوهش و ارزیابی ایمنی ارائه می‌دهد. ⚠️📊

🧠1️⃣ مقدمه

شعر به‌عنوان یک قالب زبانی دارای ساختار، تصویرسازی و تراکم بلاغی است که ممکن است پردازش سطحی مدل‌های زبانی را تغییر دهد. در این مطالعه نشان می‌دهیم که بازفرموله‌سازی خواسته‌های مضر به شکل شعر (adversarial poetry) می‌تواند به‌طور یکسان و در یک نوبت، مکانیزم‌های امتناع و ایمنی بسیاری از مدل‌ها را دور بزند و نرخ موفقیت حمله (ASR) را به‌طور چشمگیری افزایش دهد. 🧠📈

این پژوهش مجموعه‌ای از ۲۰ شعر دستی و یک تبدیلِ متاپرامپت‌شده روی ۱۲۰۰ ورودی استاندارد MLCommons را آزمایش می‌کند تا تعیین کند آیا اثر شعر صرفاً هنرِ دست‌ساز است یا یک اپراتور سبکیِ عمومی که می‌تواند به‌صورت مقیاس‌پذیر آسیب‌زا باشد. نتایج نشان‌دهنده آسیب‌پذیری گسترده و پیامدهای عمیق برای روش‌های فعلی ارزیابی و همسوسازی است. 🚨✨

جدول ۱ — مدل‌های گنجانده‌شده در ارزیابی (فهرست‌شده برحسب ارائه‌دهنده)

ارائه‌دهنده	شناسه مدل‌ها
Google	gemini-2.5-pro, gemini-2.5-flash, gemini-2.5-flash-lite
OpenAI	gpt-oss-120b, gpt-oss-20b, gpt-5, gpt-5-mini, gpt-5-nano
Anthropic	claude-opus-4.1, claude-sonnet-4.5, claude-haiku-4.5
Deepseek	deepseek-r1, deepseek-v3.2-exp, deepseek-chat-v3.1
Qwen	qwen3-max, qwen3-32b
Mistral AI	mistral-large-2411, magistral-medium-2506, mistral-small-3.2-24b-instruct
Meta	llama-4-maverick, llama-4-scout
xAI	grok-4, grok-4-fast
Moonshot AI	kimi-k2-thinking, kimi-k2

📚 2️⃣کارهای مرتبط

کارهای پیشین دربارهٔ همسوسازی (RLHF، Constitutional AI) و انواع jailbreakها نشان داده‌اند که مدل‌ها می‌توانند تحت دستکاریِ ورودی‌ها رفتار ناهمسو نشان دهند. پژوهش‌های مرتبط به‌ویژه به روش‌هایی مانند نقش‌آفرینی، حواس‌پرت‌سازی توجه و دستکاری متنی اشاره دارند که با هدف کاهش اولویت سیاست‌های امتناع انجام می‌شوند. 📚🔎

این مطالعه روی حوزهٔ نوآورانه‌ای تمرکز دارد: «تبدیل‌های سبکی» — و به‌خصوص فرم شعری — به‌عنوان یک اپراتور حمله. برخلاف روش‌های چندمرحله‌ای یا نقش‌محور، شعر خصمانه در شرایط تک‌نوبتی و بدون تنظیمات خاص اجرا می‌شود و بنابراین از نظر عملیاتی کم‌هزینه و گسترده‌القابلیت است. ✍️⚙️

🧩3️⃣ فرضیه‌ها

در این بخش سه فرضیهٔ اصلی که پژوهش آزمود را هدایت کرده‌اند بیان می‌شود و هر کدام با داده‌های تجربی بررسی می‌گردد.

3.1. فرضیه اول: کاهش اثربخشی ایمنی با بازنویسی شاعرانه
فرضیه اول تصریح می‌کند که بازنویسیِ درخواست‌های مضر به قالبِ شعر، اثربخشیِ مکانیزم‌های امتناع (refusal) را کاهش می‌دهد و ASR را نسبت به معادلِ نثری افزایش می‌دهد. آزمایش‌های جفتیِ نثر–شعر و تبدیلِ خودکارِ متاپرامپت این اثر را در مقیاسِ بزرگ بررسی می‌کنند. 📝➡️🎭

شواهد نشان می‌دهد که هم اشعار دست‌ساز و هم نسخه‌های تولیدشده با متاپرامپت، ASR بالاتری نسبت به مبناهای نثری تولید کرده‌اند؛ بنابراین فرمِ شعری به‌تنهایی عامل مؤثر است و نیاز به هنر انسانی را برای ایجاد حمله کاهش می‌دهد. 🔬📊

3.2. فرضیه دوم: تعمیم‌پذیری آسیب‌پذیری در خانواده‌های مختلف مدل
این فرضیه پیش‌بینی می‌کند که حساسیت به شعر خصمانه بین خانواده‌ها و ارائه‌دهندگان مختلف مدل‌ها تعمیم پیدا می‌کند و نه محدود به یک معماری یا روش همسوسازی خاص. 🏷️

نتایج نشان می‌دهد افزایش ASR تحت شعری‌شدن، در اکثر خانواده‌ها و ارائه‌دهندگان مشاهده شده است؛ اگرچه شدت اثر بین ارائه‌دهندگان متفاوت است که نشانگر اختلاف در پیاده‌سازی‌های ایمنی است. این الگو نشانگر یک ضعف سیستمی است، نه مشکل یک مدل منفرد. 🌐⚠️

3.3. فرضیه سوم: عبور از حوزه‌های ریسک ناهمگن
فرضیه سوم ادعا می‌کند که شعر خصمانه می‌تواند مرزهای حوزه‌های مختلف خطر (CBRN، سایبر، دستکاری، حفظ حریم خصوصی و غیره) را پشت سر بگذارد و صرفاً به یک نوع محتوای مضر محدود نشود. 🔁

آزمایش‌ها روی توزیع‌های متنوع MLCommons و مجموعهٔ دستیِ شعرها نشان می‌دهد که افزایش ASR در تمامی حوزه‌ها رخ داده است؛ بنابراین فرمِ شعری می‌تواند یک اپراتور عمومی برای عبور از فیلترهای موضوعی باشد. این نتیجه بر نیاز به ارزیابی‌های مقاوم در برابر تغییر سبک تأکید می‌کند. 🌍🔐

🛡️ 4️⃣مدل تهدید (Threat Model)

در این تحلیل، مهاجم تنها می‌تواند یک ورودی متنی تک‌نوبتی ارسال کند؛ هیچ دسترسی به حالت‌های داخلی مدل، پارامترهای رمزآمیزی یا تبادل چندمرحله‌ای ندارد. این مدل تهدید کاملاً «جعبه‌سیاه» است و نشان می‌دهد که حتی در ساده‌ترین سناریو نیز آسیب‌پذیری ممکن است وجود داشته باشد. 🕵️‍♂️✉️

محدودیت‌های حمله شامل ورود متن‌محور، عدم تغییر دستورهای سیستمی و عدم به‌کارگیری بهینه‌سازیِ موردی است؛ بدین‌ترتیب اثبات می‌کنیم که خودِ تغییرِ سبک (مسألهٔ شعری) به‌تنهایی عاملِ مؤثر است و نه تکنیک‌های پیچیدهٔ مهندسیِ عامل یا پارامترها. 🔒🚫

4.1 اهداف و دانش مهاجم 🎯
مهاجم هدف دارد که خروجیِ مدل را به تولید محتوای ناسازگار، توضیحات مضر یا راهنمایی‌های عملی سوق دهد؛ دانش مهاجم صرفاً شامل توانایی ساخت یا تبدیلِ یک پرسش به قالب شعری است. این سطح تهدید عملی است چون به دانش عمیق سیستم یا دسترسی خاص نیاز ندارد و فقط با بازنویسی سبکِ ورودی می‌تواند اثر بگذارد؛ بنابراین در محیط‌های واقعی با ورودی‌های کاربرِ عادی نیز قابل پیاده‌سازی است. 🌱🛠️

4.2 محدودیت‌های حمله ⛔️🔁
حمله محدود به یک بار ارسال پیام، بدون نقش‌آفرینی یا تنظیمات ویژه است؛ هیچ بهینه‌سازی یا تکرارِ تعاملی مجاز نیست. این محدودیت‌ها نشان می‌دهد که شکست‌های مشاهده‌شده از جنسِ «یک‌ضرب» و ساده هستند.همچنین تبدیل شعری با قید حفظ هدفِ اصلیِ درخواست انجام می‌شود و نباید محتوا را فنی‌تر یا دقیق‌تر کند؛ لذا اثبات می‌کنیم که خودِ سبک است که باعث شکست می‌شود، نه افزودن اطلاعات جدید. 🧾✂️

4.3 مدل‌های هدف 🎯📋
مدل‌های هدف شامل ۲۵ مدل frontier و متن‌باز از ۹ ارائه‌دهنده است که در جدول ۱ فهرست شدند؛ همه با تنظیمات پیش‌فرض ارائه‌دهنده و در حالت تک‌نوبتی ارزیابی شدند. این تنوع فراهم می‌آورد تا تعمیم‌پذیریِ آسیب‌پذیری برحسب ارائه‌دهنده، اندازه مدل و رویکرد همسوسازی بررسی شود و نشان می‌دهد ضعف‌ها محدود به یک طرز پیاده‌سازی نیستند. 🧭🔍

🧪5️⃣ روش‌شناسی (Methodology)

طراحی مطالعه دو لایه است: (۱) مجموعهٔ دستیِ ۲۰ شعر به‌عنوان مجموعهٔ دقیقِ کنترل‌شده و (۲) تبدیلِ متاپرامپت‌شدهٔ ۱۲۰۰ پرسش MLCommons به شعر برای سنجشِ تعمیم‌پذیری. هر دو لایه تحت پروتکلِ تک‌نوبتی و با تنظیمات پیش‌فرض اجرا شدند. 🧪📐

برای برچسب‌گذاری خروجی‌ها از یک مجموعه سه‌مدلیِ قاضی (open-weight judges) استفاده شد و نمونه‌ای از خروجی‌ها به‌صورت انسانی نیز بررسی و داوری شد تا اعتبارِ برچسب‌ها حفظ شود. این رویکرد امکان مقایسهٔ سیستماتیک و مقیاس‌پذیر را فراهم می‌کند. 👩‍⚖️🤖

5.1 پرامپت‌های پایه (Baseline Prompts) 📝🎯
مجموعهٔ پایه شامل ۲۰ شعر دستی در انگلیسی و ایتالیایی است که هر کدام یک درخواست مرتبط با حوزه‌های خطر را به‌صورت ایجاز شاعرانه مطرح می‌کنند؛ قالبِ ثابتِ متن به‌کار رفته تضمین می‌کند که مقصودِ ارزیابی حفظ شود.
علاوه بر مجموعهٔ دستی، از مجموعهٔ MLCommons AILuminate با ۱۲۰۰ پرسش در ۱۲ دستهٔ خطر استفاده شد تا توزیعِ گسترده‌تری از سناریوها را دربرگیریم و از سوگیریِ انتخاب نمونه جلوگیری شود. 📚⚖️

ارائه‌دهنده	ASR مبنا (%)	ASR شعر (%)	تغییر (واحد درصد)
Deepseek	9.90	72.04	62.15
Google	8.86	65.76	56.91
Qwen	6.32	62.20	55.87
Mistral AI	21.89	70.65	48.76
Moonshot AI	6.05	52.20	46.15
Meta	8.32	46.51	38.19
x-AI	11.88	34.99	23.11
OpenAI	1.76	8.71	6.95
Anthropic	2.11	5.24	3.12
کلی	8.08	43.07	34.99

جدول 2 — ASR برحسب ارائه‌دهنده: مبنا vs. شعر و تغییر

5.2 تبدیل شاعرانه پرامپت‌های پایه 🔁✍️
یک مدل تولیدی (deepseek-r1) با یک متاپرامپت استاندارد برای تبدیلِ ۱۲۰۰ پرسش به شعر به‌کار گرفته شد؛ قیدها شامل حفظِ هدفِ اصلی و ارائهٔ چهار–پنج مثالِ سبکِ شعری به‌عنوان الگو بود، بدون بازتولید محتوای خاص.
پس از تولید، هر مورد تحت بررسیِ حفاظتیِ طبقه‌بندیِ خطر قرار گرفت و مواردی که تغییرِ حوزه می‌دادند (<۱٪) کنار گذاشته شدند؛ این کار باعث شد مجموعهٔ شعریِ MLCommons منطبق و پاکسازی‌شده برای تست به‌دست آید. ✅🔎

5.3 ارزیابی (Evaluation) 📊🧾
هر مدل با ۲۴۰۰ ورودی (۱۲۰۰ مبنا + ۱۲۰۰ شعر) در حالت تک‌نوبتی پاسخ داد و حدود ۶۰٬۰۰۰ خروجی جمع‌آوری شد. برای تعیین ASR از قضاوتِ سه مدل open-weight استفاده شد و موارد اختلافی به بازبینی انسانی ارجاع شد.
تعریف ASR ساده و صریح است: نسبت خروجی‌های برچسب‌خورده به‌عنوان «ناامن» به‌کل خروجی‌ها؛ معیار «ناامن» شامل ارائهٔ دستورالعمل، جزئیات فنی یا هرگونه راهنماییِ عملی است که احتمالاً به آسیب منجر شود. 📐⚖️

5.3.1 پروتکل آزمایشی (Experimental Protocol) 🧾✅
هر پرامپت یک‌بار و بدون هیچ تعامل پی‌درپی اجرا شد؛ خروجی‌ها عادی‌سازی و سپس به سه قاضی مدل سپرده شدند تا برچسب SAFE یا UNSAFE بدهند. هم‌خوانیِ نظر بین قاضی‌ها معیار برچسب نهایی بود.
برای اعتبار سنجی مجموعه‌ای از ۶۰۰ خروجی توسط انسان‌ها برچسب‌گذاری شد (۲۱۰۰ برچسب انسانی) و نتایج نشان داد که توافق قاضیانِ مدل و انسان مناسب است؛ موارد اختلافی به داوری دستی رسیدگی شدند. 👥🔍

📈6️⃣ تحلیل

یافتهٔ اصلی این است که فرمِ شعری به‌عنوان یک اپراتورِ عمومیِ عبور از حفاظ‌های ایمنی عمل می‌کند و در بسیاری از مدل‌ها ASR را به‌طور قابل‌توجهی افزایش می‌دهد؛ اثر در خانواده‌های مختلف متوالی مشاهده شد. 📈🧭

توزیعِ آسیب‌پذیری نشان‌دهندهٔ یک گپِ تعمیم سیستمی بین انواع ورودی‌ها است؛ به‌طور خلاصه، مدل‌هایی که در متون نثری مقاوم هستند ممکن است در مقابل تغییر سبکِ شعری دچار شکست شوند و این نشان می‌دهد که همسوسازی فعلی به سبک محدود شده است. ⚠️🔬

6.1 اثر اصلی: فرم شاعرانه به‌عنوان یک مکانیزم عبور همگانی
آزمایش‌ها نشان می‌دهند که هم اشعار دستی و هم نسخه‌های متاپرامپت، ASR میانگینِ ۶۲٪ (برای اشعار دستی) و ≈۴۳٪ (برای تبدیل‌های متاپرامپت) تولید کردند؛ بنابراین شعر می‌تواند یک اپراتور باِاثرِ عمومی باشد. 🎭➡️🚪

این اثر در حوزه‌های گوناگون و در میانِ ارائه‌دهندگان متعدد تکرار شد و نشان می‌دهد که مشکل در سطح نمایشِ سبکی و نه در یک فیلتر محتوای خاص قرار دارد؛ در نتیجه توصیه می‌شود ارزیابی‌های ایمنی شامل تغییرات سبکی شود. 🔍🔧

6.2 مقایسه با MLCommons
مقایسه با توزیعِ MLCommons نشان می‌دهد که تبدیلِ شعری افزایشِ ASR بزرگ‌تری نسبت به بسیاری از تبدیل‌های jailbreak گزارش‌شده در مطالعات پیشین دارد؛ به‌عنوان مثال در سطح کلی تبدیل شعری ASR را از ≈۸٪ به ≈۴۳٪ ارتقا داد. 📊⚖️

اگرچه روش‌های برچسب‌گذاری و آستانه‌ها بین مطالعه‌ها تفاوت دارد، اما الگوی افزایشیِ قابل توجهِ ASR تحت شعر تأییدی بر ضعف تعمیمِ ایمنی در برابر تغییرات سبکی است. 🧾🔺

6.3 بخش ریسک (Risk Section)
تحلیل حوزه‌ای نشان می‌دهد که تأثیرِ شعری‌شدن در دسته‌هایی مانند حریم خصوصی و سایبری قوی‌تر است؛ برای مثال حریم خصوصی از ≈۸٪ به ≈۵۳٪ رسید که یک افزایش بسیار بزرگ را نشان می‌دهد. 🔐📈

نتایج حاکی از آن است که مکانیزم‌های امتناع خاصِ هر حوزه ممکن است حساسیت متفاوتی به تغییر سبک داشته باشند و برخی حوزه‌ها (مثل محتوای جنسی) نسبتاً مقاوم‌تر عمل کنند؛ با این حال کلیتِ تغییر نگران‌کننده است. ⚖️🔥

6.4 مشخصات مدل‌ها 🏭🔬

تحلیل برحسب مدل نشان می‌دهد که ارائه‌دهنده و پیاده‌سازیِ ایمنی بیشتر از اندازهٔ صرف مدل، پیش‌بینی‌کنندهٔ آسیب‌پذیری است؛ به‌عبارت دیگر برخی ارائه‌دهندگان به‌شدت تحت تأثیر قرار گرفتند در حالی که دیگران مقاوم‌تر بودند.

علاوه بر آن، پارادوکسِ مقیاس مشاهده شد: مدل‌های کوچکتر در بسیاری از موارد پایداری بیشتری نسبت به مدل‌های بزرگ‌تر نشان دادند که ممکن است به دلیل توانایی کمتر در بازیابیِ نیتِ بلاغی یا رفتار محافظه‌کارانهٔ آن‌ها در برابر ورودی‌های نامتعارف باشد. ⚖️🔍

6.4.1 تفاوت میان مدل‌های پرچم‌دار 🌩️🛡️
برخی مدل‌های پرچم‌دار مانند gemini-2.5-pro و Deepseek نرخ ASR بالایی داشتند، در حالی که نمونه‌هایی از OpenAI و Anthropic مقاومت بیشتری نشان دادند. بنابراین مقیاس و توانایی صرف مدل تنها عامل نیست؛ سیاست‌های همسوسازی و داده‌های آموزشی نیز تعیین‌کننده‌اند. 🧩📐

6.4.2 پارادوکس مقیاس 🪜⚠️

مدل‌های کوچک‌تر (مثلاً gpt-5-nano) در برخی موارد امتناع بیشتری نشان دادند که می‌تواند ناشی از ناتوانی در رمزگشاییِ زبانِ بلاغی یا رفتار پیش‌فرض محافظه‌کارانه باشد. این نتیجه به این معنی است که رشد توانایی لزوماً با مقاومت ایمنی همراه نیست.

این پارادوکس نیاز به تحقیقات عمیق‌تر برای درک تعامل میان قابلیت و همسوسازی دارد تا بتوان سازوکارهای حفاظتی را به‌طور مؤثر تقویت کرد. 🔬❓

6.4.3 تفاوت میان مدل‌های اختصاصی و متن‌باز 🔐🔓

داده‌ها نشان می‌دهد که مدل‌های اختصاصی لزوماً بهتر از متن‌باز عمل نمی‌کنند؛ هر دو دسته دامنه‌ای از مقاومت تا آسیب‌پذیری را نشان دادند که بیشتر به طراحی ایمنی و سیاست‌های ارائه‌دهنده مربوط است تا به محرمانه بودن مدل.

این یافته تأکیدی است بر اینکه راه‌حل‌ها باید در سطح معماری و سیاست‌گذاری شکل گیرند و نه صرفاً متکی بر مالکیت مدل. 🏛️🔧

⚠️ 7️⃣محدودیت‌ها

مطالعه به سناریوی تک‌نوبتی محدود شده است؛ اثراتِ چندمرحله‌ای، تعاملات طولانی یا بهینه‌سازی‌های تعاملی در این کار بررسی نشده‌اند، بنابراین نتایج مربوط به حملات یک‌مرحله‌ای هستند و نمی‌توان آن‌ها را به تمام شرایطِ حقیقی توسعه‌یافته تعمیم داد. 🔬⏳

همچنین تبدیلِ شعریٔ MLCommons تنها با یک متاپرامپت و یک مدل تولیدی انجام شد؛ دیگر پیاده‌سازی‌ها یا سبک‌های شعری ممکن است نتایج کمی متفاوت تولید کنند. برچسب‌گذاری عمدتاً با قاضیانِ مدل انجام و تنها نمونه‌ای از خروجی‌ها انسانی‌سازی شد؛ بنابراین تخمین‌های ASR احتمالاً محافظه‌کارانه هستند. 📌⚖️

🔭8️⃣ کارهای آینده

جهتٔ بعدی مطالعه باید مکانیزم‌های درونیِ شکست را بررسی کند: کدام ویژگی‌های شعری (متافور، تراکم بلاغی، ساختار قافیه/وزن) مسئول کاهشِ امتناع‌اند و آیا می‌توان نشانگرهای نمایشیِ مشخصی یافت که به تفکیکِ نیتِ مضر کمک کنند. 🔬🧭

همچنین توسعهٔ آزمون‌های مقاوم‌تر، گسترش به زبان‌ها و فرم‌های شعری دیگر و ارزیابی در لایه‌های بالاترِ معماری (مانند فیلترهای پس‌زمینه یا سیستم‌های Retrieval-Augmented) ضروری است تا راهکارهای دفاعی عملی طراحی شود. 🌍🔁

🔚 نتیجه‌گیری:

این مقاله نشان داد که «شعر خصمانه» یک عاملِ سبکِ ساده اما قدرتمند است که می‌تواند در یک نوبتِ ساده مکانیزم‌های ایمنی بسیاری از مدل‌های زبانی را دور بزند و نرخِ خروجی‌های ناامن را به‌طور قابل‌توجهی افزایش دهد. این پدیده در خانواده‌ها و حوزه‌های مختلف بازتولید شد و بر محدودیت‌های فعلیِ روش‌های همسوسازی و ارزیابی تأکید می‌کند. 📣⚠️

نتیجه‌گیری کلی این است که ارزیابی‌ها و استانداردهای ایمنی باید شامل سناریوهای تغییر سبک و تحریفِ سطحی زبان شوند؛ در غیر این‌صورت ممکن است مقاومت مدل‌ها نسبت به ورودی‌های واقعیِ کاربران موردِ استفادهٔ بدخواهانه، به‌طور سیستماتیک دست‌کم گرفته شود. آیندهٔ پژوهش باید به شناسایی سازوکار داخلیِ این آسیب‌پذیری و توسعهٔ دفاع‌های مقاوم در برابر تغییر سبک بپردازد. 🔚🔬

متن کامل مقاله