بررسی علمی توانایی هوش مصنوعی در درک و انتقال طنز

کالبدشکافی عمیق تعمیم طنز در مدل‌های زبان بزرگ 😂

طنز، یکی از پیچیده‌ترین، ظریف‌ترین و انسانی‌ترین اشکال ارتباط است. این پدیده که از بازی‌های کلامی هوشمندانه و طعنه‌های زیرکانه تا پوچی و هجو را در بر می‌گیرد، نه تنها برای انسان‌ها چالشی شناختی است، بلکه به عنوان یکی از بزرگترین موانع در مسیر دستیابی به هوش مصنوعی واقعاً انسان‌مانند شناخته می‌شود. تحقیقات گذشته در حوزه “طنز محاسباتی” عمدتاً بر روی انواع بسیار خاص و محدود طنز متمرکز بوده‌اند. اما با توجه به اینکه طنز یک پدیده پویاست و به طور مداوم در فضای آنلاین اشکال جدیدی (مانند میم‌ها، آنتی‌هیومر و حتی “شکست‌های هوش مصنوعی”) به خود می‌گیرد، یک سوال اساسی و حیاتی مطرح می‌شود:

آیا یک مدل زبان بزرگ (LLM) می‌تواند یک “حس شوخ‌طبعی” کلی و قابل تعمیم را یاد بگیرد؟
به عبارت دیگر، اگر یک هوش مصنوعی را در درک یک نوع جوک آموزش دهیم، آیا می‌تواند بدون آموزش مستقیم، نوع دیگری از طنز را تشخیص دهد؟

یک پژوهش تازه با آزمایش‌های یادگیری انتقالی (Transfer Learning) روی چند سبک متفاوت طنز، به این پرسش پاسخ داده است.


آزمایشگاه طنز: چهار سبک برای آموزش هوش مصنوعی 🧪

برای بررسی قابلیت تعمیم طنز، محققان یک بستر آزمایشی متنوع ایجاد کردند که شامل چهار مجموعه داده کاملاً متمایز بود. هر کدام از این مجموعه‌ها نماینده یک سبک متفاوت از طنز هستند و درک آن‌ها نیازمند مهارت‌های شناختی خاصی است:


۱. سوالات آمازون (Amazon Questions) ❓

این مجموعه شامل پرسش‌های طعنه‌آمیز و کنایه‌دار کاربران درباره محصولات است. طنز این دسته معمولاً بر پایه ابهام زبانی، طعنه و بازی با منطق کاربرد محصول بنا شده است. برای درک آن، مدل باید زمینه را بفهمد و نیت پنهان کاربر را تشخیص دهد.

🔹 مثال‌ها:

  • “Will this banana protector also keep wolves away from my bananas?”

  • “If I use this waterproof watch while swimming, will it still tell me the time under the ocean?”


۲. تک‌خطی‌ها (One Liners) 〽️

این‌ها جملات کوتاه و تیز هستند که اغلب بر پایه پان (Pun) یا نقض انتظار شکل می‌گیرند. هدف آن‌ها ایجاد خنده سریع و لحظه‌ای است.

🔹 مثال‌ها:

  • “I couldn’t afford to fix the brakes on my car, so I made the horn louder.”

  • “Why don’t skeletons fight each other? They don’t have the guts.”


۳. تیترهای طعنه‌آمیز (Sarcasm Headlines) 😏

این مجموعه شامل تیترهای واقعی خبری در کنار تیترهای طنزآمیز وب‌سایت The Onion است. طنز این دسته معمولاً در اغراق، پوچی و هجو اجتماعی نهفته است و نیازمند درک زمینه سیاسی، اجتماعی یا فرهنگی است.

🔹 مثال‌ها:

  • “New York City introduces shoe-sharing program for pedestrians.”

  • “Nation’s dogs vow to continue barking at nothing in particular.”


۴. جوک‌های پدرانه ردیت (Reddit Dad Jokes) 👨

این جوک‌ها معمولاً ساختار روایی کوتاه دارند و بر پایه جناس (Wordplay) یا ارجاعات فرهنگی ساده بنا شده‌اند. آن‌ها به ظاهر ساده‌اند اما ترکیب روایت، طنز زبانی و ارجاع فرهنگی باعث پیچیدگی‌شان می‌شود.

چالش مهم در این مجموعه داده، نبود نمونه‌های منفی (غیرخنده‌دار) بود. برای رفع این مشکل، محققان با کمک GPT-4 نسخه‌هایی از جوک‌ها را بازنویسی کردند که ساختار اصلی و سبک زبانی حفظ شود اما عنصر خنده‌دار حذف گردد. سپس این نمونه‌ها به‌صورت دستی بررسی شدند و تنها در ۲.۶۳٪ موارد سبک اصلی از دست رفته بود.

🔹 مثال‌ها:

  • خنده‌دار: “Why can’t milk cartons walk? Because they lack toes (lactose).”

  • غیرخنده‌دار (بازنویسی‌شده): “Why can’t milk containers move? Because they lack limbs.”


آیا درک طنز در انسان‌ها قابل انتقال است؟ 🧠

پیش از بررسی عملکرد مدل‌های هوش مصنوعی، جالب است بدانیم که در خود انسان‌ها، آیا درک طنز بین سبک‌های مختلف قابل انتقال است یا نه. شواهد علوم اعصاب و روانشناسی نشان می‌دهد که پاسخ ترکیبی است:


۱. مکانیزم‌های مشترک

بسیاری از انواع طنز، صرف‌نظر از فرم‌شان، بر پایه یک فرایند شناختی مشترک بنا می‌شوند: حل ناهماهنگی (Incongruity Resolution).
به بیان ساده، مغز ما ابتدا یک انتظار می‌سازد، سپس با یک نتیجه‌ی غیرمنتظره مواجه می‌شود و تلاش می‌کند این ناهماهنگی را حل کند. همین فرایند باعث خنده یا لبخند می‌شود.

🔹 مثال:
“I told my wife she was drawing her eyebrows too high. She looked surprised.”
در اینجا، بازی کلامی با واژه “surprised” هم به معنای «متعجب» و هم به معنای «ظاهر چهره با ابروی بالا» عمل می‌کند.


۲. فعال‌سازی مغزی متفاوت

با وجود مکانیزم مشترک، مطالعات fMRI نشان داده‌اند که سبک‌های مختلف طنز، ناحیه‌های متفاوتی از مغز را فعال می‌کنند:

  • پان و جناس (Wordplay / Puns): بیشتر نواحی پردازش زبانی و گفتاری در نیمکره چپ.

  • کنایه و طعنه (Sarcasm / Irony): نیازمند پردازش نیت دیگران، بنابراین نواحی مرتبط با Theory of Mind فعال می‌شوند.

  • طنز مبتنی بر روایت یا داستان (Narrative Humor): بخش‌های مربوط به حافظه و پردازش روایی درگیر می‌شوند.

🔹 مثال (کنایه):
“Oh great, another Monday morning meeting… just what I needed.”
اینجا منظور واقعی برعکس ظاهر جمله است و نیاز به درک نیت گوینده دارد.


نتایج کلیدی: سلسله‌مراتب، عدم تقارن و نقش تنوع 📊

محققان دو مدل قدرتمند LLaMA-2 و Mistral را در سه سناریو آموزش دادند:
۱. آموزش روی یک سبک طنز،
۲. آموزش روی دو سبک،
۳. آموزش روی سه سبک.

سپس مدل‌ها روی یک سبک کاملاً جدید (که هرگز در آموزش ندیده بودند) آزمایش شدند. نتایج چند الگوی مهم را نشان داد:


۱. قابلیت انتقال وجود دارد، اما نامتقارن است

مدل‌ها نشان دادند که تا حدی می‌توانند مهارت طنز را از یک سبک به سبک دیگر منتقل کنند.

  • Mistral بهترین عملکرد را داشت و توانست تا ۷۵٪ دقت در شناسایی طنزهای ناشناخته کسب کند.

  • اما انتقال همیشه متقارن نبود: یادگیری از یک سبک لزوماً به معنای توانایی درک یک سبک دیگر نبود.

🔹 مثال:
اگر مدلی با Amazon Questions آموزش ببیند، می‌تواند تا حد خوبی One Liners را بفهمد.
اما برعکس آن درست نیست: مدلی که فقط با One Liners آموزش دیده، در درک طنزهای پیچیده‌تر آمازون عملکرد ضعیفی دارد.


۲. جوک‌های پدرانه: آموزگار قوی، شاگرد ضعیف

یکی از شگفت‌انگیزترین یافته‌ها مربوط به Reddit Dad Jokes بود:

  • وقتی مدل با Dad Jokes آموزش داده شد، توانست به‌خوبی به سایر سبک‌ها تعمیم دهد (۶۸–۷۱٪ دقت).

  • اما وقتی آموزش روی سایر سبک‌ها انجام شد، عملکرد مدل در شناسایی Dad Jokes پایین بود (۵۱–۶۲٪ دقت).

این یعنی Dad Jokes نقش یک «آموزگار قوی» را دارند، اما خودشان به سختی قابل یادگیری هستند (یک «شاگرد ضعیف»).

🔹 علت:

  • ترکیب چندین مکانیزم طنز در یک ساختار ساده: روایت کوتاه + جناس (Pun) + ارجاعات فرهنگی.

  • به همین دلیل، یادگیری Dad Jokes به مدل یک «پایه مفهومی عمیق‌تر» می‌دهد که قابل انتقال به دیگر سبک‌هاست.

🔹 مثال:

  • “Why can’t you trust stairs? Because they’re always up to something.” (پان + روایت ساده)

  • “Did you hear about the restaurant on the moon? Great food, no atmosphere.” (جناس معنایی با واژه atmosphere)


📌 این یافته‌ها نشان می‌دهد که طنز هم مثل زبان در انسان‌ها یک مسیر رشد سلسله‌مراتبی دارد: کودکان اول جوک‌های ساده‌تر مثل Dad Jokes را درک می‌کنند و بعد به سمت طنز پیچیده‌تر مثل کنایه و طعنه می‌روند.

📌 جدول ۱ – روابط انتقال طنز بین سبک‌ها:

سبک مبدأ سبک مقصد کیفیت انتقال
Dad Jokes One Liners / Headlines / Amazon ✅ قوی
Dad Jokes → Dad Jokes ❌ ضعیف
Amazon Headlines / One Liners ✅ متوسط تا قوی
Amazon → Dad Jokes ⚠️ متوسط
One Liners Dad Jokes ❌ ضعیف
Headlines Dad Jokes ⚠️ متوسط

۳. قدرت تنوع: با احتیاط!

  • آموزش با داده‌های متنوع (دو یا سه سبک) به طور میانگین ۱.۸۸ تا ۴.۰۵٪ بهبود ایجاد کرد.

  • بیشترین سود از «یک به دو منبع» بود. افزودن منبع سوم بازده کمتری داشت یا حتی کمی افت (بخصوص برای Dad Jokes).

📊 شکل ۱ – اثر تنوع داده بر تعمیم طنز:

نمودار اثر تنوع داده‌ها


۴. تفاوت معماری مدل‌ها

  • Mistral در همه حالت‌ها از LLaMA-2 بهتر بود و به طور پایدار ۶۷–۷۵٪ انتقال داشت.

  • اما LLaMA-2 از افزایش تنوع بیشتر نفع برد (+۴٪ میانگین)، درحالی‌که Mistral پس از دو منبع تقریباً به سقف رسید.

  • این تفاوت نشان می‌دهد که بخشی از توانایی تعمیم به معماری مدل هم وابسته است.

۵. یافته جالب درباره شباهت داده‌ها

  • برخلاف انتظار، مجموعه‌های پیچیده‌تر (Dad Jokes و Amazon) بیشترین شباهت درونی (self-similarity) را داشتند.

  • در مقابل، One Liners کمترین شباهت درونی داشتند.

  • این تناقض نشان می‌دهد که «تنوع ظاهری» لزوماً به معنای «تنوع آماری» نیست.


نتیجه‌گیری: یک جوک برای حکمرانی بر همه؟ 💡

این پژوهش نشان داد:

  • انتقال طنز ممکن است: مدل‌ها می‌توانند مکانیزم‌های طنز را به سبک‌های جدید تعمیم دهند.

  • روابط طنز سلسله‌مراتبی است: برخی سبک‌ها (مثل Dad Jokes) پایه‌ای‌تر و آموزگار بهترند، در حالی‌که برخی دیگر پذیرنده‌ی بهترند (مثل Headlines).

  • تنوع داده حیاتی است: اما بازده آن محدود و وابسته به نوع طنز است.

  • Mistral از LLaMA-2 بهتر بود، ولی هر دو الگوهای مشابهی از روابط طنز را نشان دادند.


محدودیت‌ها و مسیرهای آینده 🚧

  • پژوهش فقط روی متون کوتاه انگلیسی انجام شد؛ طنز تصویری (میم‌ها، کارتون‌ها)، چندزبانه یا گفت‌وگویی پوشش داده نشد.

  • مجموعه‌داده‌ها ممکن است بازتاب‌دهنده‌ی سوگیری‌های فرهنگی یا اجتماعی باشند (مثلاً Dad Jokes بیشتر نماینده یک جامعه خاص در ردیت است).

  • طنز ذاتاً می‌تواند شامل محتوای حساس یا توهین‌آمیز باشد، هرچند در داده‌های بررسی‌شده مورد حادی یافت نشد.

گام‌های بعدی:
گسترش پژوهش به زبان‌ها و فرهنگ‌های مختلف، طنز چندرسانه‌ای، و بررسی ارتباط الگوهای یادگیری ماشین با نظریه‌های علوم شناختی و عصب‌شناسی.بررسی علمی توانایی هوش مصنوعی در درک و انتقال طنز

📎منبع

آنچه در این مطلب میخوانید !
مقدمه در سالهای گذشته در مرکز ملی پاسخگویی به سؤالات پایگاه اسلام کوئست و برخی...
معرفی پروژه پروژه «یکپارچه سازی و هوشمندسازی قوانین و مقررات جمهوری اسلامی ایران»، در راستای...

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *