به سوی ارزیابی دقیق سیستم‌های RAG: چالش‌های بررسی دقیق 📊🔍


چشم‌انداز کاربرد و محدودیت‌های سیستم‌های RAG

سیستم‌های RAG با چالش‌هایی مانند توهمات و پاسخ‌های نادرست مواجه‌اند. این مقاله روش‌های ارزیابی دقیق، از جمله PPI و خوشه‌بندی K-Means، را برای بهبود عملکرد RAG بررسی می‌کند.

مقدمه

سیستم‌های بازیابی و تولید اطلاعات (RAG) با ترکیب بازیابی اطلاعات و تولید متن توسط مدل‌های زبانی پیشرفته (LLM)، در پردازش زبان طبیعی تحول ایجاد کرده‌اند. این سیستم‌ها در پاسخ به سؤالات پیچیده قدرتمندند، اما با چالش‌هایی مانند تولید اطلاعات غیرقابل‌تأیید (توهمات)، پاسخ‌های تصادفی، پاسخ به زبان نادرست (مثلاً انگلیسی برای سؤالات فارسی)، و ارجاعات نادرست مواجه‌اند. این مشکلات در زمینه‌های حساس مانند امور مالی می‌توانند به تصمیم‌گیری‌های اشتباه منجر شوند.
این مقاله، بر اساس پژوهش گرگوری مارتینون و همکاران در کارگاه EVAL LLM 2025، چالش‌های ارزیابی سیستم‌های RAG را بررسی کرده و روش‌هایی مانند خوشه‌بندی K-Means و روش ترکیبی PPI را پیشنهاد می‌دهد. مطالعه بر سیستم Alban، دستیار مجازی یک صندوق سرمایه‌گذاری بین‌المللی با مدیریت میلیاردها یورو و مبتنی بر GPT-4، متمرکز است. این محتوا برای مخاطبان علمی و عمومی طراحی شده و با اصول SEO بهینه‌سازی شده است.


چالش‌های ارزیابی سیستم‌های RAG 🛠️

سیستم‌های RAG با نقاط ضعف زیر در ارزیابی دقیق مواجه‌اند:

  • پاسخ‌های نادرست یا ناقص 🚫: مثلاً، سؤالی درباره سودآوری یک شرکت ممکن است پاسخی بدون داده‌های مالی دقیق دریافت کند.
  • پاسخ در زبان نادرست 🌐: برای سؤالی به فارسی درباره تحلیل مالی، سیستم ممکن است به انگلیسی پاسخ دهد.
  • عدم ارجاع به منابع معتبر 📚: پاسخ‌ها گاهی بدون منبع یا با ارجاع به اسناد غیرمرتبط ارائه می‌شوند.
  • پاسخ‌های غیرمرتبط 📝: پاسخ ممکن است به موضوعات بی‌ربط بپردازد، مانند بحث درباره فناوری به‌جای امور مالی.

این چالش‌ها نیاز به روش‌های ارزیابی دقیق‌تر را نشان می‌دهند. 🔎


روش‌شناسی پژوهش: سیستم Alban 💼

سیستم Alban برای پشتیبانی از فرآیند Due Diligence در یک صندوق سرمایه‌گذاری بین‌المللی طراحی شده است. ویژگی‌های فنی آن شامل:

  • پایه فنی: GPT-4 با دمای غیرصفر برای پاسخ‌های متنوع.
  • کاربران فعال: بیش از 50 کاربر.
  • حجم اسناد: دسترسی به بیش از 100,000 سند در هر بررسی.
  • معماری: RAG پیشرفته با 15 منبع نزدیک.

روش‌های پیشنهادی برای ارزیابی دقیق 📈

پژوهشگران روش‌های زیر را برای بهبود ارزیابی سیستم‌های RAG پیشنهاد کرده‌اند:

1. جمع‌آوری مجموعه داده 📋

  • اسناد: 300 سند از شرکت DataCorp.
  • سؤالات: 121 سؤال طبقه‌بندی‌شده بر اساس موضوع (مالی، منابع انسانی، فناوری اطلاعات) و دشواری.
  • تکرار: تولید 20 پاسخ برای هر سؤال برای بررسی تنوع پاسخ‌ها.

2. تجزیه پاسخ‌ها به جملات ✂️

پاسخ‌ها به جملات کوچک‌تر تقسیم می‌شوند تا خطاها (مانند توهمات) دقیق‌تر شناسایی شوند. مثلاً، پاسخ «شرکت X در سال 2023 سود 10 میلیون یورو داشت» بررسی می‌شود تا تأیید شود از منابع معتبر است.

3. نمونه‌گیری طبقه‌بندی‌شده 🎯

  • نمونه‌گیری تصادفی: انتخاب پاسخ‌ها و جملات به‌صورت تصادفی.
  • خوشه‌بندی K-Means: گروه‌بندی جملات مشابه (مثلاً جملات درباره سودآوری) برای تحلیل الگوها. خوشه‌بندی K-Means یعنی دسته‌بندی داده‌ها به گروه‌های مشابه بر اساس ویژگی‌هایشان.
  • انتخاب سه مشاهده از هر خوشه: کاهش هزینه‌های ارزیابی انسانی.

4. پروتکل ارزیابی جامع 🧑‍⚖️

ارزیابی توسط انسان‌ها و LLM-Judge (مدل زبانی به‌عنوان قاضی) انجام می‌شود. معیارها شامل:

  • معیارهای خودکار:
    • نرخ زبان صحیح: درصد پاسخ‌های به زبان درست (مثلاً فارسی برای سؤالات فارسی).
    • نرخ پاسخ: درصد پاسخ‌های غیرخودداری.
    • نرخ ارجاعات عملکردی: درصد جملات با منابع معتبر.
  • معیارهای تحلیلی:
    • مرتبط بودن: درصد پاسخ‌های مرتبط با سؤال.
    • صحت: درصد جملاتی که ادعاهایشان از منابع قابل‌استنتاج است.

5. روش ترکیبی PPI 🔄

روش PPI (ترکیب هوشمند ارزیابی انسانی و ماشینی) از نقاط قوت هر دو روش استفاده می‌کند. برای مثال، اگر LLM-Judge یک پاسخ را «درست» ارزیابی کند، اما انسان آن را «غلط» بداند، PPI با وزن‌دهی به ارزیابی انسانی، دقت را افزایش می‌دهد. این روش هزینه‌ها را کاهش داده و فواصل اطمینان آماری فراهم می‌کند، اما نیازمند توافق بالای 93% بین انسان و LLM-Judge است.


نتایج کلیدی پژوهش 📈

نتایج (شکل ) نشان‌دهنده کاهش عملکرد RAG با افزایش پیچیدگی سؤالات است:

  • تأثیر پیچیدگی سؤالات:
    • سؤالات ساده: مانند «سود شرکت X در 2023؟» با عملکرد بالا.
    • سؤالات پیچیده: مانند «تحلیل ریسک سرمایه‌گذاری در شرکت X» با کاهش عملکرد و گرایش به پاسخ انگلیسی.
    • سؤالات نامناسب: مانند «آب‌وهوای پاریس» که سیستم به‌اشتباه پاسخ می‌دهد.
  • تحلیل بر اساس موضوع:
    موضوع مرتبط بودن (انسان) صحت (انسان)
    مالی 85% 88%
    منابع انسانی 78% 82%
    فناوری اطلاعات 32% 80%
  • مقایسه روش‌های ارزیابی:
    • حاشیه‌نویسی انسانی: دقیق اما پرهزینه.
    • قاضی LLM: مقیاس‌پذیر اما گاهی مغرضانه.
    • PPI: دقت نزدیک به انسانی با هزینه کمتر، اما توافق 50-80% در این مطالعه کارایی را محدود کرد.
  • توهمات: 12-20% جملات حاوی اطلاعات غیرقابل‌استنتاج بودند، مانند ادعای سود بدون منبع.
  • مشکلات زبانی: پاسخ به انگلیسی برای سؤالات پیچیده.
  • عدم خودداری مناسب: پاسخ‌دهی به سؤالات بی‌ربط.

پروتکل پیشنهادی برای بهبود ارزیابی‌ها 🛠️

  1. تولید پاسخ‌های متعدد: برای هر سؤال چندین پاسخ تولید می‌شود.
  2. تجزیه به جملات: تقسیم پاسخ‌ها به جملات کوچک.
  3. خوشه‌بندی و نمونه‌گیری: گروه‌بندی و انتخاب تصادفی جملات.
  4. ارزیابی ترکیبی: استفاده از انسان و LLM-Judge.
  5. معیارهای چندگانه: سنجش زبان، مرتبط بودن، و صحت.

راه‌های بهبود و توصیه‌ها 🚀

  1. بهبودهای فنی:
    • ارزیابی در سطح کلمات: بررسی دقیق‌تر از سطح جملات.
    • بهینه‌سازی embedding: استفاده از موتورهای تخصصی مانند Hugging Face.
    • تست چندین LLM: مقایسه مدل‌های مختلف.
  2. استراتژی‌های عملیاتی:
    • آموزش مستمر: بهبود با بازخورد کاربران.
    • نظارت فعال: سیستم‌های هشدار برای خطاها.
    • تست A/B: آزمایش تنظیمات مختلف.

نتیجه‌گیری: آینده ارزیابی RAG 🔮

سیستم‌های RAG پتانسیل بالایی دارند، اما ارزیابی دقیق آن‌ها ضروری است. روش PPI با ترکیب ارزیابی انسانی و ماشینی امیدوارکننده است، اما نیاز به LLM-Judge با توافق بالای 93% دارد. توصیه‌ها شامل بودجه‌بندی دقیق، انتخاب معیارهای مناسب، و نظارت مستمر است. با پیشرفت LLM‌ها، RAG‌ها قابل‌اعتمادتر خواهند شد، اما نظارت انسانی همچنان کلیدی است. برای اطلاعات بیشتر، به مقاله اصلی مراجعه کنید. 🌟


جمع‌بندی کلی 🌍

سیستم‌های RAG به‌عنوان ابزارهای هوشمندی عمل می‌کنند که اطلاعات را از پایگاه‌های داده گسترده استخراج کرده و پاسخ‌هایی در زمینه‌هایی مانند سودآوری شرکت‌ها یا تحلیل مالی ارائه می‌دهند. با این حال، این سیستم‌ها ممکن است با چالش‌هایی نظیر ارائه پاسخ‌های بی‌ربط، استفاده از زبان نادرست (مانند انگلیسی به‌جای فارسی)، یا تولید اطلاعات بدون پشتوانه مستند مواجه شوند. این مقاله نشان می‌دهد که پژوهشگران با بهره‌گیری از روش‌هایی مانند خوشه‌بندی پاسخ‌ها و ترکیب ارزیابی انسانی و ماشینی (روش PPI) در تلاش برای رفع این مشکلات هستند. نتایج حاکی از آن است که این سیستم‌ها در سؤالات ساده عملکرد مطلوبی دارند، اما در سؤالات پیچیده یا موضوعاتی مانند فناوری اطلاعات همچنان نیاز به بهبود دارند. برای ارتقای کیفیت، بررسی مداوم و استفاده از بازخورد کاربران ضروری به نظر می‌رسد. در استفاده از این سیستم‌ها، توصیه می‌شود پاسخ‌ها با منابع اصلی تطبیق داده شوند، زیرا هنوز به‌طور کامل قابل‌اعتماد نیستند. با این وجود، با پیشرفت فناوری، این ابزارها می‌توانند در آینده نقش مهمی در فعالیت‌های روزمره و حرفه‌ای ایفا کنند.

 


نویسنده: گرگوری مارتینون و همکاران
منتشرشده در: arxiv.org 2025
تاریخ انتشار: 2025

 

آنچه در این مطلب میخوانید !
مقدمه در سالهای گذشته در مرکز ملی پاسخگویی به سؤالات پایگاه اسلام کوئست و برخی...

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *