چشمانداز کاربرد و محدودیتهای سیستمهای RAG
سیستمهای RAG با چالشهایی مانند توهمات و پاسخهای نادرست مواجهاند. این مقاله روشهای ارزیابی دقیق، از جمله PPI و خوشهبندی K-Means، را برای بهبود عملکرد RAG بررسی میکند.
مقدمه
سیستمهای بازیابی و تولید اطلاعات (RAG) با ترکیب بازیابی اطلاعات و تولید متن توسط مدلهای زبانی پیشرفته (LLM)، در پردازش زبان طبیعی تحول ایجاد کردهاند. این سیستمها در پاسخ به سؤالات پیچیده قدرتمندند، اما با چالشهایی مانند تولید اطلاعات غیرقابلتأیید (توهمات)، پاسخهای تصادفی، پاسخ به زبان نادرست (مثلاً انگلیسی برای سؤالات فارسی)، و ارجاعات نادرست مواجهاند. این مشکلات در زمینههای حساس مانند امور مالی میتوانند به تصمیمگیریهای اشتباه منجر شوند.
این مقاله، بر اساس پژوهش گرگوری مارتینون و همکاران در کارگاه EVAL LLM 2025، چالشهای ارزیابی سیستمهای RAG را بررسی کرده و روشهایی مانند خوشهبندی K-Means و روش ترکیبی PPI را پیشنهاد میدهد. مطالعه بر سیستم Alban، دستیار مجازی یک صندوق سرمایهگذاری بینالمللی با مدیریت میلیاردها یورو و مبتنی بر GPT-4، متمرکز است. این محتوا برای مخاطبان علمی و عمومی طراحی شده و با اصول SEO بهینهسازی شده است.
چالشهای ارزیابی سیستمهای RAG 🛠️
سیستمهای RAG با نقاط ضعف زیر در ارزیابی دقیق مواجهاند:
- پاسخهای نادرست یا ناقص 🚫: مثلاً، سؤالی درباره سودآوری یک شرکت ممکن است پاسخی بدون دادههای مالی دقیق دریافت کند.
- پاسخ در زبان نادرست 🌐: برای سؤالی به فارسی درباره تحلیل مالی، سیستم ممکن است به انگلیسی پاسخ دهد.
- عدم ارجاع به منابع معتبر 📚: پاسخها گاهی بدون منبع یا با ارجاع به اسناد غیرمرتبط ارائه میشوند.
- پاسخهای غیرمرتبط 📝: پاسخ ممکن است به موضوعات بیربط بپردازد، مانند بحث درباره فناوری بهجای امور مالی.
این چالشها نیاز به روشهای ارزیابی دقیقتر را نشان میدهند. 🔎
روششناسی پژوهش: سیستم Alban 💼
سیستم Alban برای پشتیبانی از فرآیند Due Diligence در یک صندوق سرمایهگذاری بینالمللی طراحی شده است. ویژگیهای فنی آن شامل:
- پایه فنی: GPT-4 با دمای غیرصفر برای پاسخهای متنوع.
- کاربران فعال: بیش از 50 کاربر.
- حجم اسناد: دسترسی به بیش از 100,000 سند در هر بررسی.
- معماری: RAG پیشرفته با 15 منبع نزدیک.
روشهای پیشنهادی برای ارزیابی دقیق 📈
پژوهشگران روشهای زیر را برای بهبود ارزیابی سیستمهای RAG پیشنهاد کردهاند:
1. جمعآوری مجموعه داده 📋
- اسناد: 300 سند از شرکت DataCorp.
- سؤالات: 121 سؤال طبقهبندیشده بر اساس موضوع (مالی، منابع انسانی، فناوری اطلاعات) و دشواری.
- تکرار: تولید 20 پاسخ برای هر سؤال برای بررسی تنوع پاسخها.
2. تجزیه پاسخها به جملات ✂️
پاسخها به جملات کوچکتر تقسیم میشوند تا خطاها (مانند توهمات) دقیقتر شناسایی شوند. مثلاً، پاسخ «شرکت X در سال 2023 سود 10 میلیون یورو داشت» بررسی میشود تا تأیید شود از منابع معتبر است.
3. نمونهگیری طبقهبندیشده 🎯
- نمونهگیری تصادفی: انتخاب پاسخها و جملات بهصورت تصادفی.
- خوشهبندی K-Means: گروهبندی جملات مشابه (مثلاً جملات درباره سودآوری) برای تحلیل الگوها. خوشهبندی K-Means یعنی دستهبندی دادهها به گروههای مشابه بر اساس ویژگیهایشان.
- انتخاب سه مشاهده از هر خوشه: کاهش هزینههای ارزیابی انسانی.
4. پروتکل ارزیابی جامع 🧑⚖️
ارزیابی توسط انسانها و LLM-Judge (مدل زبانی بهعنوان قاضی) انجام میشود. معیارها شامل:
- معیارهای خودکار:
- نرخ زبان صحیح: درصد پاسخهای به زبان درست (مثلاً فارسی برای سؤالات فارسی).
- نرخ پاسخ: درصد پاسخهای غیرخودداری.
- نرخ ارجاعات عملکردی: درصد جملات با منابع معتبر.
- معیارهای تحلیلی:
- مرتبط بودن: درصد پاسخهای مرتبط با سؤال.
- صحت: درصد جملاتی که ادعاهایشان از منابع قابلاستنتاج است.
5. روش ترکیبی PPI 🔄
روش PPI (ترکیب هوشمند ارزیابی انسانی و ماشینی) از نقاط قوت هر دو روش استفاده میکند. برای مثال، اگر LLM-Judge یک پاسخ را «درست» ارزیابی کند، اما انسان آن را «غلط» بداند، PPI با وزندهی به ارزیابی انسانی، دقت را افزایش میدهد. این روش هزینهها را کاهش داده و فواصل اطمینان آماری فراهم میکند، اما نیازمند توافق بالای 93% بین انسان و LLM-Judge است.
نتایج کلیدی پژوهش 📈
نتایج (شکل ) نشاندهنده کاهش عملکرد RAG با افزایش پیچیدگی سؤالات است:

- تأثیر پیچیدگی سؤالات:
- سؤالات ساده: مانند «سود شرکت X در 2023؟» با عملکرد بالا.
- سؤالات پیچیده: مانند «تحلیل ریسک سرمایهگذاری در شرکت X» با کاهش عملکرد و گرایش به پاسخ انگلیسی.
- سؤالات نامناسب: مانند «آبوهوای پاریس» که سیستم بهاشتباه پاسخ میدهد.
- تحلیل بر اساس موضوع:
موضوع مرتبط بودن (انسان) صحت (انسان) مالی 85% 88% منابع انسانی 78% 82% فناوری اطلاعات 32% 80% - مقایسه روشهای ارزیابی:
- حاشیهنویسی انسانی: دقیق اما پرهزینه.
- قاضی LLM: مقیاسپذیر اما گاهی مغرضانه.
- PPI: دقت نزدیک به انسانی با هزینه کمتر، اما توافق 50-80% در این مطالعه کارایی را محدود کرد.
- توهمات: 12-20% جملات حاوی اطلاعات غیرقابلاستنتاج بودند، مانند ادعای سود بدون منبع.
- مشکلات زبانی: پاسخ به انگلیسی برای سؤالات پیچیده.
- عدم خودداری مناسب: پاسخدهی به سؤالات بیربط.
پروتکل پیشنهادی برای بهبود ارزیابیها 🛠️
- تولید پاسخهای متعدد: برای هر سؤال چندین پاسخ تولید میشود.
- تجزیه به جملات: تقسیم پاسخها به جملات کوچک.
- خوشهبندی و نمونهگیری: گروهبندی و انتخاب تصادفی جملات.
- ارزیابی ترکیبی: استفاده از انسان و LLM-Judge.
- معیارهای چندگانه: سنجش زبان، مرتبط بودن، و صحت.
راههای بهبود و توصیهها 🚀
- بهبودهای فنی:
- ارزیابی در سطح کلمات: بررسی دقیقتر از سطح جملات.
- بهینهسازی embedding: استفاده از موتورهای تخصصی مانند Hugging Face.
- تست چندین LLM: مقایسه مدلهای مختلف.
- استراتژیهای عملیاتی:
- آموزش مستمر: بهبود با بازخورد کاربران.
- نظارت فعال: سیستمهای هشدار برای خطاها.
- تست A/B: آزمایش تنظیمات مختلف.
نتیجهگیری: آینده ارزیابی RAG 🔮
سیستمهای RAG پتانسیل بالایی دارند، اما ارزیابی دقیق آنها ضروری است. روش PPI با ترکیب ارزیابی انسانی و ماشینی امیدوارکننده است، اما نیاز به LLM-Judge با توافق بالای 93% دارد. توصیهها شامل بودجهبندی دقیق، انتخاب معیارهای مناسب، و نظارت مستمر است. با پیشرفت LLMها، RAGها قابلاعتمادتر خواهند شد، اما نظارت انسانی همچنان کلیدی است. برای اطلاعات بیشتر، به مقاله اصلی مراجعه کنید. 🌟
جمعبندی کلی 🌍
سیستمهای RAG بهعنوان ابزارهای هوشمندی عمل میکنند که اطلاعات را از پایگاههای داده گسترده استخراج کرده و پاسخهایی در زمینههایی مانند سودآوری شرکتها یا تحلیل مالی ارائه میدهند. با این حال، این سیستمها ممکن است با چالشهایی نظیر ارائه پاسخهای بیربط، استفاده از زبان نادرست (مانند انگلیسی بهجای فارسی)، یا تولید اطلاعات بدون پشتوانه مستند مواجه شوند. این مقاله نشان میدهد که پژوهشگران با بهرهگیری از روشهایی مانند خوشهبندی پاسخها و ترکیب ارزیابی انسانی و ماشینی (روش PPI) در تلاش برای رفع این مشکلات هستند. نتایج حاکی از آن است که این سیستمها در سؤالات ساده عملکرد مطلوبی دارند، اما در سؤالات پیچیده یا موضوعاتی مانند فناوری اطلاعات همچنان نیاز به بهبود دارند. برای ارتقای کیفیت، بررسی مداوم و استفاده از بازخورد کاربران ضروری به نظر میرسد. در استفاده از این سیستمها، توصیه میشود پاسخها با منابع اصلی تطبیق داده شوند، زیرا هنوز بهطور کامل قابلاعتماد نیستند. با این وجود، با پیشرفت فناوری، این ابزارها میتوانند در آینده نقش مهمی در فعالیتهای روزمره و حرفهای ایفا کنند.
نویسنده: گرگوری مارتینون و همکاران
منتشرشده در: arxiv.org 2025
تاریخ انتشار: 2025