افزایش کارایی مدل‌های زبانی بزرگ: استخراج دانش RAG برای آموزش خودکار و بهینه

تنظیم دقیق با تولید تقویت‌شده با بازیابی (RAG) برای بهبود یادگیری مهارت‌های جدید در مدل‌های زبانی بزرگ

 


مقدمه: انقلابی در آموزش عامل‌های هوش مصنوعی

در عصر حاضر، مدل‌های زبانی بزرگ (LLM) به طور فزاینده‌ای به عنوان عامل‌هایی که با محیط‌ها تعامل می‌کنند تا وظایف چند مرحله‌ای را تکمیل کنند، مستقر می‌شوند. موفقیت در این زمینه نه تنها نیازمند تولید متن قابل قبول است، بلکه نیازمند حفظ اهداف در طول تعاملات طولانی، مدیریت وضعیت و پیش‌شرط‌ها، و بازیابی از خطاها می‌باشد.تحقیق جدیدی که توسط حمید ابراهیم، نیکولای روزانوف و مارک ری از کالج امپریال لندن انجام شده، رویکرد نوآورانه‌ای را ارائه می‌دهد که مزایای تولید تقویت‌شده با بازیابی (RAG) و تنظیم دقیق را ترکیب می‌کند، در حالی که محدودیت‌های فردی آنها را از بین می‌برد.

درک چالش‌های فعلی در عامل‌های LLM

مشکلات رایج در عامل‌های مبتنی بر LLM

عامل‌های مدل زبانی بزرگ که برای وظایف چند مرحله‌ای مستقر می‌شوند، اغلب به روش‌های قابل پیش‌بینی شکست می‌خورند. این شکست‌ها شامل تلاش برای انجام اقداماتی با پیش‌شرط‌های برآورده نشده، صدور دستورات تکراری، یا مدیریت نادرست محدودیت‌های محیطی می‌باشد. این چالش‌ها به ویژه در محیط‌های تعاملی پیچیده مانند ALFWorld (وظایف خانگی) و WebShop (خرید آنلاین) مشهود است.

رویکردهای موجود ومحدودیت‌های آنها

روش‌های ساختاریافته اعلان‌گذاری مانند ReAct و StateAct داربست‌هایی برای استدلال و ردیابی وضعیت فراهم می‌کنند. رویکردهای خود-بازتابی مانند Reflexion امکان یادگیری از اشتباهات را در طول چندین تلاش فراهم می‌آورند. روش‌های تقویت‌شده با بازیابی دانش خارجی را برای هدایت تصمیمات تزریق می‌کنند. با این حال، هر رویکرد دارای معاوضاتی است: بازیابی هزینه توکن و پیچیدگی استقرار را اضافه می‌کند، تنظیم دقیق خطر بیش‌برازش را دارد و نیازمند داده‌های قابل توجه است، در حالی که خود-بازتابی فرض می‌کند که چندین تلاش امکان‌پذیر است.

معرفی خط لوله نوآورانه: ترکیب RAG و تقطیر

بینش کلیدی تحقیق

بینش کلیدی این تحقیق این است که تولید تقویت‌شده با بازیابی نیازی به باقی ماندن به عنوان یک وابستگی دائمی در زمان اجرا ندارد. در عوض، می‌تواند به عنوان منبعی از نظارت آموزشی بهبود یافته عمل کند که در پارامترهای مدل درونی‌سازی می‌شود.

مراحل خط لوله چهار مرحله‌ای

مرحله A – اجرای عامل پایه

در این مرحله، عامل‌های پایه (ReAct یا StateAct) در سراسر بخش آموزشی مستقر می‌شوند و مسیرهای موفق و ناموفق جمع‌آوری می‌شوند. موفقیت‌ها مجموعه داده تنظیم دقیق نظارت‌شده پایه را تشکیل می‌دهند؛ شکست‌ها به عنوان ورودی برای استخراج راهنمایی استفاده می‌شوند.

مرحله B – استخراج خودکار راهنمایی

برای هر مسیر شکست‌خورده، یک مثال کامل شکست حاوی دستورالعمل وظیفه، مشاهده اولیه، توالی کامل اقدام، و مشاهدات حاصل ساخته می‌شود. سپس GPT-4o برای تولید 1-4 راهنمایی امری که شکست را تشخیص می‌دهد و راهنمایی قابل تعمیم ارائه می‌دهد، استفاده می‌شود.

مرحله C – تولید داده معلم

با توجه به دستورالعمل و مشاهده اولیه، دسته وظیفه تعیین می‌شود و راهنمایی‌های مرتبط بازیابی می‌شوند. این راهنمایی‌ها یک بار در شروع اپیزود تزریق می‌شوند و سپس معلم برای بقیه اپیزود اجرا می‌شود.

مرحله D – ساخت مجموعه داده و آموزش

دو مجموعه داده مکمل تعریف می‌شوند: مجموعه داده پایه از مسیرهای موفق عامل پایه، و مجموعه داده RAG از مسیرهای موفق معلم تقویت‌شده با بازیابی، با حذف رشته‌های راهنمایی از متن سریال‌شده.

جزئیات فنی پیاده‌سازی

مکانیزم استخراج راهنمایی

فرآیند استخراج راهنمایی‌ها از شکست‌های عامل‌های پایه، بدون نیاز به قوانین دست‌ساز انجام می‌شود. راهنمایی‌ها باید امری باشند، از جایگزین‌ها برای عمومیت استفاده کنند، و بر پیش‌شرط‌ها و توالی‌بندی تاکید کنند. نمونه‌هایی از راهنمایی‌های استخراج شده شامل:

  • اطمینان حاصل کنید که {ظرف} قبل از تلاش برای قرار دادن {شیء} در داخل آن باز است
  • قبل از تلاش برای برداشتن اقلام اضافی، ظرفیت موجودی را تأیید کنید
  • از یک الگوی جستجوی سیستماتیک برای جلوگیری از از دست دادن {شیء} در {مکان} استفاده کنید.

مکانیزم بازیابی

در زمان t=0، مجموعه ثابتی از k راهنمایی از بانک مخصوص دسته بازیابی می‌شود، مشروط بر دستورالعمل وظیفه و مشاهده اولیه. هیچ بازیابی اضافی در طول اپیزود رخ نمی‌دهد، عامل باید برای بقیه مسیر به این مجموعه ثابت راهنمایی‌ها تکیه کند.

پیکربندی آموزش

آداپتورهای کم‌رتبه (LoRA) در پروژکشن‌های توجه و MLP از ستون فقرات آموزش داده می‌شوند در حالی که تمام وزن‌های پایه منجمد می‌مانند. این امر شایستگی زبان عمومی را حفظ می‌کند و به‌روزرسانی‌های پایدار با ردپای حافظه کوچک ایجاد می‌کند.

نتایج تجربی و دستاوردها

عملکرد در ALFWorld

در محیط ALFWorld، دانش‌آموزان تقطیر شده به بالاترین موفقیت بدون بازیابی دست می‌یابند. در مدل 14B، تقطیر از RAG پیشی می‌گیرد (91.04% در مقابل 82.09%) و نسبت به هر دو پایه و SFT بهبود می‌یابد. در مدل 7B، بیشتر دستاوردهای بازیابی را بدون نیاز به راهنمایی‌ها بازیابی می‌کند.

جدول نتایج ALFWorld و WebShop

محیط روش کلیسا/اپیزود ↓ گام/اپیزود ↓ موفقیت/امتیاز ↑
دنیای ALF پایه ۵۰.۱۳ هزار ۱۸.۹۴ ۷۹.۸۵٪
دنیای ALF راگ ۵۳.۹۷ هزار ۱۸.۶۹ ۸۲.۰۹٪
دنیای ALF اس اف تی ۵۰.۳۶ هزار ۱۹.۳۸ ۸۵.۴۵٪
دنیای ALF تقطیع (ما) ۴۴.۸۲ هزار ۱۶.۶۸ ۹۱.۰۴٪
وب‌شاپ پایه ۷.۹۹ هزار ۷.۱۶ ۶۰.۸۷
وب‌شاپ راگ ۱۱.۰۵ هزار ۶.۳۴ ۶۷.۰۸
وب‌شاپ اس اف تی ۴.۲۹ هزار ۵.۰۰ ۷۲.۰۹
وب‌شاپ تقطیع (ما) ۴.۲۷ هزار ۴.۹۸ ۷۲.۴۰

 

عملکرد در

WebShop

در WebShop، تقطیر با RAG برابری می‌کند یا از آن پیشی می‌گیرد در حالی که امتیازات بالاتری با هزینه توکن مقایسه‌پذیر یا کمتر ارائه می‌دهد. مدل‌های 7B به طور چشمگیری از راهنمایی‌ها بهره می‌برند اما در استفاده موثر از آنها در زمان استنتاج در WebShop مشکل دارند.

تحلیل کارایی و بهره‌وری

مقایسه مصرف توکن

مدل‌های تقطیر شده عملکرد برتر با مصرف منابع کمتر دست می‌یابند. آنها 10% کمتر در ALFWorld و 47% کمتر در WebShop نسبت به پایه، و 17-61% کمتر نسبت به RAG استفاده می‌کنند، در حالی که گام‌های کمتری برای تکمیل وظایف برمی‌دارند.

پارامترهای آموزش

محیط نرخ یادگیری طول توالی رتبه LoRA آلفای LoRA حذف تصادفی کاهش وزن
ALFWorld 2e-4 1024 64 128 0.10 0.01
WebShop 2e-4 1024 16 32 0.20 0.05

توزیع داده‌ها

دسته وظیفه ALFWorld مجموعه آموزش مجموعه آزمون
خنک کردن و قرار دادن 159 21
تمیز کردن و قرار دادن 248 31
بررسی در نور 104 18
گرم کردن و قرار دادن 152 23
برداشتن و قرار دادن 258 24
برداشتن دو و قرار دادن 279 17
مجموع 1200 134
دسته محصول WebShop مجموعه آموزش مجموعه آزمون
زیبایی 262 24
الکترونیک 219 19
مد 251 23
غذا 239 20
مبلمان 229 14
مجموع 1200 100

مقایسه با روش‌های موجود

عملکرد مدل‌های مختلف

مدل روش موفقیت ALFWorld موفقیت WebShop امتیاز WebShop
14B پایه 79.85% 38.5% 60.87
14B پایه+RAG 82.09% 43.5% 67.08
14B SFT 85.45% 43.0% 72.09
14B تقطیر (ما) 91.04% 43.5% 72.40
7B پایه 26.49% 13.0% 28.12
7B پایه+RAG 71.27% 8.5% 18.46
7B SFT 62.69% 22.0% 54.38
7B تقطیر (ما) 73.88% 22.5% 61.04

مزایای رویکرد تقطیر

تقطیر قابلیت را فشرده می‌کند و در WebShop-7B، با یک پایه بزرگتر برابری می‌کند. در تمام مقیاس‌ها، الگو ثابت است: تقطیر بیشتر دستاوردهای RAG را بدون بازیابی دائمی بازیابی می‌کند، با بزرگترین مزیت کارایی که در WebShop مشاهده می‌شود.

محدودیت‌ها و چالش‌های پیش رو

محدودیت‌های فعلی

این مطالعه دارای چندین محدودیت است. اول، تولید راهنمایی به تماس‌های مکرر API GPT-4o متکی است که هزینه را به تعداد شکست‌ها در داده‌های آموزشی وابسته می‌کند. دوم، بازیابی به یک فرآیند یک‌شوته در t=0 محدود شده است که نمی‌تواند با شگفتی‌های میان اپیزود سازگار شود. سوم، تمام نتایج گزارش شده بر اساس ارزیابی تک‌دانه هستند و بنابراین تخمین‌های نقطه‌ای را نشان می‌دهند.

فرصت‌های آینده

کار آینده باید محرک‌های بازیابی پویا، اهداف سطح مسیر برای وظایف افق طولانی، و انتقال میان محیطی را بررسی کند تا آزمایش کند که آیا شایستگی‌های تقطیر شده واقعاً فراتر از توزیع آموزشی خود تعمیم می‌یابند یا خیر.

نتیجه‌گیری: آینده آموزش عامل‌های هوش مصنوعی

این تحقیق روشی برای تبدیل تولید تقویت‌شده با بازیابی از یک ضرورت زمان اجرا به یک معلم زمان آموزش ارائه می‌دهد. با استخراج راهنمایی از شکست‌ها، استفاده از آنها برای تولید مسیرهای بهتر، و تقطیر با حذف راهنمایی‌ها، عامل‌هایی تولید می‌شوند که راهنمایی را درونی‌سازی می‌کنند در حالی که سربار استقرار را حذف می‌کنند.دانش‌آموزان تقطیر شده به موفقیت 91% در ALFWorld (در مقابل 79% پایه) و امتیاز 72.4 در WebShop (در مقابل 60.9 پایه) دست می‌یابند، در حالی که از توکن‌های کمتری نسبت به هر رویکرد جایگزین استفاده می‌کنند. این روش ساده است، نیازی به نظارت متخصص ندارد، و در مقیاس‌های مدل و معماری‌های عامل مختلف تعمیم می‌یابد.نتایج نشان می‌دهد که بسیاری از استراتژی‌های تقویت که در حال حاضر به عنوان الزامات زمان اجرا در نظر گرفته می‌شوند، ممکن است بهتر به عنوان نظارت زمان آموزش عمل کنند. این تحقیق راه را برای توسعه عامل‌های هوش مصنوعی کارآمدتر و قدرتمندتر که می‌توانند از تجربیات خود یاد بگیرند و عملکرد خود را بدون نیاز به منابع محاسباتی اضافی در زمان اجرا بهبود بخشند، هموار می‌کند.

کاربردهای عملی و پیامدهای صنعتی

کاربرد در سیستم‌های تولیدی

این رویکرد می‌تواند به طور قابل توجهی هزینه‌های عملیاتی سیستم‌های مبتنی بر LLM را در محیط‌های تولیدی کاهش دهد. با حذف نیاز به بازیابی زمان اجرا، شرکت‌ها می‌توانند عامل‌های کارآمدتری را مستقر کنند که عملکرد بهتری با منابع کمتر ارائه می‌دهند.

پتانسیل برای مقیاس‌پذیری

قابلیت درونی‌سازی دانش بازیابی شده در پارامترهای مدل، امکان مقیاس‌پذیری بهتر را فراهم می‌آورد. به جای نگهداری پایگاه‌های داده خارجی و سیستم‌های بازیابی برای هر استقرار، دانش می‌تواند یک بار در طول آموزش ادغام شود.

تأثیر بر توسعه آینده LLM

این تحقیق نشان می‌دهد که بسیاری از تکنیک‌های تقویت که در حال حاضر به عنوان ضروریات زمان اجرا در نظر گرفته می‌شوند، می‌توانند به طور موثر به دانش پارامتری تبدیل شوند. این بینش می‌تواند نحوه طراحی و آموزش نسل بعدی مدل‌های زبانی را تغییر دهد.

🔗منبع

آنچه در این مطلب میخوانید !
مقدمه در سالهای گذشته در مرکز ملی پاسخگویی به سؤالات پایگاه اسلام کوئست و برخی...
معرفی پروژه پروژه «یکپارچه سازی و هوشمندسازی قوانین و مقررات جمهوری اسلامی ایران»، در راستای...

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *