تنظیم دقیق با تولید تقویتشده با بازیابی (RAG) برای بهبود یادگیری مهارتهای جدید در مدلهای زبانی بزرگ
مقدمه: انقلابی در آموزش عاملهای هوش مصنوعی
در عصر حاضر، مدلهای زبانی بزرگ (LLM) به طور فزایندهای به عنوان عاملهایی که با محیطها تعامل میکنند تا وظایف چند مرحلهای را تکمیل کنند، مستقر میشوند. موفقیت در این زمینه نه تنها نیازمند تولید متن قابل قبول است، بلکه نیازمند حفظ اهداف در طول تعاملات طولانی، مدیریت وضعیت و پیششرطها، و بازیابی از خطاها میباشد.تحقیق جدیدی که توسط حمید ابراهیم، نیکولای روزانوف و مارک ری از کالج امپریال لندن انجام شده، رویکرد نوآورانهای را ارائه میدهد که مزایای تولید تقویتشده با بازیابی (RAG) و تنظیم دقیق را ترکیب میکند، در حالی که محدودیتهای فردی آنها را از بین میبرد.
درک چالشهای فعلی در عاملهای LLM
مشکلات رایج در عاملهای مبتنی بر LLM
عاملهای مدل زبانی بزرگ که برای وظایف چند مرحلهای مستقر میشوند، اغلب به روشهای قابل پیشبینی شکست میخورند. این شکستها شامل تلاش برای انجام اقداماتی با پیششرطهای برآورده نشده، صدور دستورات تکراری، یا مدیریت نادرست محدودیتهای محیطی میباشد. این چالشها به ویژه در محیطهای تعاملی پیچیده مانند ALFWorld (وظایف خانگی) و WebShop (خرید آنلاین) مشهود است.
رویکردهای موجود ومحدودیتهای آنها
روشهای ساختاریافته اعلانگذاری مانند ReAct و StateAct داربستهایی برای استدلال و ردیابی وضعیت فراهم میکنند. رویکردهای خود-بازتابی مانند Reflexion امکان یادگیری از اشتباهات را در طول چندین تلاش فراهم میآورند. روشهای تقویتشده با بازیابی دانش خارجی را برای هدایت تصمیمات تزریق میکنند. با این حال، هر رویکرد دارای معاوضاتی است: بازیابی هزینه توکن و پیچیدگی استقرار را اضافه میکند، تنظیم دقیق خطر بیشبرازش را دارد و نیازمند دادههای قابل توجه است، در حالی که خود-بازتابی فرض میکند که چندین تلاش امکانپذیر است.
معرفی خط لوله نوآورانه: ترکیب RAG و تقطیر
بینش کلیدی تحقیق
بینش کلیدی این تحقیق این است که تولید تقویتشده با بازیابی نیازی به باقی ماندن به عنوان یک وابستگی دائمی در زمان اجرا ندارد. در عوض، میتواند به عنوان منبعی از نظارت آموزشی بهبود یافته عمل کند که در پارامترهای مدل درونیسازی میشود.
مراحل خط لوله چهار مرحلهای
مرحله A – اجرای عامل پایه
در این مرحله، عاملهای پایه (ReAct یا StateAct) در سراسر بخش آموزشی مستقر میشوند و مسیرهای موفق و ناموفق جمعآوری میشوند. موفقیتها مجموعه داده تنظیم دقیق نظارتشده پایه را تشکیل میدهند؛ شکستها به عنوان ورودی برای استخراج راهنمایی استفاده میشوند.
مرحله B – استخراج خودکار راهنمایی
برای هر مسیر شکستخورده، یک مثال کامل شکست حاوی دستورالعمل وظیفه، مشاهده اولیه، توالی کامل اقدام، و مشاهدات حاصل ساخته میشود. سپس GPT-4o برای تولید 1-4 راهنمایی امری که شکست را تشخیص میدهد و راهنمایی قابل تعمیم ارائه میدهد، استفاده میشود.
مرحله C – تولید داده معلم
با توجه به دستورالعمل و مشاهده اولیه، دسته وظیفه تعیین میشود و راهنماییهای مرتبط بازیابی میشوند. این راهنماییها یک بار در شروع اپیزود تزریق میشوند و سپس معلم برای بقیه اپیزود اجرا میشود.
مرحله D – ساخت مجموعه داده و آموزش
دو مجموعه داده مکمل تعریف میشوند: مجموعه داده پایه از مسیرهای موفق عامل پایه، و مجموعه داده RAG از مسیرهای موفق معلم تقویتشده با بازیابی، با حذف رشتههای راهنمایی از متن سریالشده.
جزئیات فنی پیادهسازی
مکانیزم استخراج راهنمایی
فرآیند استخراج راهنماییها از شکستهای عاملهای پایه، بدون نیاز به قوانین دستساز انجام میشود. راهنماییها باید امری باشند، از جایگزینها برای عمومیت استفاده کنند، و بر پیششرطها و توالیبندی تاکید کنند. نمونههایی از راهنماییهای استخراج شده شامل:
- اطمینان حاصل کنید که {ظرف} قبل از تلاش برای قرار دادن {شیء} در داخل آن باز است
- قبل از تلاش برای برداشتن اقلام اضافی، ظرفیت موجودی را تأیید کنید
- از یک الگوی جستجوی سیستماتیک برای جلوگیری از از دست دادن {شیء} در {مکان} استفاده کنید.
مکانیزم بازیابی
در زمان t=0، مجموعه ثابتی از k راهنمایی از بانک مخصوص دسته بازیابی میشود، مشروط بر دستورالعمل وظیفه و مشاهده اولیه. هیچ بازیابی اضافی در طول اپیزود رخ نمیدهد، عامل باید برای بقیه مسیر به این مجموعه ثابت راهنماییها تکیه کند.
پیکربندی آموزش
آداپتورهای کمرتبه (LoRA) در پروژکشنهای توجه و MLP از ستون فقرات آموزش داده میشوند در حالی که تمام وزنهای پایه منجمد میمانند. این امر شایستگی زبان عمومی را حفظ میکند و بهروزرسانیهای پایدار با ردپای حافظه کوچک ایجاد میکند.
نتایج تجربی و دستاوردها
عملکرد در ALFWorld
در محیط ALFWorld، دانشآموزان تقطیر شده به بالاترین موفقیت بدون بازیابی دست مییابند. در مدل 14B، تقطیر از RAG پیشی میگیرد (91.04% در مقابل 82.09%) و نسبت به هر دو پایه و SFT بهبود مییابد. در مدل 7B، بیشتر دستاوردهای بازیابی را بدون نیاز به راهنماییها بازیابی میکند.
جدول نتایج ALFWorld و WebShop
| محیط | روش | کلیسا/اپیزود ↓ | گام/اپیزود ↓ | موفقیت/امتیاز ↑ |
|---|---|---|---|---|
| دنیای ALF | پایه | ۵۰.۱۳ هزار | ۱۸.۹۴ | ۷۹.۸۵٪ |
| دنیای ALF | راگ | ۵۳.۹۷ هزار | ۱۸.۶۹ | ۸۲.۰۹٪ |
| دنیای ALF | اس اف تی | ۵۰.۳۶ هزار | ۱۹.۳۸ | ۸۵.۴۵٪ |
| دنیای ALF | تقطیع (ما) | ۴۴.۸۲ هزار | ۱۶.۶۸ | ۹۱.۰۴٪ |
| وبشاپ | پایه | ۷.۹۹ هزار | ۷.۱۶ | ۶۰.۸۷ |
| وبشاپ | راگ | ۱۱.۰۵ هزار | ۶.۳۴ | ۶۷.۰۸ |
| وبشاپ | اس اف تی | ۴.۲۹ هزار | ۵.۰۰ | ۷۲.۰۹ |
| وبشاپ | تقطیع (ما) | ۴.۲۷ هزار | ۴.۹۸ | ۷۲.۴۰ |
عملکرد در
WebShop
در WebShop، تقطیر با RAG برابری میکند یا از آن پیشی میگیرد در حالی که امتیازات بالاتری با هزینه توکن مقایسهپذیر یا کمتر ارائه میدهد. مدلهای 7B به طور چشمگیری از راهنماییها بهره میبرند اما در استفاده موثر از آنها در زمان استنتاج در WebShop مشکل دارند.
تحلیل کارایی و بهرهوری
مقایسه مصرف توکن
مدلهای تقطیر شده عملکرد برتر با مصرف منابع کمتر دست مییابند. آنها 10% کمتر در ALFWorld و 47% کمتر در WebShop نسبت به پایه، و 17-61% کمتر نسبت به RAG استفاده میکنند، در حالی که گامهای کمتری برای تکمیل وظایف برمیدارند.
پارامترهای آموزش
| محیط | نرخ یادگیری | طول توالی | رتبه LoRA | آلفای LoRA | حذف تصادفی | کاهش وزن |
|---|---|---|---|---|---|---|
| ALFWorld | 2e-4 | 1024 | 64 | 128 | 0.10 | 0.01 |
| WebShop | 2e-4 | 1024 | 16 | 32 | 0.20 | 0.05 |
توزیع دادهها
| دسته وظیفه ALFWorld | مجموعه آموزش | مجموعه آزمون |
|---|---|---|
| خنک کردن و قرار دادن | 159 | 21 |
| تمیز کردن و قرار دادن | 248 | 31 |
| بررسی در نور | 104 | 18 |
| گرم کردن و قرار دادن | 152 | 23 |
| برداشتن و قرار دادن | 258 | 24 |
| برداشتن دو و قرار دادن | 279 | 17 |
| مجموع | 1200 | 134 |
| دسته محصول WebShop | مجموعه آموزش | مجموعه آزمون |
|---|---|---|
| زیبایی | 262 | 24 |
| الکترونیک | 219 | 19 |
| مد | 251 | 23 |
| غذا | 239 | 20 |
| مبلمان | 229 | 14 |
| مجموع | 1200 | 100 |
مقایسه با روشهای موجود
عملکرد مدلهای مختلف
| مدل | روش | موفقیت ALFWorld | موفقیت WebShop | امتیاز WebShop |
|---|---|---|---|---|
| 14B | پایه | 79.85% | 38.5% | 60.87 |
| 14B | پایه+RAG | 82.09% | 43.5% | 67.08 |
| 14B | SFT | 85.45% | 43.0% | 72.09 |
| 14B | تقطیر (ما) | 91.04% | 43.5% | 72.40 |
| 7B | پایه | 26.49% | 13.0% | 28.12 |
| 7B | پایه+RAG | 71.27% | 8.5% | 18.46 |
| 7B | SFT | 62.69% | 22.0% | 54.38 |
| 7B | تقطیر (ما) | 73.88% | 22.5% | 61.04 |
مزایای رویکرد تقطیر
تقطیر قابلیت را فشرده میکند و در WebShop-7B، با یک پایه بزرگتر برابری میکند. در تمام مقیاسها، الگو ثابت است: تقطیر بیشتر دستاوردهای RAG را بدون بازیابی دائمی بازیابی میکند، با بزرگترین مزیت کارایی که در WebShop مشاهده میشود.
محدودیتها و چالشهای پیش رو
محدودیتهای فعلی
این مطالعه دارای چندین محدودیت است. اول، تولید راهنمایی به تماسهای مکرر API GPT-4o متکی است که هزینه را به تعداد شکستها در دادههای آموزشی وابسته میکند. دوم، بازیابی به یک فرآیند یکشوته در t=0 محدود شده است که نمیتواند با شگفتیهای میان اپیزود سازگار شود. سوم، تمام نتایج گزارش شده بر اساس ارزیابی تکدانه هستند و بنابراین تخمینهای نقطهای را نشان میدهند.
فرصتهای آینده
کار آینده باید محرکهای بازیابی پویا، اهداف سطح مسیر برای وظایف افق طولانی، و انتقال میان محیطی را بررسی کند تا آزمایش کند که آیا شایستگیهای تقطیر شده واقعاً فراتر از توزیع آموزشی خود تعمیم مییابند یا خیر.
نتیجهگیری: آینده آموزش عاملهای هوش مصنوعی
کاربردهای عملی و پیامدهای صنعتی
کاربرد در سیستمهای تولیدی
این رویکرد میتواند به طور قابل توجهی هزینههای عملیاتی سیستمهای مبتنی بر LLM را در محیطهای تولیدی کاهش دهد. با حذف نیاز به بازیابی زمان اجرا، شرکتها میتوانند عاملهای کارآمدتری را مستقر کنند که عملکرد بهتری با منابع کمتر ارائه میدهند.
پتانسیل برای مقیاسپذیری
قابلیت درونیسازی دانش بازیابی شده در پارامترهای مدل، امکان مقیاسپذیری بهتر را فراهم میآورد. به جای نگهداری پایگاههای داده خارجی و سیستمهای بازیابی برای هر استقرار، دانش میتواند یک بار در طول آموزش ادغام شود.
تأثیر بر توسعه آینده LLM
این تحقیق نشان میدهد که بسیاری از تکنیکهای تقویت که در حال حاضر به عنوان ضروریات زمان اجرا در نظر گرفته میشوند، میتوانند به طور موثر به دانش پارامتری تبدیل شوند. این بینش میتواند نحوه طراحی و آموزش نسل بعدی مدلهای زبانی را تغییر دهد.