🌐 برنامهریزی تحت عدمقطعیت در مدلهای زبان بزرگ
✨ معرفی PlanU؛ رویکرد نوین برای استدلال دقیق در محیطهای نامطمئن
مدلهای زبان بزرگ (LLMها) در زمینههای مختلفی از جمله استدلال منطقی و کدنویسی عملکرد چشمگیری داشتهاند. اما یکی از چالشهای بزرگ در این حوزه، استدلال در محیطهای نامطمئن است. هنگامی که مدلهای زبان برای تصمیمگیری در محیطهای تصادفی استفاده میشوند، دو نوع عدمقطعیت عمده وجود دارد که باید به آنها توجه شود:
- عدمقطعیت مدل LLM
- عدمقطعیت محیطی
عدمقطعیت مدل LLM ناشی از فرآیند نمونهبرداری تصادفی در داخل مدل است که منجر به تولید خروجیهای مختلف برای یک ورودی ثابت میشود. علاوهبراین، عدمقطعیت محیطی ناشی از طبیعت تصادفی محیط است، جایی که یک عمل ممکن است به نتایج مختلفی منجر شود. این چالشها باعث میشود که مدلهای زبان بزرگ در برخی از محیطها با مشکلات جدی مواجه شوند.
در این مقاله، رویکرد جدیدی به نام PlanU معرفی شده است که از Monte Carlo Tree Search (MCTS) برای مدیریت این دو نوع عدمقطعیت استفاده میکند. PlanU با مدلسازی بازگشت هر گره در MCTS به صورت توزیع کوانتیلی و استفاده از امتیاز Upper Confidence Bounds with Curiosity (UCC)، میتواند تصمیمگیری مؤثری در محیطهای نامطمئن انجام دهد. این مقاله با آزمایشهای متعدد نشان میدهد که PlanU قادر به حل چالشهای استدلال LLM در محیطهای نامطمئن است. ✨
🧩 چالشهای اساسی عدمقطعیت در LLMها
🔸 عدمقطعیت مدل
LLMها معمولاً برای تولید پاسخ از فرآیند نمونهبرداری استفاده میکنند، که این امر باعث میشود خروجیها در مواجهه با ورودیهای مشابه متفاوت باشند. این عدمقطعیت مدل میتواند به نتایج نادرست یا تصمیمگیریهای اشتباه منجر شود. بهویژه هنگامی که از LLM بهعنوان مدل جهان استفاده میشود، همین نوسانات در انتقال حالتها یا پیشبینیها خطا ایجاد میکند. این نوع عدمقطعیت در مدلهای زبان بزرگ مانند هالوشنها (hallucinations) به وضوح قابل مشاهده است، جایی که مدل خروجیهای نادرست تولید میکند.
🔸 عدمقطعیت محیط
عدمقطعیت محیطی در محیطهای تصادفی بهویژه زمانی که انتقال بین حالتها به صورت تصادفی است، به وجود میآید. برای مثال، در یک محیط مانند بازیها یا رباتیک، وقتی یک عمل انجام میشود، محیط ممکن است به چندین حالت مختلف منتقل شود و هرکدام از آنها میتواند نتایج متفاوتی داشته باشد. این چالش باعث میشود که تصمیمگیری در این محیطها پیچیده شود. بیشتر روشهای LLM در حال حاضر تنها بر عدمقطعیت مدل تمرکز کردهاند و از در نظر گرفتن عدمقطعیت محیطی غافل هستند. این امر موجب میشود که LLMها در محیطهای تصادفی به عملکرد ضعیفی برسند.

🤖 ایده کلیدی PlanU؛ تصمیمگیری با توزیع کوانتیلی
🔸 مدلسازی بازگشت بهصورت توزیعی
در PlanU، بهجای محاسبه مقدار میانگین بازگشت برای هر گره در درخت جستوجو، بازگشت هر گره به صورت توزیع کوانتیلی مدل میشود. این رویکرد باعث میشود که PlanU بتواند مجموعهای از مقادیر احتمالی را برای یک عمل در نظر بگیرد و به این ترتیب، عدمقطعیت محیط را به شکلی دقیقتر مدلسازی کند. این روش باعث میشود که مدل درک عمیقتری از نتایج احتمالی داشته باشد و بهجای تنها استفاده از میانگین، از یک توزیع گستردهتر برای پیشبینی استفاده کند.
🔸 سازوکار MCTS مبتنی بر عدمقطعیت
PlanU همانند الگوریتمهای دیگر MCTS، جستوجو را درختی انجام میدهد که در آن گرهها نمایانگر حالتها و لبهها نمایانگر اعمال هستند. اما تفاوت کلیدی آن در این است که بهجای میانگینگیری از بازگشتها، بازگشت گرهها را بهصورت توزیع کوانتیلی مدل میکند. این کار باعث میشود که PlanU در محیطهای تصادفی به مراتب بهتر عمل کند، زیرا توزیع کوانتیلی میتواند نشاندهنده میزان نوسانات و عدمقطعیت در بازگشتهای ممکن باشد. 🎯

(الف) فاز انتخاب و بازپراکنش،
(ب) انتخاب عمل با استفاده از امتیاز UCC که ترکیبی از توزیع بازگشت و نوآوری حالت است،
(ج) بهروزرسانی توزیعی در Backpropagation بر اساس پاداش دریافت شده.
🧭 انتخاب عمل با امتیاز UCC
🔸 ترکیب ارزش و کنجکاوی
برای انتخاب بهترین عمل در هر گام از جستوجو، PlanU از امتیاز UCC استفاده میکند. این امتیاز ترکیبی از دو جزء است:
- مقدار بازگشت مورد انتظار
- میزان کنجکاوی نسبت به حالت
این کنجکاوی توسط مقایسه ویژگیهای پیشبینیشده از یک شبکه عصبی به شبکهای با وزنهای تصادفی انجام میشود. در این حالت، شبکههای مختلف اطلاعات متفاوتی در مورد محیط میدهند و PlanU میتواند تشخیص دهد که کدام حالت نیاز به کاوش بیشتری دارد. این ترکیب به مدل کمک میکند تا همزمان با جستوجو در درخت تصمیم، کاشفانهتر عمل کند و در عین حال تصمیمات دقیقتری بگیرد. 🔍
🔸 تعادل بین کاوش و بهرهبرداری
یکی از ویژگیهای مهم PlanU این است که قادر است بهطور مؤثر بین کاوش (exploration) و بهرهبرداری (exploitation) تعادل برقرار کند. این ویژگی باعث میشود که در مواجهه با محیطهای پیچیده و تصادفی، PlanU بتواند تصمیمات بهینهتری اتخاذ کند و از مسیرهایی که دیگر مدلها در آنها دچار مشکل میشوند، عبور کند. ✨
🧪 نتایج تجربی قدرتمند
🔸 برتری در محیطهای نامطمئن
در آزمایشهای مختلف مانند محیطهای Blocksworld، Overcooked، VirtualHome و TravelPlanner، PlanU توانست نتایج برتری نسبت به سایر روشهای موجود کسب کند. بهویژه زمانی که در محیطها 20% احتمال شکست برای هر عمل وجود داشت، PlanU بهواسطه قابلیتهای خود در مدلسازی عدمقطعیت محیطی عملکرد بهتری نسبت به سایر روشها داشت. در حالی که دیگر الگوریتمها مانند CoT، ToT، RAP دچار افت عملکرد میشدند، PlanU همچنان قادر به یافتن مسیرهای درست و بهینه بود.
🔸 مثال سرمایهگذاری
در آزمایش سرمایهگذاری در سهام، PlanU بهخوبی توانست بازده مورد انتظار را محاسبه کند، در حالی که دیگر روشها با مشکلات زیادی در پیشبینی روبرو شدند. این آزمایش نشان داد که توزیع کوانتیلی میتواند محیطهای نامطمئن را بهطور مؤثری مدلسازی کند و به تصمیمگیری دقیقتر کمک کند. 📊

🧪 تحلیل حذف مؤلفهها (Ablation Study)
🔸 اهمیت توزیع کوانتیلی
در آزمایشهای حذف مؤلفهها، نشان داده شد که حذف توزیع کوانتیلی باعث کاهش شدید دقت در پیدا کردن مسیرهای بهینه میشود. این آزمایشها نشان داد که مدلسازی توزیعی در تصمیمگیریهای پیچیده و چندمرحلهای نقش حیاتی دارد و نبود آن موجب اختلال در عملکرد مدل میشود.
🔸 مقاومت در برابر آشفتگی پرامپتها
در آزمایشهایی که پرامپتها با تغییرات عمدی مواجه شدند (شامل تغییر ترتیب جملات و افزودن اطلاعات بیربط)، PlanU بهطور قابلتوجهی بهتر از دیگر روشها عمل کرد و توانست به نتایج درست برسد. این ویژگی نشاندهنده مقاومت PlanU در برابر عدمقطعیت مدل و نوسانات در ورودیها است. 💪🤖