🌐 برنامه‌ریزی تحت عدم‌قطعیت در مدل‌های زبان بزرگ

✨ معرفی PlanU؛ رویکرد نوین برای استدلال دقیق در محیط‌های نامطمئن

مدل‌های زبان بزرگ (LLMها) در زمینه‌های مختلفی از جمله استدلال منطقی و کدنویسی عملکرد چشمگیری داشته‌اند. اما یکی از چالش‌های بزرگ در این حوزه، استدلال در محیط‌های نامطمئن است. هنگامی که مدل‌های زبان برای تصمیم‌گیری در محیط‌های تصادفی استفاده می‌شوند، دو نوع عدم‌قطعیت عمده وجود دارد که باید به آن‌ها توجه شود:

عدم‌قطعیت مدل LLM
عدم‌قطعیت محیطی

عدم‌قطعیت مدل LLM ناشی از فرآیند نمونه‌برداری تصادفی در داخل مدل است که منجر به تولید خروجی‌های مختلف برای یک ورودی ثابت می‌شود. علاوه‌براین، عدم‌قطعیت محیطی ناشی از طبیعت تصادفی محیط است، جایی که یک عمل ممکن است به نتایج مختلفی منجر شود. این چالش‌ها باعث می‌شود که مدل‌های زبان بزرگ در برخی از محیط‌ها با مشکلات جدی مواجه شوند.
در این مقاله، رویکرد جدیدی به نام PlanU معرفی شده است که از Monte Carlo Tree Search (MCTS) برای مدیریت این دو نوع عدم‌قطعیت استفاده می‌کند. PlanU با مدل‌سازی بازگشت هر گره در MCTS به صورت توزیع کوانتیلی و استفاده از امتیاز Upper Confidence Bounds with Curiosity (UCC)، می‌تواند تصمیم‌گیری مؤثری در محیط‌های نامطمئن انجام دهد. این مقاله با آزمایش‌های متعدد نشان می‌دهد که PlanU قادر به حل چالش‌های استدلال LLM در محیط‌های نامطمئن است. ✨

🧩 چالش‌های اساسی عدم‌قطعیت در LLMها

🔸 عدم‌قطعیت مدل

LLMها معمولاً برای تولید پاسخ از فرآیند نمونه‌برداری استفاده می‌کنند، که این امر باعث می‌شود خروجی‌ها در مواجهه با ورودی‌های مشابه متفاوت باشند. این عدم‌قطعیت مدل می‌تواند به نتایج نادرست یا تصمیم‌گیری‌های اشتباه منجر شود. به‌ویژه هنگامی که از LLM به‌عنوان مدل جهان استفاده می‌شود، همین نوسانات در انتقال حالت‌ها یا پیش‌بینی‌ها خطا ایجاد می‌کند. این نوع عدم‌قطعیت در مدل‌های زبان بزرگ مانند هالوشن‌ها (hallucinations) به وضوح قابل مشاهده است، جایی که مدل خروجی‌های نادرست تولید می‌کند.

🔸 عدم‌قطعیت محیط

عدم‌قطعیت محیطی در محیط‌های تصادفی به‌ویژه زمانی که انتقال بین حالت‌ها به صورت تصادفی است، به وجود می‌آید. برای مثال، در یک محیط مانند بازی‌ها یا رباتیک، وقتی یک عمل انجام می‌شود، محیط ممکن است به چندین حالت مختلف منتقل شود و هرکدام از آن‌ها می‌تواند نتایج متفاوتی داشته باشد. این چالش باعث می‌شود که تصمیم‌گیری در این محیط‌ها پیچیده شود. بیشتر روش‌های LLM در حال حاضر تنها بر عدم‌قطعیت مدل تمرکز کرده‌اند و از در نظر گرفتن عدم‌قطعیت محیطی غافل هستند. این امر موجب می‌شود که LLMها در محیط‌های تصادفی به عملکرد ضعیفی برسند.

شکل ۱: تأثیر عدم‌قطعیت محیطی بر وظایف تصمیم‌گیری مبتنی بر مدل‌های زبان بزرگ (LLM). در محیط‌های تصادفی، با احتمال ۲۰٪ شکست، عملکرد روش‌های CoT، ToT و RAP به‌طور قابل توجهی کاهش می‌یابد، در حالی که PlanU مقاومت بیشتری نشان می‌دهد.

🤖 ایده کلیدی PlanU؛ تصمیم‌گیری با توزیع کوانتیلی

🔸 مدل‌سازی بازگشت به‌صورت توزیعی

در PlanU، به‌جای محاسبه مقدار میانگین بازگشت برای هر گره در درخت جست‌وجو، بازگشت هر گره به صورت توزیع کوانتیلی مدل می‌شود. این رویکرد باعث می‌شود که PlanU بتواند مجموعه‌ای از مقادیر احتمالی را برای یک عمل در نظر بگیرد و به این ترتیب، عدم‌قطعیت محیط را به شکلی دقیق‌تر مدل‌سازی کند. این روش باعث می‌شود که مدل درک عمیق‌تری از نتایج احتمالی داشته باشد و به‌جای تنها استفاده از میانگین، از یک توزیع گسترده‌تر برای پیش‌بینی استفاده کند.

🔸 سازوکار MCTS مبتنی بر عدم‌قطعیت

PlanU همانند الگوریتم‌های دیگر MCTS، جست‌وجو را درختی انجام می‌دهد که در آن گره‌ها نمایانگر حالت‌ها و لبه‌ها نمایانگر اعمال هستند. اما تفاوت کلیدی آن در این است که به‌جای میانگین‌گیری از بازگشت‌ها، بازگشت گره‌ها را به‌صورت توزیع کوانتیلی مدل می‌کند. این کار باعث می‌شود که PlanU در محیط‌های تصادفی به مراتب بهتر عمل کند، زیرا توزیع کوانتیلی می‌تواند نشان‌دهنده میزان نوسانات و عدم‌قطعیت در بازگشت‌های ممکن باشد. 🎯

شکل ۲: مراحل اصلی جست‌وجوی درختی PlanU تحت عدم‌قطعیت:
(الف) فاز انتخاب و بازپراکنش،
(ب) انتخاب عمل با استفاده از امتیاز UCC که ترکیبی از توزیع بازگشت و نوآوری حالت است،
(ج) به‌روزرسانی توزیعی در Backpropagation بر اساس پاداش دریافت شده.

🧭 انتخاب عمل با امتیاز UCC

🔸 ترکیب ارزش و کنجکاوی

برای انتخاب بهترین عمل در هر گام از جست‌وجو، PlanU از امتیاز UCC استفاده می‌کند. این امتیاز ترکیبی از دو جزء است:

مقدار بازگشت مورد انتظار
میزان کنجکاوی نسبت به حالت

این کنجکاوی توسط مقایسه ویژگی‌های پیش‌بینی‌شده از یک شبکه عصبی به شبکه‌ای با وزن‌های تصادفی انجام می‌شود. در این حالت، شبکه‌های مختلف اطلاعات متفاوتی در مورد محیط می‌دهند و PlanU می‌تواند تشخیص دهد که کدام حالت نیاز به کاوش بیشتری دارد. این ترکیب به مدل کمک می‌کند تا همزمان با جست‌وجو در درخت تصمیم، کاشفانه‌تر عمل کند و در عین حال تصمیمات دقیق‌تری بگیرد. 🔍

🔸 تعادل بین کاوش و بهره‌برداری

یکی از ویژگی‌های مهم PlanU این است که قادر است به‌طور مؤثر بین کاوش (exploration) و بهره‌برداری (exploitation) تعادل برقرار کند. این ویژگی باعث می‌شود که در مواجهه با محیط‌های پیچیده و تصادفی، PlanU بتواند تصمیمات بهینه‌تری اتخاذ کند و از مسیرهایی که دیگر مدل‌ها در آن‌ها دچار مشکل می‌شوند، عبور کند. ✨

🧪 نتایج تجربی قدرتمند

🔸 برتری در محیط‌های نامطمئن

در آزمایش‌های مختلف مانند محیط‌های Blocksworld، Overcooked، VirtualHome و TravelPlanner، PlanU توانست نتایج برتری نسبت به سایر روش‌های موجود کسب کند. به‌ویژه زمانی که در محیط‌ها 20% احتمال شکست برای هر عمل وجود داشت، PlanU به‌واسطه قابلیت‌های خود در مدل‌سازی عدم‌قطعیت محیطی عملکرد بهتری نسبت به سایر روش‌ها داشت. در حالی که دیگر الگوریتم‌ها مانند CoT، ToT، RAP دچار افت عملکرد می‌شدند، PlanU همچنان قادر به یافتن مسیرهای درست و بهینه بود.

🔸 مثال سرمایه‌گذاری

در آزمایش سرمایه‌گذاری در سهام، PlanU به‌خوبی توانست بازده مورد انتظار را محاسبه کند، در حالی که دیگر روش‌ها با مشکلات زیادی در پیش‌بینی روبرو شدند. این آزمایش نشان داد که توزیع کوانتیلی می‌تواند محیط‌های نامطمئن را به‌طور مؤثری مدل‌سازی کند و به تصمیم‌گیری دقیق‌تر کمک کند. 📊

شکل ۳: مثال تصمیم‌گیری سرمایه‌گذاری سهام. عامل با دو گزینه روبرو است: خرید سهام A با سود ثابت ۰.۹ یا خرید سهام B با احتمال ۶۰٪ سود ۱ و ۴۰٪ بدون سود. PlanU توانست بازده مورد انتظار صحیح را بیابد، در حالی که روش‌های دیگر دچار اشتباه شدند.

🧪 تحلیل حذف مؤلفه‌ها (Ablation Study)

🔸 اهمیت توزیع کوانتیلی

در آزمایش‌های حذف مؤلفه‌ها، نشان داده شد که حذف توزیع کوانتیلی باعث کاهش شدید دقت در پیدا کردن مسیرهای بهینه می‌شود. این آزمایش‌ها نشان داد که مدل‌سازی توزیعی در تصمیم‌گیری‌های پیچیده و چندمرحله‌ای نقش حیاتی دارد و نبود آن موجب اختلال در عملکرد مدل می‌شود.

🔸 مقاومت در برابر آشفتگی پرامپت‌ها

در آزمایش‌هایی که پرامپت‌ها با تغییرات عمدی مواجه شدند (شامل تغییر ترتیب جملات و افزودن اطلاعات بی‌ربط)، PlanU به‌طور قابل‌توجهی بهتر از دیگر روش‌ها عمل کرد و توانست به نتایج درست برسد. این ویژگی نشان‌دهنده مقاومت PlanU در برابر عدم‌قطعیت مدل و نوسانات در ورودی‌ها است. 💪🤖

🟦 نتیجه‌گیری

PlanU یک روش پیشرفته برای تصمیم‌گیری در محیط‌های نامطمئن است که از تکنیک‌های Monte Carlo Tree Search و توزیع کوانتیلی برای مدل‌سازی عدم‌قطعیت استفاده می‌کند. این روش، با استفاده از امتیاز UCC، قادر است تصمیمات دقیق‌تری در محیط‌هایی با عدم‌قطعیت مدل و محیطی بگیرد. از طریق آزمایش‌های مختلف، نشان داده شد که PlanU در مقایسه با دیگر روش‌های موجود عملکرد بهتری دارد و می‌تواند به‌عنوان رویکردی قابل‌اعتماد برای استدلال در محیط‌های نامطمئن مورد استفاده قرار گیرد. 🌍🚀

متن کامل مقاله

مقاله قبلی سه شرط طلایی برای دستیابی به تطبیق فرهنگی واقعی در مدل‌های زبانی بزرگ👉

هوش مصنوعی در محیط‌های نامطمئن هم دقیق شد!