رشد شتابان AI یا نشانه‌ی اشباع؟ نگاهی نو به پیش‌بینی‌های آینده 🤖💡

📈 آیا قابلیت‌های هوش مصنوعی به‌صورت تصاعدی در حال افزایش است؟ یک فرضیه رقیب

(هائوسن گه،همسا باستانی،آزبرت باستانی)

📝 چکیده

گزارش METR (Model Evaluation & Threat Research) نشان داد که قابلیت‌های هوش مصنوعی از سال ۲۰۱۹ به‌صورت نمایی رو به افزایش بوده است؛ به‌عنوان مثال این گزارش ادعا می‌کند افق ۵۰٪ مدل‌ها هر هفت ماه دو برابر می‌شود. در این مقاله اما نشان داده می‌شود که داده‌ها از رشد نمایی حمایت نمی‌کنند، حتی در دوره‌های کوتاه‌مدت. با به‌کارگیری منحنی‌های سیگموئید بر داده‌های METR، مشخص شد نقطه‌ی عطف رشد (سرعت کمتر شدن پیشرفت) در واقع در گذشته (حدود ژوئن ۲۰۲۵) رخ داده و نه آینده؛ یعنی ممکن است رشد AI بزودی به اشباع برسد. علاوه بر این، مدلی پیچیده‌تر پیشنهاد شده که قابلیت‌های هوش مصنوعی را به دو فناوری «مدل پایه» و «توانایی استدلال» تقسیم می‌کند، و ثابت می‌کند در این مدل نیز نقطه‌ی عطف پیشرفت زودرس ظاهر خواهد شد. هدف اصلی، ارائه یک دیدگاه جایگزین و برجسته کردن شکنندگی پیش‌بینی‌های فعلی رشد نمایی است؛ این مدل لزوماً پیش‌بینی دقیق نمی‌کند، اما امکان وجود روند اشباع را برجسته می‌سازد.

🌍 ۱. مقدمه

گزارش METR (Kwa و همکاران ۲۰۲۵) مجموعه‌ای از آزمایش‌ها را ارائه کرد تا میزان قابلیت‌های هوش مصنوعی در وظایف دشوار را اندازه‌گیری کند. این گزارش معیاری جدید به نام «افق ۵۰٪ مدل» معرفی کرد: «مدت زمانی که مدل بتواند یک مسئله را با موفقیت در ۵۰٪ مواقع حل کند». بر اساس این معیار، قابلیت‌های هوش مصنوعی نمایی در حال افزایش گزارش شد؛ به طوری که ظرفیت مدل‌ها از سال ۲۰۱۹ تا کنون هر هفت ماه دو برابر شده است. در نتیجه، آنها پیش‌بینی کردند که «در عرض ۵ سال آینده، سیستم‌های هوش مصنوعی قادر خواهند بود بسیاری از کارهای نرم‌افزاری را که اکنون یک ماه زمان انسان می‌برد، خودکار کنند». این پیش‌بینی توجه زیادی برانگیخت و تبعات بزرگی را در حوزه امنیت AI و بازار کار به دنبال داشت.

با این وجود، ما استدلال می‌کنیم که رشد قابلیت‌ها ممکن است در آستانه‌ی اشباع باشد. گرچه مطالعه‌ی METR به گزینه‌های محدودی همچون رشد خطی و فوق‌نمایی اشاره کرده، پیش‌بینی منحنی سیگموئید را با نقطه‌ی عطفی دور در آینده رد کرده است. اما وقتی این منحنی سیگموئید به داده‌ها برازش شود، نقطه‌ی عطف به زمان گذشته (ژوئن ۲۰۲۵) اشاره می‌کند. این نکته نشان می‌دهد که حداقل ممکن است رشد AI به زودی به آرامش برسد و خطر انفجار پیشرفت فعلی اغراق‌شده باشد. برای روشن شدن این موضوع، مدلی نظری ارائه می‌دهیم که در آن معرفی قابلیت‌های استدلالی به مدل‌های پایه‌ی LLM (مانند GPT) تفسیر می‌شود. در این مدل، قابلیت کلی هوش مصنوعی حاصل ترکیب ضربی دو جزو «مدل پایه» و «استدلال» است. نشان می‌دهیم که چنین مدلی نیز می‌تواند بسته به پیشرفت‌های آتی، نقطه‌ی عطفی نزدیک داشته باشد. هدف ما ارائه چشم‌اندازی جایگزین و اعتباربخشی به نیاز به روش‌های پیش‌بینی و ارزیابی قوی‌تر است.

شکل ۱. منحنی سیگموئید

📚 ۲. زمینه و پیشینه مطالعه METR

گزارش اخیر METR بر پایه انتقاد از معیارهای سنتی نظیر دقت (accuracy) نوشته شد که مقیاس‌پذیری نامحدودی ندارند. برای حل این مشکل، یک معیار جدید به نام «افق ۵۰٪ مدل» معرفی شد: میزان سختی مسائل (برحسب زمان لازم توسط انسان) که مدل می‌تواند ۵۰٪ مواقع حل کند. این معیار در تئوری نامحدود است و می‌تواند نشانه‌ای از رشد نمایی باشد. با استفاده از این معیار در سه خانواده مسئله (HCAST، RE-Bench، SWAA) و با آزمون ۲۸ مدل پرکاربرد (که ۱۵ مدل آن‌ها در نظر گرفته شده‌اند)، METR نتیجه گرفت که قابلیت مدل‌ها بطور نمایی در حال افزایش است.

طی این مطالعه، ابتدا زمان افق ۵۰٪ هر مدل بر مبنای رگرسیونی از نوع لجستیک تعیین شد (برای مثال مدل GPT-4 یا GPT-5 روی مجموعه‌ای از مسائل مشخص آزمون شدند). سپس روند تغییرات این زمان‌ افق را بررسی کردند. آن‌ها یک رگرسیون خطی بر لگاریتم افق زمان با استفاده از تاریخ عرضه مدل انجام دادند:


این مدل معادل رابطه‌ی نمایی

است. ضریب تعیین (R²) برابر با ۰.۹۸ گزارش شد که METR آن را به عنوان نشانه‌ای قوی از رشد نمایی قابلیت‌ها تفسیر کرد. آنها رگرسیون نمایی را با مدل‌های خطی و هایپربولیک نیز مقایسه کردند و نتیجه گرفتند که منحنی نمایی بسیار بهتر است. با این حال، مقایسه محدود به چند مدل اولیه و بدون شواهد آماری قوی بود.

داده‌های آزمون: مجموعه داده METR شامل ۱۷۰ مسئله دشوار بود که در سه گروه زیر قرار می‌گرفت:

  • HCAST: مسائل متنوعی در امنیت سایبری، یادگیری ماشینی، مهندسی نرم‌افزار و استدلال عمومی.

  • RE-Bench: محیط‌های تحقیقاتی باز در یادگیری ماشینی که هرکدام برای حل توسط یک کارشناس ۸ ساعت زمان نیاز داشت.

  • SWAA: شامل ۶۶ وظیفه کوچک متداول در کار مهندسی نرم‌افزار.

براساس این داده‌ها، قابلیت هر مدل به صورت «زمان افق ۵۰٪ مدل» اندازه‌گیری شد که نشان‌دهنده سختی وظایفی بود که مدل بتواند در نیمی از مواقع حل کند. در نهایت، METR مدعی شد که این افق به طور نمایی با زمان افزایش یافته و در نتیجه مدل‌های نسل جدید پیشرفت سریعی دارند.

مدل تاریخ انتشار
Davinci-002 ۲۰۲۰-۰۵-۲۸
GPT-4 ۲۰۲۳-۰۳-۱۴
Grok-4 ۲۰۲۵-۰۷-۰۹
Claude 3.5 Sonnet (Oct 2024) ۲۰۲۴-۱۰-۲۲
GPT-5 ۲۰۲۵-۰۸-۰۷
Claude 3.7 Sonnet ۲۰۲۵-۰۲-۲۴
GPT-2 ۲۰۱۹-۰۲-۱۴
GPT-3.5 Turbo Instruct ۲۰۲۲-۰۳-۱۵
GPT-o1-preview ۲۰۲۴-۰۹-۱۲
GPT-4 (1106) ۲۰۲۳-۱۱-۰۶

جدول ۱. تاریخ‌های انتشار مدل‌های پیشرفتهٔ منتخب (SOTA)

🧮 ۳. مدل ضربی پیشرفت هوش مصنوعی

در این بخش، مدلی معرفی می‌شود که قابلیت‌های هوش مصنوعی را نه به‌صورت یک روند یکنواخت، بلکه به‌عنوان حاصل‌ضرب دو فناوری مجزا توصیف می‌کند. ایده اصلی این است که پیشرفت مشاهده‌شده در داده‌های METR را می‌توان با تفکیک «قابلیت‌های پایه» و «قابلیت‌های استدلالی» توضیح داد. این مدل نشان می‌دهد که رشد سریع اخیر هوش مصنوعی الزاماً ناشی از افزایش یکنواخت همه مؤلفه‌ها نیست، بلکه تا حد زیادی به هم‌زمانی پیشرفت در این دو مسیر مستقل بازمی‌گردد.

در این دیدگاه، فرض می‌شود که رشد ظاهراً نمایی اخیر در قابلیت‌های هوش مصنوعی، به‌ویژه با معرفی روش‌های جدید استدلال زنجیره‌ای در مدل‌های پایه تقویت شده است. به همین دلیل، توسعه قابلیت‌های پایه مانند اندازه مدل، داده‌های آموزشی و تنظیمات پیش‌تمرین، به‌صورت جداگانه از توسعه قابلیت‌های استدلالی تحلیل می‌شود. این تفکیک امکان ارائه توضیح دقیق‌تری از رفتار داده‌ها را فراهم می‌کند، بدون آنکه نیاز به فرض رشد نمایی پایدار در بلندمدت باشد.

مدل ضربی پیشنهادی، قابلیت کلی مدل را به‌صورت حاصل‌ضرب مؤلفه‌های اصلی آن بیان می‌کند و به شکل زیر فرموله می‌شود:

در این فرمول، افق ۵۰٪ مدل به‌عنوان شاخص قابلیت کلی در نظر گرفته می‌شود و توابع پیوند، وابستگی هر مؤلفه را به زمان عرضه مدل نشان می‌دهند. پارامترهای وزنی نیز سهم نسبی هر بخش را در شکل‌گیری قابلیت نهایی مشخص می‌کنند. این ساختار نشان می‌دهد که افزایش در هر مؤلفه، به‌صورت تقویتی در قابلیت کلی منعکس می‌شود.

نکته کلیدی این مدل، فرض ضریبی بودن فناوری‌ها است. برخلاف مدل‌های جمعی، در اینجا پیشرفت کلی نتیجه ضرب پیشرفت‌های مستقل است. این فرض توضیح می‌دهد که چگونه ترکیب پیشرفت‌های تدریجی در دو مسیر متفاوت می‌تواند منجر به روندی شود که در ظاهر شبیه رشد نمایی است. حتی اگر یکی از مؤلفه‌ها به مرحله اشباع نزدیک شود، رشد مؤلفه دیگر می‌تواند برای مدتی رشد کلی را حفظ کند.

در چارچوب این مدل، فرض می‌شود که مدل‌های پایه قدرتمند حتی بدون بهبودهای استدلالی نیز عملکرد مناسبی دارند، اما با اضافه شدن قابلیت‌های استدلال زنجیره‌ای، توانایی کلی آن‌ها به‌طور چشمگیری افزایش می‌یابد. به همین دلیل، پس از رسیدن به سطح کافی از قدرت پایه، نقش مؤلفه استدلالی در تقویت قابلیت‌ها برجسته‌تر می‌شود. مقاله نشان می‌دهد که چنین مدل ضربی‌ای می‌تواند الگوهای رشدی متنوعی، از جمله رشد سریع اولیه و اشباع نهایی، را به‌صورت نظری بازتولید کند.

شکل ۲. نقاط عطف (inflection points) در مدل سیگموئید لینک.

🔹 ۳.۱. انگیزه و مبنای نظری

فرض اصلی ما این است که بیشتر پیشرفت‌های اخیر در قابلیت‌های AI ناشی از معرفی قابلیت‌های استدلالی به مدل‌های LLM است. به عبارت دیگر، مدلی پایه که قابلیت‌های اصلی را فرا گرفته و بدون استدلال زنجیره‌ای کار می‌کند، با اضافه کردن لایه‌های پس‌تمرین خاص برای استدلال، توان محاسباتی بسیار بالاتری پیدا می‌کند. مدل‌های «زنجیره‌ی فکری» از مدت‌ها پیش مطرح بودند، اما آموزش اختصاصی مدل‌ها برای انجام استدلال (همان ویژگی‌های جدید OpenAI از نسخه o1 به بعد) پدیده‌ای جدید است که تنها از سال ۲۰۲۴ آغاز شده است. پس از عرضه اولین پیش‌نمایش مدل o1 (سپتامبر ۲۰۲۴)، پیشرفت‌های چشمگیری در معیارهای استدلال مشاهده شده؛ مدل‌های فعلی به نظر می‌رسد به عملکرد نزدیک به متخصصان انسانی دست یافته‌اند. در نتیجه، طی یک سال گذشته توانایی‌های استدلال به‌سرعت رشد کرده و امکانات جدیدی به مدل‌ها افزوده است.

با تفکیک این پیشرفت‌ها، مدل ما می‌تواند نشانه‌هایی از کند شدن رشد را نشان دهد. اغلب فناوری‌ها در دوره معرفی خود رشد سریعی دارند و سپس به تدریج اشباع می‌شوند. از آنجا که مدل‌های پایه LLM تا قبل از سال ۲۰۲۴ به کمک افزایش مقیاس داده و پارامترها روند نمایی داشتند ولی به دلایل هزینه‌ای سقف گرفتند، به‌نظر می‌رسد رشد در قابلیت‌های پایه تا حدی اشباع شده باشد. اما موانع بزرگ در آموزش استدلال تا قبل از o1 برداشته شده بود و از سال ۲۰۲۴ تاکنون توانایی‌های استدلال همچنان رشد سریعی داشته‌اند. بنابراین METR می‌تواند به نظر برسد که این پیشرفت‌های گسسته، همچنان روندی نمایی را هدایت می‌کنند (زیرا در گذشته شکاف‌های نوآوری متداول بود). اما این تداوم به نوآوری‌های آتی بستگی دارد؛ اگر موفقیت‌های جدیدی در مقیاس قابلیت‌های استدلالی رخ ندهد، مدل ضربی پیش‌بینی می‌کند که روند نمایی متوقف خواهد شد و رشد کلی آهسته خواهد شد. در واقع زیر سوال بردن شرط نوآوری‌های بی‌پایان ما را به این فکر می‌اندازد که شاید روند فراتر از شکوفایی اولیه، رو به سیر اشباع باشد.

📐 ۳.۲. مدل رگرسیون

برای تحلیل داده‌های مطالعه METR، مقاله یک مدل رگرسیونی جایگزین معرفی می‌کند که نسبت به معادله (۲) ساختاری متفاوت دارد. در این مدل، قابلیت کلی مدل‌های هوش مصنوعی به‌گونه‌ای فرموله می‌شود که مؤلفه‌های مختلف پیشرفت به‌صورت ضربی با یکدیگر ترکیب شوند. فرم ریاضی مدل به شکل زیر ارائه شده است:

در این معادله، توابع پیوند نسبت به تاریخ عرضه مدل تعریف می‌شوند و متغیر شاخص، فعال یا غیرفعال بودن قابلیت‌های استدلال پس‌تمرین را مشخص می‌کند. پارامترهای مدل نیز میزان تأثیر نسبی هر مؤلفه را در شکل‌گیری قابلیت نهایی تعیین می‌کنند. این ساختار امکان تفکیک دقیق نقش فناوری‌های مختلف را در روند پیشرفت مدل‌ها فراهم می‌سازد.

نکته کلیدی این مدل، فرض ضربی بودن پیشرفت فناوری‌ها است. برخلاف مدل‌های جمعی، در اینجا قابلیت کلی به‌عنوان حاصل‌ضرب اجزای تشکیل‌دهنده آن در نظر گرفته می‌شود. این فرض توضیح می‌دهد که چرا داده‌ها می‌توانند در یک بازه زمانی رفتار ظاهراً نمایی از خود نشان دهند، حتی اگر هر یک از مؤلفه‌ها به‌تنهایی دچار اشباع شوند. در چنین حالتی، جابه‌جایی زمانی پیشرفت‌ها باعث می‌شود رشد کلی ادامه‌دار به نظر برسد.

از دیدگاه مقاله، این فرض برای مدل‌های زبانی بزرگ منطقی است؛ زیرا پیشرفت در هر مؤلفه بدون دیگری معنا یا اثر کامل ندارد. ترکیب این عوامل به‌صورت ضربی، چارچوبی منسجم برای تبیین روند مشاهده‌شده در داده‌های METR ارائه می‌دهد و امکان تحلیل واقع‌بینانه‌تری از آینده پیشرفت هوش مصنوعی فراهم می‌سازد.

🔗 ۳.۳. انتخاب توابع پیوند (Link Functions)

توابع پیوند (b(d)) و (r(d)) نحوه وابستگی قابلیت پایه و استدلال را به زمان عرضه مدل تعیین می‌کنند. ما سه نوع تابع برای این منظور در نظر گرفتیم که هر کدام رفتار متفاوتی را مدل می‌کنند:

▫️ سیگموئید(لجستیک):

 

 

در مدل پیشنهادی مقاله، یکی از انتخاب‌های اصلی برای توابع پیوند، تابع سیگموئید (لجستیک) است. در این حالت، پیشرفت قابلیت‌های مدل پایه و قابلیت‌های استدلالی هر دو به‌صورت تابعی سیگموئیدی از زمان عرضه مدل در نظر گرفته می‌شوند. این انتخاب امکان نمایش رشد سریع اولیه و سپس کاهش تدریجی نرخ پیشرفت را فراهم می‌کند. فرم کلی این توابع در مقاله به‌صورت زیر بیان شده است:

این فرمول‌بندی نشان می‌دهد که هر یک از مؤلفه‌های پیشرفت، دارای یک نقطه عطف مشخص هستند که در آن رفتار رشد از حالت شتاب‌دار به حالت کاهنده تغییر می‌کند. بر اساس این ساختار، پیشرفت مدل‌های پایه و قابلیت‌های استدلالی در ابتدا با سرعت بالا افزایش می‌یابد، اما پس از عبور از نقطه عطف، به‌تدریج به سمت اشباع حرکت می‌کند.

مقاله با تکیه بر این انتخاب نشان می‌دهد که اگر هر دو مؤلفه از چنین الگوی رشدی پیروی کنند، ترکیب ضربی آن‌ها می‌تواند در یک بازه زمانی رفتاری شبیه به رشد نمایی ایجاد کند. با این حال، وجود نقاط عطف در هر یک از توابع سیگموئید به این معناست که این روند لزوماً پایدار نیست و در نهایت می‌تواند به کاهش سرعت رشد و رسیدن به یک سطح پایدار منجر شود.

▫️ نمایی (Exponential)

مشابه مدل اصلی METR، می‌توان توابع نمایی در نظر گرفت:. این فرمول همان فرض رشد مداوم نمایی را برای هر مولفه بیان می‌کند. در این حالت هر دو قابلیت پایه و استدلال بدون نقطه عطف مشخصی رشد نمایی می‌کنند و کل قابلیت نیز به طور نامحدود افزایشی می‌شود.

▫️ اسپلاین (Spline)

سرانجام از توابع اسپلاین استفاده کردیم که امکان مدل‌سازی شکل‌های پیچیده‌تر را می‌دهد. هر تابع می‌تواند به صورت یک ترکیب خطی از چند پایه چندجمله‌ای (برای درجه‌ی m=5) تعریف شود. بدین ترتیب می‌توان هر رابطه قطعه‌ای-چندجمله‌ای منعطفی بین زمان عرضه مدل و قابلیت‌ها تعریف کرد و برازش انعطاف‌پذیرتری داشت.

📘 ۳.۴. تحلیل نظری قضیه ۳.۱

به طور نظری ثابت می‌کنیم که اگر هر فناوری (پایه و استدلال) رشد سیگموئیدی داشته باشد، مدل ضربی نتیجه‌ای نمایی و سپس ناپیوسته دارد. درواقع، محصول چند تابع سیگموئید که نقاط عطف جداگانه‌ای دارند، ابتدا رشد نمایی قوی را نشان می‌دهد و پس از عبور از آخرین نقطه عطف، سرعت رشد به سمت صفر حرکت می‌کند (که به معنی اشباع قابلیت کلی است). به عنوان نتیجه اصلی (قضیه ۳.۱)، اگر فرض کنیم نقاط عطف تکنولوژی‌ها به صورت منظم فاصله دارند، مدل نشان می‌دهد که تا قبل از اولین نقطه عطف، رفتارش نمایی است، و پس از عبور از تمامی نقاط عطف، اشباع می‌شود.

به بیان ساده‌تر، در فاز اول (قبل از اولین نقطه عطف) پیشرفت بر اساس روند نمایی ادامه می‌یابد. پس از آن، هر زمان که یک فناوری (مثلاً فناوری پایه) به نقطه عطف خود برسد، سرعت رشد نمایی کاهش می‌یابد و تنها همچنان نمایی ملایم‌تر باقی می‌ماند. نهایتاً پس از عبور از آخرین نقطه عطف، رشد متوقف شده و قابلیت کلی به حالت پایدار می‌رسد.

این نتایج نظری با روند مشاهده‌شده در داده‌ها هم‌خوانی دارد. در دوران اول (سال‌های قبل از ۲۰۲۳)، رشد نمایی اولیه ناشی از افزایش مقیاس داده و مدل بود. بسیاری معتقد بودند قابلیت‌ها به اشباع رسیده است، ولی با اضافه شدن توانمندی‌های استدلالی (از سپتامبر ۲۰۲۴ به بعد)، موج دوم بهبودی بسیار شدید ایجاد شد که متناظر با بخش میانی خطی منحنی سیگموئید ما است. اگر مدل ما واقعاً بازتابی از واقعیت باشد، حفظ رشد نمایی به رویدادهای پیشرفت جدید بستگی دارد؛ یعنی بدون نوآوری‌های بزرگ آینده، روند رشد نمایی پایان خواهد یافت.

شکل ۳. پیش‌بینی‌ها تحت توابع پیوند مختلف
منحنی‌های نارنجی: پیش‌بینی قابلیت‌های مدل پایه
منحنی سبز: پیش‌بینی قابلیت‌های استدلال (با فرض بهترین مدل پایه ممکن، یعنی gpt-5.1-codex-max)
منحنی آبی: قابلیت کلی (ترکیب پایه و استدلال)
نقاط سیاه: زمان افق ۵۰٪ مدل که توسط METR برآورد شده است.

مدل / تابع پیوند MSE (خطای میانگین مربعات) توضیح کوتاه
مدل نمایی METR (اصلی) ۰.۴۸ برازش لگاریتمی اصلی METR
سیگموئید (Sigmoid-link) ۰.۱۲ بهترین برازش در مدل پیشنهادی
نمایی (Exponential) ۰.۳۵ رشد مداوم بدون plateau
اسپلاین (Spline) ۰.۲۲ انعطاف‌پذیر اما پیچیده‌تر
مدل پیشنهادی (ضربی) ۰.۱۵ ترکیب base + reasoning

جدول ۲. ارزیابی کیفیت برازش از طریق میانگین مربعات خطا روی h_model

📊 ۴. تحلیل ما از داده‌های مطالعه METR

در این بخش مدل ضربی پیشنهادی خود را روی داده‌های METR برازش کرده و نتایج آن را گزارش می‌کنیم. داده‌هایی که استفاده کردیم همان مجموعه METR است (شامل نتایج آزمایش در HCAST، RE-Bench و SWAA). این داده‌ها در مخزن عمومی گیت‌هاب METR در دسترس است و لیست ۱۵ مدل پیشرو به همراه تاریخ عرضه آن‌ها نیز مشخص شده است.

🔬 ۴.۱. روش‌شناسی

برای برازش مدل از روش بیزین استفاده کردیم. مدل احتمالاتی نهایی بر اساس معادله (1) و مدل ضربی ما تعریف شده و با استفاده از نرم‌افزار Stan برآورد پارامترها انجام شد. برای پارامترهای مدل سیگموئید و نمایی، از توزیع‌های prior ضعیف (با میانگین ۰ و واریانس ۱۰^۲) استفاده شد و برخی پارامترها (مانند γها و ضرایب خطی δ₁، θ₁) را مثبت محدود کردیم. برای توابع اسپلاین، از دو گره (breakpoint) و اسپلاین‌های چندجمله‌ای درجه پنج استفاده کردیم و ضرایب را نیز مثبت و با پریدگ‌های معمولی محدودیت دادیم تا از بیش‌برازش جلوگیری شود. به بیان کلی، مدل سیگموئید شکلی منعطف و کمی تعداد پارامتر بیشتر دارد، اما مطابق روند داده‌ی محدود و نوسانات احتمالی تنظیم شد.

شکل ۴. مقایسه لینک سیگموئید و پیش‌بینی METR

📈 ۴.۲. نتایج برازش مدل‌ها

نقاط عطف، پیش‌بینی‌های بلندمدت

برازش مدل‌ها: شکل‌های زیر (در مقاله اصلی) مدل‌ها را نمایش می‌دهد. با استفاده از معیار میانگین مربعات خطا (MSE) در نمونه داده‌ای (in-sample)، کیفیت برازش بررسی شد. نتایج نشان دادند که مدل ضربی با تابع پیوند سیگموئید کمترین خطا را داشته است؛ به عبارت دیگر، رشد شکل سیگموئید در این مدل قابل قبول‌تر از رشد نمایی مستقیم به نظر می‌رسد. به‌طور خاص، MSE مدل سیگموئید ضربی بسیار کمتر از مدل نمایی ساده بود که نشانه‌ای بر مناسب بودن شکل سیگموئید است. همچنین، مدل پیشنهادی ما (که پارامترهای بیشتری دارد) از منحنی نمایی METR نیز کاراتر ظاهر شد. با وجود این، دقت مقایسه به دلیل تفاوت در توابع هزینه (loss) و ارزیابی‌ها محدود است.

▫️ نقاط عطف (Inflection Points)

نکته مهم این است که بزرگی پیشرفت‌های اخیر آشکار است، اما پرسش اصلی این است که آیا این پیشرفت ادامه پیدا می‌کند یا نه. در مطالعه METR ادعا شده که هیچ «نقطه عطف» واضحی وجود ندارد تا سرعت رشد کاهش یابد؛ اما ما نشان دادیم داده‌های فعلی چنین چیزی را تأیید نمی‌کند. برای روشن شدن، نقطه عطف زمانی هر بخش را بر اساس پارامترهای برآورد شده مدل ضربی محاسبه کردیم. نتیجه این بود که نقطه عطف قابلیت‌های پایه تقریباً در ۲۴ نوامبر ۲۰۲۴ رخ داده (نزدیک به زمان عرضه اولین مدل با قابلیت استدلال)، و نقطه عطف قابلیت‌های استدلالی در حدود ژوئن ۲۰۲۶ پیش‌بینی می‌شود. به بیان دیگر، پس از انتشار o1-preview (۱۲ سپتامبر ۲۰۲۴)، قابلیت پایه تقریباً به نقطه اشباع رسید و پس از آن تنها قابلیت استدلال ادامه یافت. بنابراین تغییرات اخیر عمدتاً توسط بهبودهای استدلالی هدایت شده است. این تحلیل نشان می‌دهد که اگر دستاورد جدیدی در مقیاس توان استدلال رخ ندهد، رشد کلی نیز به اشباع خواهد رسید.

▫️ پیش‌بینی‌های بلندمدت

نکته مهم این است که بزرگی پیشرفت‌های اخیر آشکار است، اما پرسش اصلی این است که آیا این پیشرفت ادامه پیدا می‌کند یا نه. در مطالعه METR ادعا شده که هیچ «نقطه عطف» واضحی وجود ندارد تا سرعت رشد کاهش یابد؛ اما ما نشان دادیم داده‌های فعلی چنین چیزی را تأیید نمی‌کند. برای روشن شدن، نقطه عطف زمانی هر بخش را بر اساس پارامترهای برآورد شده مدل ضربی محاسبه کردیم. نتیجه این بود که نقطه عطف قابلیت‌های پایه تقریباً در ۲۴ نوامبر ۲۰۲۴ رخ داده (نزدیک به زمان عرضه اولین مدل با قابلیت استدلال)، و نقطه عطف قابلیت‌های استدلالی در حدود ژوئن ۲۰۲۶ پیش‌بینی می‌شود. به بیان دیگر، پس از انتشار o1-preview (۱۲ سپتامبر ۲۰۲۴)، قابلیت پایه تقریباً به نقطه اشباع رسید و پس از آن تنها قابلیت استدلال ادامه یافت. بنابراین تغییرات اخیر عمدتاً توسط بهبودهای استدلالی هدایت شده است. این تحلیل نشان می‌دهد که اگر دستاورد جدیدی در مقیاس توان استدلال رخ ندهد، رشد کلی نیز به اشباع خواهد رسید.

⚠️ ۵. محدودیت‌ها

آیا محدودیت‌ها پیش‌بینی را ضعیف می‌کنند؟ با داده بیشتر، ارزیابی کدام مدل‌ها دقیق‌تر پیش‌بینی کرده‌اند، حیاتی است. به طور گسترده‌تر، روش‌های rigorous بیشتری باید برای ارزیابی دقت این پیش‌بینی‌ها توسعه یابد. این بخش نکات علمی در مورد چالش‌های مدلینگ AI را برجسته می‌کند.

▫️ ارزیابی درون‌نمونه‌ای

یکی از محدودیت‌های مهم این است که تمام برازش‌های ما تنها روی داده‌های موجود انجام شده‌اند. مشابه مطالعه METR، تعداد داده‌های واقعی بسیار محدود است و این مدل‌ها پارامترهای زیادی دارند. بنابراین مقایسه درون‌نمونه، چالشی عمده است. هدف ما اثبات این نبود که مطمئناً رشد نمایی پایان یافته؛ بلکه نشان دادن امکان‌پذیری قوی سناریوی اشباع است. قطعاً با افزایش داده‌های آینده، باید کارایی پیش‌بینی هر مدل را مقایسه کرد تا از قاطعیت نتایج اطمینان حاصل شود و روش‌های ارزیابی قوی‌تر توسعه یابند.

▫️ معیار ارزیابی

همچنین مهم است توجه کنیم که مقایسه مستقیم بین مدل ما و METR محدود به رویکردهای متفاوت است. مقاله METR رگرسیون را با کمینه‌سازی MSE روی لگاریتم قابلیت مدل انجام داد، در حالی که مدل ما از حداکثرسازی احتمال مدل استفاده می‌کند. بنابراین استفاده از MSE در فضای قابلیت (و نه لگاریتم آن) به عنوان معیاری ساده، این مقایسه را نسبتاً ناعادلانه می‌کند. این تفاوت در معیارها بر درجه اطمینان نتایج ما اثر می‌گذارد. باز هم، نیاز به توسعه روش‌های ارزیابی یکسان و شفاف برای پیش‌بینی‌های AI وجود دارد.

▫️ فرض ضربی بودن

همان‌طور که ذکر شد، فرض کلیدی ما ضربی بودن فناوری‌ها است. این فرض منطقی به نظر می‌رسد اما باید در عمل سنجیده شود. در صورت ابطال این فرض (مثلاً اگر به جای ضرب، فناوری‌ها صرفاً جمعی روی هم اثر کنند)، نتایج نظری و پیش‌بینی‌ها تغییر خواهند کرد. بنابراین نیاز است مطالعات تجربی بیشتری برای ارزیابی واقعی بودن این ساختار صورت بگیرد.

▫️ تجزیه محدود

ما تنها قابلیت‌های «پایه» و «استدلال» را در نظر گرفتیم، زیرا معتقدیم این دو نقش اصلی در رشد اخیر ایفا کرده‌اند. با این حال، عوامل دیگری نیز وجود دارند. پیش از GPT-4، بسیاری از پیشرفت‌ها به سادگی با افزایش داده و پارامتر یا تنظیمات اولیه حاصل می‌شد؛ پس می‌توان این‌ها را زیرمجموعه قابلیت پایه در نظر گرفت. بهبودهای جدید استدلالی نیز شامل تغییرات در روش‌های پس‌تمرین و داده‌های خاص برای استدلال است. در عمل، هر یک از این دو مولفه را می‌توان به بخش‌های کوچک‌تر (مثلاً معماری شبکه، پیش‌پردازش داده، الگوریتم‌های پس‌تمرین) تقسیم کرد؛ اما اطلاعات کافی برای مدل کردن جزئیات بیشتر در حال حاضر در دست نیست. برطرف کردن این محدودیت‌ها در کارهای بعدی می‌تواند به دقت بالاتر پیش‌بینی‌ها کمک کند.

🏁 ۶. نتیجه‌گیری

در مقابل دیدگاه فعلی که رشد قابلیت‌های مدل‌های زبان را نمایی می‌داند، ما دیدگاهی جایگزین ارائه کردیم که نشان می‌دهد این رشد ممکن است رو به اشباع یا حداقل خطی باشد. روش پیشنهادی ما بر اساس تفکیک حوزه‌های پیشرفت (قابلیت پایه و استدلال) و تحلیل تجربی داده‌های METR استوار است. نتایج ما نشان می‌دهد که مدل ضربی با توابع پیوند مناسب (بویژه سیگموئید) می‌تواند براساس داده‌های فعلی روندی کمتر از نمایی را پیش‌بینی کند.

تاکید می‌کنیم این کار یک رد قاطع گزارش METR نیست؛ بلکه تنها یک مدل جایگزین قابل اعتنا ارائه می‌دهد. ما معتقدیم لازم است پیش‌بینی‌های رشد قابلیت‌های AI با دیدگاه‌های مختلف بررسی شود و روش‌های پیش‌بینی پیچیده‌تر و ارزیابی دقیق‌تر توسعه یابد. در نهایت، حدس می‌زنیم که پژوهش‌های بیشتر در آینده مشخص خواهند کرد که آیا پیشرفت‌های تکنولوژیک موجود کافی است تا روند نمایی ادامه یابد یا نه؛ اما تا آن زمان، مدل ضربی ارائه‌شده می‌تواند مبنای مفیدی برای پیش‌بینی‌های آینده باشد.

منبع مقاله

آنچه در این مطلب میخوانید !
📿حدیثا، دستیار هوشمند احادیث هوش مصنوعی در خدمت معارف وحیانی؛ معرفی سامانه «حدیثا» مقدمه: تقابل...
مقدمه در سالهای گذشته در مرکز ملی پاسخگویی به سؤالات پایگاه اسلام کوئست و برخی...

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *