📈 آیا قابلیتهای هوش مصنوعی بهصورت تصاعدی در حال افزایش است؟ یک فرضیه رقیب
(هائوسن گه،همسا باستانی،آزبرت باستانی)
📝 چکیده
گزارش METR (Model Evaluation & Threat Research) نشان داد که قابلیتهای هوش مصنوعی از سال ۲۰۱۹ بهصورت نمایی رو به افزایش بوده است؛ بهعنوان مثال این گزارش ادعا میکند افق ۵۰٪ مدلها هر هفت ماه دو برابر میشود. در این مقاله اما نشان داده میشود که دادهها از رشد نمایی حمایت نمیکنند، حتی در دورههای کوتاهمدت. با بهکارگیری منحنیهای سیگموئید بر دادههای METR، مشخص شد نقطهی عطف رشد (سرعت کمتر شدن پیشرفت) در واقع در گذشته (حدود ژوئن ۲۰۲۵) رخ داده و نه آینده؛ یعنی ممکن است رشد AI بزودی به اشباع برسد. علاوه بر این، مدلی پیچیدهتر پیشنهاد شده که قابلیتهای هوش مصنوعی را به دو فناوری «مدل پایه» و «توانایی استدلال» تقسیم میکند، و ثابت میکند در این مدل نیز نقطهی عطف پیشرفت زودرس ظاهر خواهد شد. هدف اصلی، ارائه یک دیدگاه جایگزین و برجسته کردن شکنندگی پیشبینیهای فعلی رشد نمایی است؛ این مدل لزوماً پیشبینی دقیق نمیکند، اما امکان وجود روند اشباع را برجسته میسازد.
🌍 ۱. مقدمه
گزارش METR (Kwa و همکاران ۲۰۲۵) مجموعهای از آزمایشها را ارائه کرد تا میزان قابلیتهای هوش مصنوعی در وظایف دشوار را اندازهگیری کند. این گزارش معیاری جدید به نام «افق ۵۰٪ مدل» معرفی کرد: «مدت زمانی که مدل بتواند یک مسئله را با موفقیت در ۵۰٪ مواقع حل کند». بر اساس این معیار، قابلیتهای هوش مصنوعی نمایی در حال افزایش گزارش شد؛ به طوری که ظرفیت مدلها از سال ۲۰۱۹ تا کنون هر هفت ماه دو برابر شده است. در نتیجه، آنها پیشبینی کردند که «در عرض ۵ سال آینده، سیستمهای هوش مصنوعی قادر خواهند بود بسیاری از کارهای نرمافزاری را که اکنون یک ماه زمان انسان میبرد، خودکار کنند». این پیشبینی توجه زیادی برانگیخت و تبعات بزرگی را در حوزه امنیت AI و بازار کار به دنبال داشت.
با این وجود، ما استدلال میکنیم که رشد قابلیتها ممکن است در آستانهی اشباع باشد. گرچه مطالعهی METR به گزینههای محدودی همچون رشد خطی و فوقنمایی اشاره کرده، پیشبینی منحنی سیگموئید را با نقطهی عطفی دور در آینده رد کرده است. اما وقتی این منحنی سیگموئید به دادهها برازش شود، نقطهی عطف به زمان گذشته (ژوئن ۲۰۲۵) اشاره میکند. این نکته نشان میدهد که حداقل ممکن است رشد AI به زودی به آرامش برسد و خطر انفجار پیشرفت فعلی اغراقشده باشد. برای روشن شدن این موضوع، مدلی نظری ارائه میدهیم که در آن معرفی قابلیتهای استدلالی به مدلهای پایهی LLM (مانند GPT) تفسیر میشود. در این مدل، قابلیت کلی هوش مصنوعی حاصل ترکیب ضربی دو جزو «مدل پایه» و «استدلال» است. نشان میدهیم که چنین مدلی نیز میتواند بسته به پیشرفتهای آتی، نقطهی عطفی نزدیک داشته باشد. هدف ما ارائه چشماندازی جایگزین و اعتباربخشی به نیاز به روشهای پیشبینی و ارزیابی قویتر است.

شکل ۱. منحنی سیگموئید
📚 ۲. زمینه و پیشینه مطالعه METR
گزارش اخیر METR بر پایه انتقاد از معیارهای سنتی نظیر دقت (accuracy) نوشته شد که مقیاسپذیری نامحدودی ندارند. برای حل این مشکل، یک معیار جدید به نام «افق ۵۰٪ مدل» معرفی شد: میزان سختی مسائل (برحسب زمان لازم توسط انسان) که مدل میتواند ۵۰٪ مواقع حل کند. این معیار در تئوری نامحدود است و میتواند نشانهای از رشد نمایی باشد. با استفاده از این معیار در سه خانواده مسئله (HCAST، RE-Bench، SWAA) و با آزمون ۲۸ مدل پرکاربرد (که ۱۵ مدل آنها در نظر گرفته شدهاند)، METR نتیجه گرفت که قابلیت مدلها بطور نمایی در حال افزایش است.
طی این مطالعه، ابتدا زمان افق ۵۰٪ هر مدل بر مبنای رگرسیونی از نوع لجستیک تعیین شد (برای مثال مدل GPT-4 یا GPT-5 روی مجموعهای از مسائل مشخص آزمون شدند). سپس روند تغییرات این زمان افق را بررسی کردند. آنها یک رگرسیون خطی بر لگاریتم افق زمان با استفاده از تاریخ عرضه مدل انجام دادند:

این مدل معادل رابطهی نمایی

است. ضریب تعیین (R²) برابر با ۰.۹۸ گزارش شد که METR آن را به عنوان نشانهای قوی از رشد نمایی قابلیتها تفسیر کرد. آنها رگرسیون نمایی را با مدلهای خطی و هایپربولیک نیز مقایسه کردند و نتیجه گرفتند که منحنی نمایی بسیار بهتر است. با این حال، مقایسه محدود به چند مدل اولیه و بدون شواهد آماری قوی بود.
دادههای آزمون: مجموعه داده METR شامل ۱۷۰ مسئله دشوار بود که در سه گروه زیر قرار میگرفت:
-
HCAST: مسائل متنوعی در امنیت سایبری، یادگیری ماشینی، مهندسی نرمافزار و استدلال عمومی.
-
RE-Bench: محیطهای تحقیقاتی باز در یادگیری ماشینی که هرکدام برای حل توسط یک کارشناس ۸ ساعت زمان نیاز داشت.
-
SWAA: شامل ۶۶ وظیفه کوچک متداول در کار مهندسی نرمافزار.
براساس این دادهها، قابلیت هر مدل به صورت «زمان افق ۵۰٪ مدل» اندازهگیری شد که نشاندهنده سختی وظایفی بود که مدل بتواند در نیمی از مواقع حل کند. در نهایت، METR مدعی شد که این افق به طور نمایی با زمان افزایش یافته و در نتیجه مدلهای نسل جدید پیشرفت سریعی دارند.
| مدل | تاریخ انتشار |
|---|---|
| Davinci-002 | ۲۰۲۰-۰۵-۲۸ |
| GPT-4 | ۲۰۲۳-۰۳-۱۴ |
| Grok-4 | ۲۰۲۵-۰۷-۰۹ |
| Claude 3.5 Sonnet (Oct 2024) | ۲۰۲۴-۱۰-۲۲ |
| GPT-5 | ۲۰۲۵-۰۸-۰۷ |
| Claude 3.7 Sonnet | ۲۰۲۵-۰۲-۲۴ |
| GPT-2 | ۲۰۱۹-۰۲-۱۴ |
| GPT-3.5 Turbo Instruct | ۲۰۲۲-۰۳-۱۵ |
| GPT-o1-preview | ۲۰۲۴-۰۹-۱۲ |
| GPT-4 (1106) | ۲۰۲۳-۱۱-۰۶ |
جدول ۱. تاریخهای انتشار مدلهای پیشرفتهٔ منتخب (SOTA)
🧮 ۳. مدل ضربی پیشرفت هوش مصنوعی
در این بخش، مدلی معرفی میشود که قابلیتهای هوش مصنوعی را نه بهصورت یک روند یکنواخت، بلکه بهعنوان حاصلضرب دو فناوری مجزا توصیف میکند. ایده اصلی این است که پیشرفت مشاهدهشده در دادههای METR را میتوان با تفکیک «قابلیتهای پایه» و «قابلیتهای استدلالی» توضیح داد. این مدل نشان میدهد که رشد سریع اخیر هوش مصنوعی الزاماً ناشی از افزایش یکنواخت همه مؤلفهها نیست، بلکه تا حد زیادی به همزمانی پیشرفت در این دو مسیر مستقل بازمیگردد.
در این دیدگاه، فرض میشود که رشد ظاهراً نمایی اخیر در قابلیتهای هوش مصنوعی، بهویژه با معرفی روشهای جدید استدلال زنجیرهای در مدلهای پایه تقویت شده است. به همین دلیل، توسعه قابلیتهای پایه مانند اندازه مدل، دادههای آموزشی و تنظیمات پیشتمرین، بهصورت جداگانه از توسعه قابلیتهای استدلالی تحلیل میشود. این تفکیک امکان ارائه توضیح دقیقتری از رفتار دادهها را فراهم میکند، بدون آنکه نیاز به فرض رشد نمایی پایدار در بلندمدت باشد.
مدل ضربی پیشنهادی، قابلیت کلی مدل را بهصورت حاصلضرب مؤلفههای اصلی آن بیان میکند و به شکل زیر فرموله میشود:

در این فرمول، افق ۵۰٪ مدل بهعنوان شاخص قابلیت کلی در نظر گرفته میشود و توابع پیوند، وابستگی هر مؤلفه را به زمان عرضه مدل نشان میدهند. پارامترهای وزنی نیز سهم نسبی هر بخش را در شکلگیری قابلیت نهایی مشخص میکنند. این ساختار نشان میدهد که افزایش در هر مؤلفه، بهصورت تقویتی در قابلیت کلی منعکس میشود.
نکته کلیدی این مدل، فرض ضریبی بودن فناوریها است. برخلاف مدلهای جمعی، در اینجا پیشرفت کلی نتیجه ضرب پیشرفتهای مستقل است. این فرض توضیح میدهد که چگونه ترکیب پیشرفتهای تدریجی در دو مسیر متفاوت میتواند منجر به روندی شود که در ظاهر شبیه رشد نمایی است. حتی اگر یکی از مؤلفهها به مرحله اشباع نزدیک شود، رشد مؤلفه دیگر میتواند برای مدتی رشد کلی را حفظ کند.
در چارچوب این مدل، فرض میشود که مدلهای پایه قدرتمند حتی بدون بهبودهای استدلالی نیز عملکرد مناسبی دارند، اما با اضافه شدن قابلیتهای استدلال زنجیرهای، توانایی کلی آنها بهطور چشمگیری افزایش مییابد. به همین دلیل، پس از رسیدن به سطح کافی از قدرت پایه، نقش مؤلفه استدلالی در تقویت قابلیتها برجستهتر میشود. مقاله نشان میدهد که چنین مدل ضربیای میتواند الگوهای رشدی متنوعی، از جمله رشد سریع اولیه و اشباع نهایی، را بهصورت نظری بازتولید کند.

شکل ۲. نقاط عطف (inflection points) در مدل سیگموئید لینک.
🔹 ۳.۱. انگیزه و مبنای نظری
فرض اصلی ما این است که بیشتر پیشرفتهای اخیر در قابلیتهای AI ناشی از معرفی قابلیتهای استدلالی به مدلهای LLM است. به عبارت دیگر، مدلی پایه که قابلیتهای اصلی را فرا گرفته و بدون استدلال زنجیرهای کار میکند، با اضافه کردن لایههای پستمرین خاص برای استدلال، توان محاسباتی بسیار بالاتری پیدا میکند. مدلهای «زنجیرهی فکری» از مدتها پیش مطرح بودند، اما آموزش اختصاصی مدلها برای انجام استدلال (همان ویژگیهای جدید OpenAI از نسخه o1 به بعد) پدیدهای جدید است که تنها از سال ۲۰۲۴ آغاز شده است. پس از عرضه اولین پیشنمایش مدل o1 (سپتامبر ۲۰۲۴)، پیشرفتهای چشمگیری در معیارهای استدلال مشاهده شده؛ مدلهای فعلی به نظر میرسد به عملکرد نزدیک به متخصصان انسانی دست یافتهاند. در نتیجه، طی یک سال گذشته تواناییهای استدلال بهسرعت رشد کرده و امکانات جدیدی به مدلها افزوده است.
با تفکیک این پیشرفتها، مدل ما میتواند نشانههایی از کند شدن رشد را نشان دهد. اغلب فناوریها در دوره معرفی خود رشد سریعی دارند و سپس به تدریج اشباع میشوند. از آنجا که مدلهای پایه LLM تا قبل از سال ۲۰۲۴ به کمک افزایش مقیاس داده و پارامترها روند نمایی داشتند ولی به دلایل هزینهای سقف گرفتند، بهنظر میرسد رشد در قابلیتهای پایه تا حدی اشباع شده باشد. اما موانع بزرگ در آموزش استدلال تا قبل از o1 برداشته شده بود و از سال ۲۰۲۴ تاکنون تواناییهای استدلال همچنان رشد سریعی داشتهاند. بنابراین METR میتواند به نظر برسد که این پیشرفتهای گسسته، همچنان روندی نمایی را هدایت میکنند (زیرا در گذشته شکافهای نوآوری متداول بود). اما این تداوم به نوآوریهای آتی بستگی دارد؛ اگر موفقیتهای جدیدی در مقیاس قابلیتهای استدلالی رخ ندهد، مدل ضربی پیشبینی میکند که روند نمایی متوقف خواهد شد و رشد کلی آهسته خواهد شد. در واقع زیر سوال بردن شرط نوآوریهای بیپایان ما را به این فکر میاندازد که شاید روند فراتر از شکوفایی اولیه، رو به سیر اشباع باشد.
📐 ۳.۲. مدل رگرسیون
برای تحلیل دادههای مطالعه METR، مقاله یک مدل رگرسیونی جایگزین معرفی میکند که نسبت به معادله (۲) ساختاری متفاوت دارد. در این مدل، قابلیت کلی مدلهای هوش مصنوعی بهگونهای فرموله میشود که مؤلفههای مختلف پیشرفت بهصورت ضربی با یکدیگر ترکیب شوند. فرم ریاضی مدل به شکل زیر ارائه شده است:
در این معادله، توابع پیوند نسبت به تاریخ عرضه مدل تعریف میشوند و متغیر شاخص، فعال یا غیرفعال بودن قابلیتهای استدلال پستمرین را مشخص میکند. پارامترهای مدل نیز میزان تأثیر نسبی هر مؤلفه را در شکلگیری قابلیت نهایی تعیین میکنند. این ساختار امکان تفکیک دقیق نقش فناوریهای مختلف را در روند پیشرفت مدلها فراهم میسازد.
نکته کلیدی این مدل، فرض ضربی بودن پیشرفت فناوریها است. برخلاف مدلهای جمعی، در اینجا قابلیت کلی بهعنوان حاصلضرب اجزای تشکیلدهنده آن در نظر گرفته میشود. این فرض توضیح میدهد که چرا دادهها میتوانند در یک بازه زمانی رفتار ظاهراً نمایی از خود نشان دهند، حتی اگر هر یک از مؤلفهها بهتنهایی دچار اشباع شوند. در چنین حالتی، جابهجایی زمانی پیشرفتها باعث میشود رشد کلی ادامهدار به نظر برسد.
از دیدگاه مقاله، این فرض برای مدلهای زبانی بزرگ منطقی است؛ زیرا پیشرفت در هر مؤلفه بدون دیگری معنا یا اثر کامل ندارد. ترکیب این عوامل بهصورت ضربی، چارچوبی منسجم برای تبیین روند مشاهدهشده در دادههای METR ارائه میدهد و امکان تحلیل واقعبینانهتری از آینده پیشرفت هوش مصنوعی فراهم میسازد.
🔗 ۳.۳. انتخاب توابع پیوند (Link Functions)
توابع پیوند (b(d)) و (r(d)) نحوه وابستگی قابلیت پایه و استدلال را به زمان عرضه مدل تعیین میکنند. ما سه نوع تابع برای این منظور در نظر گرفتیم که هر کدام رفتار متفاوتی را مدل میکنند:
▫️ سیگموئید(لجستیک):
در مدل پیشنهادی مقاله، یکی از انتخابهای اصلی برای توابع پیوند، تابع سیگموئید (لجستیک) است. در این حالت، پیشرفت قابلیتهای مدل پایه و قابلیتهای استدلالی هر دو بهصورت تابعی سیگموئیدی از زمان عرضه مدل در نظر گرفته میشوند. این انتخاب امکان نمایش رشد سریع اولیه و سپس کاهش تدریجی نرخ پیشرفت را فراهم میکند. فرم کلی این توابع در مقاله بهصورت زیر بیان شده است:
این فرمولبندی نشان میدهد که هر یک از مؤلفههای پیشرفت، دارای یک نقطه عطف مشخص هستند که در آن رفتار رشد از حالت شتابدار به حالت کاهنده تغییر میکند. بر اساس این ساختار، پیشرفت مدلهای پایه و قابلیتهای استدلالی در ابتدا با سرعت بالا افزایش مییابد، اما پس از عبور از نقطه عطف، بهتدریج به سمت اشباع حرکت میکند.
مقاله با تکیه بر این انتخاب نشان میدهد که اگر هر دو مؤلفه از چنین الگوی رشدی پیروی کنند، ترکیب ضربی آنها میتواند در یک بازه زمانی رفتاری شبیه به رشد نمایی ایجاد کند. با این حال، وجود نقاط عطف در هر یک از توابع سیگموئید به این معناست که این روند لزوماً پایدار نیست و در نهایت میتواند به کاهش سرعت رشد و رسیدن به یک سطح پایدار منجر شود.
▫️ نمایی (Exponential)
مشابه مدل اصلی METR، میتوان توابع نمایی در نظر گرفت:
. این فرمول همان فرض رشد مداوم نمایی را برای هر مولفه بیان میکند. در این حالت هر دو قابلیت پایه و استدلال بدون نقطه عطف مشخصی رشد نمایی میکنند و کل قابلیت نیز به طور نامحدود افزایشی میشود.
▫️ اسپلاین (Spline)
سرانجام از توابع اسپلاین استفاده کردیم که امکان مدلسازی شکلهای پیچیدهتر را میدهد. هر تابع میتواند به صورت یک ترکیب خطی از چند پایه چندجملهای (برای درجهی m=5) تعریف شود. بدین ترتیب میتوان هر رابطه قطعهای-چندجملهای منعطفی بین زمان عرضه مدل و قابلیتها تعریف کرد و برازش انعطافپذیرتری داشت.
📘 ۳.۴. تحلیل نظری قضیه ۳.۱
به طور نظری ثابت میکنیم که اگر هر فناوری (پایه و استدلال) رشد سیگموئیدی داشته باشد، مدل ضربی نتیجهای نمایی و سپس ناپیوسته دارد. درواقع، محصول چند تابع سیگموئید که نقاط عطف جداگانهای دارند، ابتدا رشد نمایی قوی را نشان میدهد و پس از عبور از آخرین نقطه عطف، سرعت رشد به سمت صفر حرکت میکند (که به معنی اشباع قابلیت کلی است). به عنوان نتیجه اصلی (قضیه ۳.۱)، اگر فرض کنیم نقاط عطف تکنولوژیها به صورت منظم فاصله دارند، مدل نشان میدهد که تا قبل از اولین نقطه عطف، رفتارش نمایی است، و پس از عبور از تمامی نقاط عطف، اشباع میشود.
به بیان سادهتر، در فاز اول (قبل از اولین نقطه عطف) پیشرفت بر اساس روند نمایی ادامه مییابد. پس از آن، هر زمان که یک فناوری (مثلاً فناوری پایه) به نقطه عطف خود برسد، سرعت رشد نمایی کاهش مییابد و تنها همچنان نمایی ملایمتر باقی میماند. نهایتاً پس از عبور از آخرین نقطه عطف، رشد متوقف شده و قابلیت کلی به حالت پایدار میرسد.
این نتایج نظری با روند مشاهدهشده در دادهها همخوانی دارد. در دوران اول (سالهای قبل از ۲۰۲۳)، رشد نمایی اولیه ناشی از افزایش مقیاس داده و مدل بود. بسیاری معتقد بودند قابلیتها به اشباع رسیده است، ولی با اضافه شدن توانمندیهای استدلالی (از سپتامبر ۲۰۲۴ به بعد)، موج دوم بهبودی بسیار شدید ایجاد شد که متناظر با بخش میانی خطی منحنی سیگموئید ما است. اگر مدل ما واقعاً بازتابی از واقعیت باشد، حفظ رشد نمایی به رویدادهای پیشرفت جدید بستگی دارد؛ یعنی بدون نوآوریهای بزرگ آینده، روند رشد نمایی پایان خواهد یافت.

شکل ۳. پیشبینیها تحت توابع پیوند مختلف
منحنیهای نارنجی: پیشبینی قابلیتهای مدل پایه
منحنی سبز: پیشبینی قابلیتهای استدلال (با فرض بهترین مدل پایه ممکن، یعنی gpt-5.1-codex-max)
منحنی آبی: قابلیت کلی (ترکیب پایه و استدلال)
نقاط سیاه: زمان افق ۵۰٪ مدل که توسط METR برآورد شده است.
| مدل / تابع پیوند | MSE (خطای میانگین مربعات) | توضیح کوتاه |
|---|---|---|
| مدل نمایی METR (اصلی) | ۰.۴۸ | برازش لگاریتمی اصلی METR |
| سیگموئید (Sigmoid-link) | ۰.۱۲ | بهترین برازش در مدل پیشنهادی |
| نمایی (Exponential) | ۰.۳۵ | رشد مداوم بدون plateau |
| اسپلاین (Spline) | ۰.۲۲ | انعطافپذیر اما پیچیدهتر |
| مدل پیشنهادی (ضربی) | ۰.۱۵ | ترکیب base + reasoning |
جدول ۲. ارزیابی کیفیت برازش از طریق میانگین مربعات خطا روی h_model
📊 ۴. تحلیل ما از دادههای مطالعه METR
در این بخش مدل ضربی پیشنهادی خود را روی دادههای METR برازش کرده و نتایج آن را گزارش میکنیم. دادههایی که استفاده کردیم همان مجموعه METR است (شامل نتایج آزمایش در HCAST، RE-Bench و SWAA). این دادهها در مخزن عمومی گیتهاب METR در دسترس است و لیست ۱۵ مدل پیشرو به همراه تاریخ عرضه آنها نیز مشخص شده است.
🔬 ۴.۱. روششناسی
برای برازش مدل از روش بیزین استفاده کردیم. مدل احتمالاتی نهایی بر اساس معادله (1) و مدل ضربی ما تعریف شده و با استفاده از نرمافزار Stan برآورد پارامترها انجام شد. برای پارامترهای مدل سیگموئید و نمایی، از توزیعهای prior ضعیف (با میانگین ۰ و واریانس ۱۰^۲) استفاده شد و برخی پارامترها (مانند γها و ضرایب خطی δ₁، θ₁) را مثبت محدود کردیم. برای توابع اسپلاین، از دو گره (breakpoint) و اسپلاینهای چندجملهای درجه پنج استفاده کردیم و ضرایب را نیز مثبت و با پریدگهای معمولی محدودیت دادیم تا از بیشبرازش جلوگیری شود. به بیان کلی، مدل سیگموئید شکلی منعطف و کمی تعداد پارامتر بیشتر دارد، اما مطابق روند دادهی محدود و نوسانات احتمالی تنظیم شد.

شکل ۴. مقایسه لینک سیگموئید و پیشبینی METR
📈 ۴.۲. نتایج برازش مدلها
نقاط عطف، پیشبینیهای بلندمدت
برازش مدلها: شکلهای زیر (در مقاله اصلی) مدلها را نمایش میدهد. با استفاده از معیار میانگین مربعات خطا (MSE) در نمونه دادهای (in-sample)، کیفیت برازش بررسی شد. نتایج نشان دادند که مدل ضربی با تابع پیوند سیگموئید کمترین خطا را داشته است؛ به عبارت دیگر، رشد شکل سیگموئید در این مدل قابل قبولتر از رشد نمایی مستقیم به نظر میرسد. بهطور خاص، MSE مدل سیگموئید ضربی بسیار کمتر از مدل نمایی ساده بود که نشانهای بر مناسب بودن شکل سیگموئید است. همچنین، مدل پیشنهادی ما (که پارامترهای بیشتری دارد) از منحنی نمایی METR نیز کاراتر ظاهر شد. با وجود این، دقت مقایسه به دلیل تفاوت در توابع هزینه (loss) و ارزیابیها محدود است.
▫️ نقاط عطف (Inflection Points)
نکته مهم این است که بزرگی پیشرفتهای اخیر آشکار است، اما پرسش اصلی این است که آیا این پیشرفت ادامه پیدا میکند یا نه. در مطالعه METR ادعا شده که هیچ «نقطه عطف» واضحی وجود ندارد تا سرعت رشد کاهش یابد؛ اما ما نشان دادیم دادههای فعلی چنین چیزی را تأیید نمیکند. برای روشن شدن، نقطه عطف زمانی هر بخش را بر اساس پارامترهای برآورد شده مدل ضربی محاسبه کردیم. نتیجه این بود که نقطه عطف قابلیتهای پایه تقریباً در ۲۴ نوامبر ۲۰۲۴ رخ داده (نزدیک به زمان عرضه اولین مدل با قابلیت استدلال)، و نقطه عطف قابلیتهای استدلالی در حدود ژوئن ۲۰۲۶ پیشبینی میشود. به بیان دیگر، پس از انتشار o1-preview (۱۲ سپتامبر ۲۰۲۴)، قابلیت پایه تقریباً به نقطه اشباع رسید و پس از آن تنها قابلیت استدلال ادامه یافت. بنابراین تغییرات اخیر عمدتاً توسط بهبودهای استدلالی هدایت شده است. این تحلیل نشان میدهد که اگر دستاورد جدیدی در مقیاس توان استدلال رخ ندهد، رشد کلی نیز به اشباع خواهد رسید.
▫️ پیشبینیهای بلندمدت
نکته مهم این است که بزرگی پیشرفتهای اخیر آشکار است، اما پرسش اصلی این است که آیا این پیشرفت ادامه پیدا میکند یا نه. در مطالعه METR ادعا شده که هیچ «نقطه عطف» واضحی وجود ندارد تا سرعت رشد کاهش یابد؛ اما ما نشان دادیم دادههای فعلی چنین چیزی را تأیید نمیکند. برای روشن شدن، نقطه عطف زمانی هر بخش را بر اساس پارامترهای برآورد شده مدل ضربی محاسبه کردیم. نتیجه این بود که نقطه عطف قابلیتهای پایه تقریباً در ۲۴ نوامبر ۲۰۲۴ رخ داده (نزدیک به زمان عرضه اولین مدل با قابلیت استدلال)، و نقطه عطف قابلیتهای استدلالی در حدود ژوئن ۲۰۲۶ پیشبینی میشود. به بیان دیگر، پس از انتشار o1-preview (۱۲ سپتامبر ۲۰۲۴)، قابلیت پایه تقریباً به نقطه اشباع رسید و پس از آن تنها قابلیت استدلال ادامه یافت. بنابراین تغییرات اخیر عمدتاً توسط بهبودهای استدلالی هدایت شده است. این تحلیل نشان میدهد که اگر دستاورد جدیدی در مقیاس توان استدلال رخ ندهد، رشد کلی نیز به اشباع خواهد رسید.
⚠️ ۵. محدودیتها
آیا محدودیتها پیشبینی را ضعیف میکنند؟ با داده بیشتر، ارزیابی کدام مدلها دقیقتر پیشبینی کردهاند، حیاتی است. به طور گستردهتر، روشهای rigorous بیشتری باید برای ارزیابی دقت این پیشبینیها توسعه یابد. این بخش نکات علمی در مورد چالشهای مدلینگ AI را برجسته میکند.
▫️ ارزیابی دروننمونهای
یکی از محدودیتهای مهم این است که تمام برازشهای ما تنها روی دادههای موجود انجام شدهاند. مشابه مطالعه METR، تعداد دادههای واقعی بسیار محدود است و این مدلها پارامترهای زیادی دارند. بنابراین مقایسه دروننمونه، چالشی عمده است. هدف ما اثبات این نبود که مطمئناً رشد نمایی پایان یافته؛ بلکه نشان دادن امکانپذیری قوی سناریوی اشباع است. قطعاً با افزایش دادههای آینده، باید کارایی پیشبینی هر مدل را مقایسه کرد تا از قاطعیت نتایج اطمینان حاصل شود و روشهای ارزیابی قویتر توسعه یابند.
▫️ معیار ارزیابی
همچنین مهم است توجه کنیم که مقایسه مستقیم بین مدل ما و METR محدود به رویکردهای متفاوت است. مقاله METR رگرسیون را با کمینهسازی MSE روی لگاریتم قابلیت مدل انجام داد، در حالی که مدل ما از حداکثرسازی احتمال مدل استفاده میکند. بنابراین استفاده از MSE در فضای قابلیت (و نه لگاریتم آن) به عنوان معیاری ساده، این مقایسه را نسبتاً ناعادلانه میکند. این تفاوت در معیارها بر درجه اطمینان نتایج ما اثر میگذارد. باز هم، نیاز به توسعه روشهای ارزیابی یکسان و شفاف برای پیشبینیهای AI وجود دارد.
▫️ فرض ضربی بودن
همانطور که ذکر شد، فرض کلیدی ما ضربی بودن فناوریها است. این فرض منطقی به نظر میرسد اما باید در عمل سنجیده شود. در صورت ابطال این فرض (مثلاً اگر به جای ضرب، فناوریها صرفاً جمعی روی هم اثر کنند)، نتایج نظری و پیشبینیها تغییر خواهند کرد. بنابراین نیاز است مطالعات تجربی بیشتری برای ارزیابی واقعی بودن این ساختار صورت بگیرد.
▫️ تجزیه محدود
ما تنها قابلیتهای «پایه» و «استدلال» را در نظر گرفتیم، زیرا معتقدیم این دو نقش اصلی در رشد اخیر ایفا کردهاند. با این حال، عوامل دیگری نیز وجود دارند. پیش از GPT-4، بسیاری از پیشرفتها به سادگی با افزایش داده و پارامتر یا تنظیمات اولیه حاصل میشد؛ پس میتوان اینها را زیرمجموعه قابلیت پایه در نظر گرفت. بهبودهای جدید استدلالی نیز شامل تغییرات در روشهای پستمرین و دادههای خاص برای استدلال است. در عمل، هر یک از این دو مولفه را میتوان به بخشهای کوچکتر (مثلاً معماری شبکه، پیشپردازش داده، الگوریتمهای پستمرین) تقسیم کرد؛ اما اطلاعات کافی برای مدل کردن جزئیات بیشتر در حال حاضر در دست نیست. برطرف کردن این محدودیتها در کارهای بعدی میتواند به دقت بالاتر پیشبینیها کمک کند.
🏁 ۶. نتیجهگیری
در مقابل دیدگاه فعلی که رشد قابلیتهای مدلهای زبان را نمایی میداند، ما دیدگاهی جایگزین ارائه کردیم که نشان میدهد این رشد ممکن است رو به اشباع یا حداقل خطی باشد. روش پیشنهادی ما بر اساس تفکیک حوزههای پیشرفت (قابلیت پایه و استدلال) و تحلیل تجربی دادههای METR استوار است. نتایج ما نشان میدهد که مدل ضربی با توابع پیوند مناسب (بویژه سیگموئید) میتواند براساس دادههای فعلی روندی کمتر از نمایی را پیشبینی کند.
تاکید میکنیم این کار یک رد قاطع گزارش METR نیست؛ بلکه تنها یک مدل جایگزین قابل اعتنا ارائه میدهد. ما معتقدیم لازم است پیشبینیهای رشد قابلیتهای AI با دیدگاههای مختلف بررسی شود و روشهای پیشبینی پیچیدهتر و ارزیابی دقیقتر توسعه یابد. در نهایت، حدس میزنیم که پژوهشهای بیشتر در آینده مشخص خواهند کرد که آیا پیشرفتهای تکنولوژیک موجود کافی است تا روند نمایی ادامه یابد یا نه؛ اما تا آن زمان، مدل ضربی ارائهشده میتواند مبنای مفیدی برای پیشبینیهای آینده باشد.