رمزگشایی از ذهن ماشین: چرا مدلهای هوش مصنوعی مانند مغز انسان میبینند؟ 🧠
مدلهای هوش مصنوعی در حوزه بینایی کامپیوتر به پیشرفتهای حیرتانگیزی دست یافتهاند. آنها نه تنها در وظایف پیچیدهای مانند تشخیص اشیاء از عملکرد انسان پیشی گرفتهاند، بلکه پدیدهای عمیقتر و شگفتانگیزتر را نیز به نمایش گذاشتهاند: زمانی که این مدلها تصاویر را پردازش میکنند، بازنماییهای داخلی و الگوهای فعالسازی آنها شباهت قابلتوجهی به فعالیت مغز انسان پیدا میکند. این “همگرایی” بین سیلیکون و بیولوژی، یکی از جذابترین معماها در تقاطع علوم اعصاب و هوش مصنوعی است. چرا یک شبکه عصبی مصنوعی که صرفاً بر روی تصاویر آموزش دیده است، شروع به دیدن جهان شبیه به ما میکند؟ آیا این یک تصادف است یا از اصول جهانی و بنیادین پردازش اطلاعات پیروی میکند که در هر دو سیستم، طبیعی و مصنوعی، مشترک است؟
یک پژوهش پیشگامانه با کالبدشکافی دقیق این پدیده، تلاش کرده است تا به این سوالات اساسی پاسخ دهد. این تحقیق با آموزش کنترلشده و سیستماتیک خانوادهای از مدلهای پیشرفته بینایی کامپیوتر (DINOv3) و مقایسه لایه به لایه آنها با دادههای فوق دقیق از مغز انسان، برای اولین بار عواملی را که به توسعه بازنماییهای مغز-مانند منجر میشوند، از یکدیگر تفکیک میکند و تصویری روشن از چگونگی و چرایی این همگرایی شگفتانگیز ارائه میدهد.

ابزارهای سنجش: چگونه شباهت مغز و ماشین را اندازهگیری کنیم؟ 🗺️
برای مقایسه دقیق و چندوجهی یک مدل هوش مصنوعی با مغز، نمیتوان به یک معیار کلی بسنده کرد. این پژوهش از سه معیار مکمل و قدرتمند استفاده کرد که هر کدام جنبهای متفاوت از شباهت را میسنجند:
-
-
- امتیاز رمزگذاری (Encoding Score) – شباهت کلی بازنمایی: این معیار، هسته اصلی مقایسه است. به زبان ساده، این امتیاز بررسی میکند که آیا میتوان با استفاده از الگوهای فعالیت در لایههای مختلف مدل هوش مصنوعی، الگوهای فعالیت مغز را در پاسخ به همان تصویر، به صورت معناداری پیشبینی کرد یا خیر . امتیاز بالاتر به معنای شباهت بیشتر در نحوه کدگذاری اطلاعات بصری است.
- امتیاز فضایی (Spatial Score) – شباهت در سلسلهمراتب مکانی: مغز انسان اطلاعات بصری را در یک سلسلهمراتب فضایی پردازش میکند؛ اطلاعات از قشر حسی اولیه در پس سر (مانند ناحیه V1) شروع شده و به تدریج به نواحی پیچیدهتر و انتزاعیتر در بخشهای جلویی مغز (قشر پیشپیشانی) منتقل میشود. این معیار با استفاده از دادههای fMRI (تصویربرداری تشدید مغناطیسی کارکردی) که وضوح فضایی بسیار بالایی دارد، این سوال را مطرح میکند: آیا لایههای اولیه مدل هوش مصنوعی با نواحی اولیه مغز و لایههای نهایی مدل با نواحی پیشرفتهتر مغز مطابقت دارند؟
- امتیاز زمانی (Temporal Score) – شباهت در دینامیک زمانی: پردازش اطلاعات در مغز یک فرآیند آنی نیست، بلکه در طول زمان و در چند صد میلیثانیه اتفاق میافتد. این معیار با بهرهگیری از دادههای MEG (مغناطیسنگاریمغزی) که وضوح زمانی فوقالعادهای دارد، بررسی میکند که آیا لایههای اولیه مدل با پاسخهای اولیه و سریع مغز و لایههای نهایی آن با پاسخهای دیرهنگام و کندتر مغز همتراز هستند یا خیر .
-
عوامل کلیدی همگرایی: اندازه، آموزش و نوع داده چه نقشی دارند؟ 📈
این تحقیق با دستکاری مستقل سه عامل کلیدی در آموزش مدلهای خودیادگیر (self-supervised) DINOv3، به نتایج تعیینکنندهای دست یافت که هر کدام بخشی از پازل را حل میکنند:
-
- تأثیر اندازه مدل 🏗️: آیا مدلهای بزرگتر، بیشتر مانند مغز انسان هستند؟ پاسخ مثبت است. آزمایشها نشان دادند که مدلهای بزرگتر به طور مداوم به امتیازات شباهت بالاتری با مغز دست یافتند، هم در شباهت کلی و هم در سلسلهمراتب فضایی و زمانی . نکته جالبتر این بود که این افزایش شباهت، در تمام نواحی مغز یکسان نبود. تأثیر اندازه مدل به خصوص در نواحی سطح بالاتر مغز مانند قشر پیشپیشانی (مناطق مرتبط با تصمیمگیری و شناخت انتزاعی) بسیار مشهودتر بود . این یافته نشان میدهد که معماریهای بزرگتر و پیچیدهتر، برای یادگیری بازنماییهای انتزاعی و پیچیدهای که در نواحی عالی مغز پردازش میشوند، ضروری هستند.
- تأثیر نوع داده 🌍: آیا نوع تصاویری که مدل با آنها آموزش میبیند، اهمیت دارد؟ قطعاً. برای بررسی این عامل، سه مدل DINOv3 با معماری یکسان بر روی سه نوع داده کاملاً متفاوت آموزش داده شدند: تصاویر انسانمحور (عکسهای روزمره که انسانها معمولاً میبینند)، تصاویر ماهوارهای و تصاویر سلولی (میکروسکوپی) . نتایج به وضوح نشان داد که مدلی که با تصاویر انسانمحور آموزش دیده بود، به طور قابل توجهی بالاترین شباهت را در تمام معیارها و در اکثر نواحی مغز (هم نواحی حسی اولیه و هم نواحی پیشپیشانی) کسب کرد . این یافته حیاتی نشان میدهد که اگرچه اصول کلی پردازش بصری ممکن است در بین انواع تصاویر طبیعی مشترک باشد، اما برای دستیابی به همگرایی عمیق با مغز انسان، دادههای بومشناختی معتبر (یعنی دادههایی که مغز ما برای پردازش آنها تکامل یافته) نقشی کلیدی و غیرقابل انکار دارند.

📌 جدول ۱. واریانتهای مختلف DINOv3 که در آزمایشها مورد استفاده قرار گرفتند.
مسیر تکامل: هوش مصنوعی چگونه یاد میگیرد مانند یک نوزاد ببیند؟ 👶
یکی از شگفتانگیزترین و عمیقترین یافتههای این پژوهش، کشف یک “مسیر تکاملی” (developmental trajectory) مشخص در طول فرآیند آموزش مدل بود. شباهت به مغز به صورت ناگهانی و یکباره ظاهر نمیشود، بلکه یک ترتیب زمانی دقیق و معنادار را دنبال میکند که به طرز شگفتانگیزی یادآور رشد و تکامل مغز انسان است:
- همگرایی سریع با قشر حسی: در مراحل بسیار اولیه آموزش (حدود ۱ تا ۴ درصد از کل فرآیند)، مدل به سرعت بازنماییهایی را یاد میگیرد که با پاسخهای سریع و سطح پایین در قشر حسی اولیه مغز (مانند نواحی V1 و V2 که به لبهها و رنگها حساس هستند) همتراز هستند .
- همگرایی کند با قشر پیشپیشانی: در مقابل، ظهور بازنماییهای کند و سطح بالا که با نواحی انتزاعیتر مغز در قشر پیشپیشانی همتراز هستند، به مقدار بسیار بیشتری داده آموزشی نیاز دارد و بسیار دیرتر در فرآیند آموزش اتفاق میافتد .
این ترتیب زمانی نشان میدهد که مدل ابتدا ویژگیهای بصری پایه و بنیادین را میآموزد و سپس به تدریج و با دیدن دادههای بیشتر، به سمت بازنماییهای انتزاعیتر، مفهومیتر و پیچیدهتر حرکت میکند. این مسیر، به طرز خیرهکنندهای مشابه سلسلهمراتب پردازش در مغز انسان و حتی مراحل رشد شناختی در انسان است.
ارتباط شگفتانگیز با بیولوژی مغز: نقشه راه تکامل 🧬
شگفتانگیزتر از همه، این مسیر تکاملی در مدل هوش مصنوعی، با ویژگیهای ساختاری، عملکردی و تکاملی خود قشر مغز انسان ارتباطی عمیق و معنادار دارد. نواحی از مغز که مدل هوش مصنوعی دیرتر با آنها همگرا میشود، دقیقاً همان نواحیای هستند که از نظر بیولوژیکی دارای ویژگیهای زیر میباشند:
- بیشترین انبساط تکاملی: این نواحی بیشترین رشد و تغییر را از دوران نوزادی تا بزرگسالی تجربه میکنند و دیرتر از سایر نواحی به بلوغ میرسند .
- بیشترین ضخامت قشری: این نواحی دارای لایههای قشری ضخیمتری هستند که نشاندهنده پیچیدگی بیشتر در پردازش است .
- کندترین دینامیک ذاتی: این نواحی به طور طبیعی دارای پنجرههای زمانی طولانیتری برای یکپارچهسازی اطلاعات هستند و با فرآیندهای شناختی کندتر و پیچیدهتر مرتبطاند .
- کمترین غلظت میلین: میلین مادهای است که مانند عایق عمل کرده و سرعت انتقال سیگنالهای عصبی را افزایش میدهد. این نواحی کمترین میزان میلین را دارند که با دینامیک کندتر و پردازش طولانیتر آنها سازگار است .
این ارتباط قوی نشان میدهد که ترتیب یادگیری در شبکههای عصبی مصنوعی ممکن است به طور خود به خودی، برخی از مسیرهای تکاملی و بیولوژیکی عملکرد مغز را مدلسازی کند. این یافته میتواند هوش مصنوعی را به یک چارچوب محاسباتی جدید و قدرتمند برای درک بلوغ مرحلهای پردازش بصری در سیستمهای بیولوژیکی تبدیل کند .
نتیجهگیری: از ماشینها تا ذهن؛ هوش مصنوعی به مثابه ابزاری برای علوم اعصاب 💡
این پژوهش با تفکیک دقیق عوامل مؤثر بر همگرایی مغز و هوش مصنوعی، نشان میدهد که اندازه مدل، میزان آموزش و نوع داده، همگی به طور مستقل و در تعامل با یکدیگر، در شکلگیری بازنماییهای مغز-مانند نقش دارند. به طور خلاصه، بزرگترین مدلها که با بیشترین مقدار دادههای انسانمحور آموزش دیدهاند، به بالاترین سطح از شباهت با مغز دست مییابند.
فراتر از مشخص کردن این عوامل، این یافتهها راه را برای استفاده از مدلهای هوش مصنوعی به عنوان ابزاری قدرتمند برای تحقیق در مورد اصول سازماندهی و تکامل بینایی بیولوژیکی در مغز انسان هموار میکنند. با نشان دادن اینکه چگونه ماشینها میتوانند یاد بگیرند مانند ما ببینند، این پژوهش سرنخهای ارزشمندی از چگونگی تکامل و یادگیری مغز انسان برای درک جهان بصری ارائه میدهد و افقهای جدیدی را در مرز بین هوش مصنوعی و علوم اعصاب میگشاید.