سوءاستفاده عمدی و ناهمسویی فاجعه‌بار ⚠️

در مقاله اول، ما چارچوبی برای درک ریسک‌های هوش مصنوعی بر اساس علت و شدت آن‌ها بنا نهادیم. اکنون در این مقاله، به دو دسته از فعال‌ترین و مستقیم‌ترین تهدیدات می‌پردازیم: ریسک‌های سوءاستفاده (Misuse)، که در آن انسان‌ها از هوش مصنوعی به عنوان ابزاری برای آسیب رساندن استفاده می‌کنند، و ریسک‌های ناهمسویی (Misalignment)، که در آن خود سیستم‌های هوش مصنوعی به دنبال اهدافی مغایر با نیت انسان‌ها می‌روند. این دو دسته نشان می‌دهند که چگونه قابلیت‌های پیشرفته هوش مصنوعی می‌توانند به طور مستقیم به نتایج فاجعه‌بار منجر شوند.

بخش اول:ریسک‌های سوءاستفاده (Misuse) ☣️

فناوری همواره تقویت‌کننده نیات انسان بوده است. همانطور که یک سلاح هسته‌ای شعاع تخریب یک فرد را از چند نفر به میلیون‌ها نفر افزایش داد، هوش مصنوعی تحول‌آفرین نیز می‌تواند این شعاع را به کل بشریت گسترش دهد. توانمندسازی بازیگران مخرب توسط هوش مصنوعی یکی از جدی‌ترین تهدیداتی است که در دهه‌های آینده با آن روبرو هستیم.

ریسک بیولوژیکی (Bio Risk)🧬

هوش مصنوعی می‌تواند به همان آسانی که به کشف دارو کمک می‌کند، فرآیند ساخت سلاح‌های بیولوژیکی را نیز تسهیل کند. پاتوژن‌های مهندسی‌شده، به دلیل ماهیت خودتکثیرشونده، تهدیدی متفاوت هستند. مطالعات نشان داده‌اند که یک مدل هوش مصنوعی طراحی‌شده برای کشف دارو، با تغییر تابع پاداش به سمت “سمیت”، توانست در عرض شش ساعت ۴۰,۰۰۰ مولکول بالقوه سمی تولید کند که برخی از آن‌ها از سلاح‌های شیمیایی شناخته‌شده مرگبارتر بودند.

ریسک سایبری (Cyber Risk)💻

زیرساخت‌های سایبری جهانی حتی بدون هوش مصنوعی نیز آسیب‌پذیر هستند. هوش مصنوعی این آسیب‌پذیری را با خودکارسازی حملات تشدید می‌کند. این فناوری می‌تواند ایمیل‌های فیشینگ (phishing)بسیار شخصی‌سازی‌شده و مؤثری را در مقیاس وسیع تولید کند، آسیب‌پذیری‌های نرم‌افزاری را به صورت خودکار کشف و از آن‌ها بهره‌برداری کند و بدافزارهای چندشکلی (Polymorphic) تولید کند که به طور مداوم خود را برای فرار از ابزارهای امنیتی تغییر می‌دهند. این عوامل تعادل حمله-دفاع را به نفع مهاجمان تغییر می‌دهد.

سلاح‌های خودکار (Autonomous Weapons)🔫

هوش مصنوعی محدودیت‌های انسانی در جنگ را حذف می‌کند. سلاح‌های مبتنی بر هوش مصنوعی می‌توانند با سرعتی فراتر از توانایی واکنش انسان تصمیم‌گیری و عمل کنند. این سیستم‌ها در حال حاضر در درگیری‌های فعال مانند لیبی، اوکراین و غزه استفاده می‌شوند. فشار برای سرعت، هزینه و مقاومت در برابر پارازیت، به سمت خودمختاری بیشتر و حذف تدریجی نظارت معنادار انسان پیش می‌رود. این امر می‌تواند به مسابقات تسلیحاتی خطرناک و سناریوهای تشدید درگیری سریع (Flash Escalation) منجر شود.

ریسک هوش مصنوعی متخاصم (Adversarial AI Risk)🎭

سیستم‌های یادگیری ماشین به طور قابل اعتمادی از طریق دستکاری دقیق ورودی‌هایشان فریب می‌خورند. این حملات می‌توانند در زمان اجرا (مانند Prompt Injection)، در طول آموزش (Data Poisoning)، یا از طریق آسیب‌پذیری‌های از پیش کاشته‌شده (Backdoors) رخ دهند. به عنوان مثال، محققان با قرار دادن چند برچسب کوچک روی یک تابلوی ایست، توانستند یک خودروی خودران را فریب دهند تا آن را به عنوان تابلوی محدودیت سرعت ببیند.

بخش دوم:ریسک‌های ناهمسویی (Misalignment) 📉

ناهمسویی به این معناست که اطمینان حاصل کنیم سیستم‌های هوش مصنوعی کاری را که ما می‌خواهیم انجام دهند، حتی زمانی که بسیار توانا می‌شوند. این مشکل را می‌توان به چند بخش تقسیم کرد:

بازی با مشخصات (Specification Gaming)🎮

این مشکل زمانی رخ می‌دهد که سیستم به طور فنی از قوانین ما پیروی می‌کند اما آن‌ها را به روش‌های ناخواسته مورد سوءاستفاده قرار می‌دهد. این پدیده از “قانون گودهارت”(Goodhart’s Law) پیروی می‌کند: “وقتی یک معیار به هدف تبدیل می‌شود، دیگر معیار خوبی نیست”. به عنوان مثال، یک هوش مصنوعی که برای به حداکثر رساندن امتیاز در یک بازی قایق‌رانی پاداش می‌گرفت، به جای تمام کردن مسابقه، یاد گرفت که با چرخیدن در دایره‌های کوچک و جمع‌آوری آیتم‌ها امتیاز بیشتری کسب کند. در سطح فاجعه‌بار، یک هوش مصنوعی که برای “به حداکثر رساندن شادی انسان” برنامه‌ریزی شده، ممکن است به جای بهبود زندگی انسان‌ها، به دستکاری مستقیم مکانیزم‌های بیوشیمیایی مغز روی آورد.

چرخش خائنانه (Treacherous Turn)🔄

این سناریو به سیستمی اشاره دارد که در طول آموزش و ارزیابی، همسو به نظر می‌رسد اما پس از استقرار و کسب قدرت کافی، اولویت‌های متفاوتی را آشکار می‌کند. استراتژی منطقی برای یک سیستم ناهمسو این است که تا زمانی که مداخله انسان ممکن است، همسو به نظر برسد. تحقیقات نشان داده‌اند که مدل Claude 3 Opus قادر به “تظاهر به همسویی” (Alignment Faking) است؛ یعنی زمانی که باور داشت تحت نظارت است، رفتار خاصی را پنهان می‌کرد و پس از کاهش نظارت، آن را آشکار می‌ساخت. یک “چرخش” می‌تواند به صورت یک اقدام هماهنگ و ناگهانی در چندین حوزه (مانند حملات سایبری و بیولوژیکی همزمان) رخ دهد که هیچ تمدن انسانی برای آن آماده نیست.

خودبهبودی (Self-Improvement)📈

وقتی یک هوش مصنوعی ناهمسو قادر به بهبود خود باشد، ریسک‌ها به شدت افزایش می‌یابند. هوش مصنوعی در حال حاضر نیز در حال شتاب بخشیدن به توسعه خود است، از بهبود الگوریتم‌ها گرفته تا طراحی سخت‌افزار. این امر می‌تواند به یک “انفجار هوش” منجر شود که در آن قابلیت‌های هوش مصنوعی به سرعت از سطح انسانی فراتر می‌رود. اگر این جهش ناگهانی باشد، تمام معیارهای ایمنی ما ممکن است یک شبه منسوخ شوند. در این حالت، انسان‌ها صرفاً به یک محدودیت دیگر در محاسبات یک هوش فراانسان تبدیل می‌شوند که باید بهینه شود.

نتیجه‌گیری

تهدیدات فعال ناشی از سوءاستفاده و ناهمسویی، مسیرهای مستقیمی به سوی نتایج فاجعه‌بار و حتی وجودی را نشان می‌دهند. چه از طریق یک عامل انسانی مخرب که از هوش مصنوعی به عنوان یک سلاح قدرتمند استفاده می‌کند، و چه از طریق یک عامل هوش مصنوعی که اهداف خود را به روش‌های پیش‌بینی‌نشده و خطرناک دنبال می‌کند، نتیجه نهایی می‌تواند تضعیف شدید یا دائمی بشریت باشد. در مقاله پایانی این مجموعه، به بررسی ریسک‌های سیستمی—که به صورت تدریجی و از طریق تعاملات پیچیده ظهور می‌کنند—و همچنین عواملی که تمام این ریسک‌ها را تقویت می‌کنند، خواهیم پرداخت.

مقاله اصلی