چگونه ترکیب هوش مصنوعی و معناشناسی میتواند جعلهای صوتی ظریف را شناسایی کند؟
مقدمه
با پیشرفت چشمگیر یادگیری عمیق، فناوریهای جعل صوتی (Audio Deepfake) بهویژه در حوزههای تبدیل متن به گفتار (TTS) و تبدیل صدا (VC) به سطحی رسیدهاند که تولید گفتار مصنوعی تقریباً از صدای واقعی قابل تشخیص نیست. این سیستمها با بهرهگیری از مدلهای مولد پیشرفته مانند CosyVoice و GPT-SoVITS قادرند خروجیهایی با کیفیتی نزدیک به صدای انسانی ارائه دهند. نتیجه آن است که گفتار مصنوعی نهتنها برای سامانههای پردازش گفتار بلکه حتی برای شنوندگان انسانی نیز بهسختی از گفتار طبیعی قابل تمایز است.
یکی از جدیترین تهدیدها در این زمینه، جعل صوتی جزئی (Partial Audio Deepfake) است. در این نوع حمله، بخشهایی از یک فایل صوتی واقعی با قطعاتی از گفتار مصنوعی جایگزین میشوند. این دستکاری میتواند در سطح کلمات، نامها، یا حتی تکواجها رخ دهد و معنای کل جمله یا پیام را تغییر دهد. به عنوان نمونه، تغییر یک نام سازمان یا مکان خاص در یک فایل صوتی خبری یا مکالمه کاری میتواند مخاطب را بهطور کامل فریب دهد.
چالش اصلی اینجاست که جعل صوتی جزئی بهدلیل موضعی و ظریف بودن، اغلب در مرزهای بین گفتار واقعی و جعلی رخ میدهد. همین ویژگی باعث میشود تشخیص آن برای روشهای سنتی دشوارتر باشد. این تهدید نهتنها امنیت دادههای صوتی را به خطر میاندازد، بلکه میتواند پیامدهای اجتماعی، اقتصادی و حتی سیاسی گستردهای نیز به همراه داشته باشد.
روش پیشنهادی NE-PADD
مدل NE-PADD از دو شاخه موازی تشکیل شده است:
- تشخیص موجودیتهای اسمی صوتی (SpeechNER)
- تشخیص جعل صوتی جزئی (PADD)
ماژول SpeechNER وظیفه دارد تا موجودیتهای اسمی را از گفتار استخراج کرده و بازنماییهای معناشناختی مرتبط را تولید کند. این بازنماییها نقش راهنما را برای ماژول PADD ایفا میکنند تا بتواند نواحی جعلی را با دقت بیشتری شناسایی کند. از سوی دیگر، ماژول PADD با تمرکز بر ویژگیهای فریمبهفریم صوت، ناهنجاریها و بخشهای جعلی را آشکار میسازد. در نهایت، دو خروجی از طریق مکانیزمهای Attention Fusion و Attention Transfer ادغام میشوند تا هم اطلاعات معنایی موجودیتهای اسمی و هم نشانههای آکوستیکی جعل در کنار یکدیگر مورد استفاده قرار گیرند.
جزئیات معماری
-
برای استخراج ویژگیها، از Wav2Vec2.0 آموزشدیده روی مجموعه Librispeech استفاده شده است.
-
سپس این ویژگیها با ResNet-1D شامل بلوکهای باقیمانده پردازش میشوند تا الگوهای محلی و وابستگیهای زمانی بهتر شناسایی شوند.
-
در بخش کلاسیفایر نهایی، ابتدا از Transformer Encoder برای گرفتن وابستگیهای بلندمدت و سپس از BiLSTM برای مدلسازی توالی استفاده شده است.
-
در نهایت یک لایه کاملاً متصل (Fully Connected) برای پیشبینی فریمهای جعلی یا واقعی به کار رفته است.
مکانیزمهای کلیدی 🔑
-
Attention Fusion (AF): ترکیب وزنهای توجه بهدستآمده از هر دو ماژول برای دستیابی به دقت بالاتر. این روش باعث میشود که مدل همزمان به نشانههای آکوستیکی و معناشناختی حساس باشد و از تلفیق آنها در تشخیص بخشهای جعلی استفاده کند.
-
Attention Transfer (AT): استفاده از توزیعهای توجه ماژول SpeechNER بهعنوان راهنما برای ماژول PADD جهت یادگیری بهتر معناشناسی موجودیتهای اسمی. در واقع، AF نقش ادغام مستقیم و AT نقش هدایت غیرمستقیم را ایفا میکنند؛ این دو مکمل یکدیگرند و موجب میشوند مدل NE-PADD نهتنها مرزهای جعلی را دقیقتر بیاموزد بلکه تغییرات معنایی مرتبط با موجودیتها را نیز بهخوبی درک کند.
نوآوریهای علمی 💡
-
-
طراحی یک مدل نوین (NE-PADD): برای ادغام اطلاعات موجودیتهای اسمی در مدلهای تشخیص تقلب صوتی، رویکردی تازه ارائه شده است که نقش معناشناسی را بهطور مستقیم وارد فرآیند تشخیص میکند.
-
معرفی دیتاست جدید PartialSpoof-NER: این مجموعه داده با برچسبگذاری دقیق موجودیتهای اسمی، امکان آموزش و ارزیابی مدلها را در شرایط واقعیتر و کاربردیتر فراهم میسازد.
-
بهکارگیری مکانیزمهای Attention Fusion و Attention Transfer: این دو مکانیزم با ترکیب و انتقال وزنهای توجه، موجب افزایش دقت و پایداری مدل در مواجهه با جعلهای ظریف و جزئی میشوند.
در مجموع، این نوآوریها سبب شدهاند NE-PADD نهتنها در سطح معماری و طراحی، بلکه در ارائه ابزارهای عملی برای پژوهشگران نیز یک گام جلوتر از روشهای پیشین باشد.
-
نتایج آزمایشها 📊
دیتاستها و آمادهسازی داده
دیتاست PartialSpoof-NER با مراحل زیر ساخته شد:
-
رونویسی فایلهای صوتی PartialSpoof با مدل Whisper.
-
استخراج موجودیتهای اسمی از متن رونویسیشده با استفاده از ابزار Stanza.
- الحاق این برچسبها به دادهها و تشکیل PartialSpoof-NER.
آمار دیتاست:
-
Train: 966 فایل واقعی و 8789 فایل جعلی (11,572 موجودیت اسمی)
-
Dev: 124 فایل واقعی و 1057 فایل جعلی (1,407 موجودیت اسمی)
-
Eval: 122 فایل واقعی و 1126 فایل جعلی (1,526 موجودیت اسمی)
این سه بخش داده بهگونهای طراحی شدهاند که مدل بتواند هم در مرحله آموزش، هم در مرحله تنظیم پارامترها و هم در مرحله ارزیابی نهایی عملکرد خود را نشان دهد. نکته مهم این است که هر فایل بهطور میانگین شامل ۱ تا ۲ موجودیت اسمی است؛ موضوعی که اهمیت بالایی دارد زیرا جعلهای جزئی اغلب روی همین موجودیتها صورت میگیرد. بنابراین وجود برچسبگذاری دقیق موجودیتهای اسمی در این دیتاستها نقش کلیدی در تقویت دقت مدل NE-PADD ایفا میکند.
مقایسه مدلها (معیار EER)
| مدل | نرخ خطای برابر (EER) |
|---|---|
| Single reso. | 26.51% |
| BAM | 18.21% |
| TDL | 14.64% |
| WBD | 11.59% |
| NE-PADD (پیشنهادی) | 7.89% |
مدل NE-PADD در مقایسه با روشهای پیشرفته موجود عملکرد بهتری دارد و نرخ خطای بسیار کمتری ثبت کرده است.
مطالعات تکمیلی
-
آزمون Ablation: افزودن مکانیزمهای توجه (AF و AT) باعث بهبود محسوس در مدلهای پایه شد. این نتایج نشان داد که ادغام اطلاعات معنایی موجودیتهای اسمی میتواند حتی در ساختارهای سادهتر هم به افزایش دقت کمک کند.
-
تحلیل سطوح جعل: با افزایش تعداد قطعات جعلی، دقت مدل در تشخیص تقلب افزایش یافت. این موضوع بیانگر آن است که هرچه سطح دستکاری در گفتار بیشتر شود، الگوهای آماری و معنایی بیشتری برای مدل آشکار میشود و شناسایی جعل سادهتر خواهد بود.
به طور کلی، این مطالعات تکمیلی اهمیت استفاده از مکانیزمهای توجه و تحلیل عمیقتر داده را برای بهبود عملکرد مدل NE-PADD برجسته میسازد و مسیر پژوهشهای آینده را روشنتر میکند.
جمعبندی 📝
مدل NE-PADD با بهرهگیری از اطلاعات موجودیتهای اسمی و مکانیزمهای نوین توجه، توانسته است دقت تشخیص جعل صوتی جزئی را بهطور چشمگیری ارتقا دهد. معرفی دیتاست PartialSpoof-NER نیز نقش کلیدی در این موفقیت داشته است، زیرا امکان برچسبگذاری دقیق موجودیتها را فراهم کرده و زمینهای برای آموزش بهتر مدل ایجاد نموده است. نتایج بهدستآمده نشان میدهد که ترکیب اطلاعات معنایی و ویژگیهای آکوستیکی در کنار هم، عملکردی فراتر از روشهای موجود ارائه میدهد. هرچند تشخیص جعلهای بسیار کوتاه همچنان چالشبرانگیز باقی مانده است، اما این تحقیق مسیر تازهای برای توسعه سامانههای مقاومتر در برابر تقلبهای صوتی پیچیده گشوده و پایهای محکم برای پژوهشهای آینده فراهم کرده است.