تشخیص تقلب صوتی با هوش مصنوعی: معرفی مدل NE-PADD و نقش موجودیت‌های اسمی

چگونه ترکیب هوش مصنوعی و معناشناسی می‌تواند جعل‌های صوتی ظریف را شناسایی کند؟

مقدمه

 

با پیشرفت چشمگیر یادگیری عمیق، فناوری‌های جعل صوتی (Audio Deepfake) به‌ویژه در حوزه‌های تبدیل متن به گفتار (TTS) و تبدیل صدا (VC) به سطحی رسیده‌اند که تولید گفتار مصنوعی تقریباً از صدای واقعی قابل تشخیص نیست. این سیستم‌ها با بهره‌گیری از مدل‌های مولد پیشرفته مانند CosyVoice و GPT-SoVITS قادرند خروجی‌هایی با کیفیتی نزدیک به صدای انسانی ارائه دهند. نتیجه آن است که گفتار مصنوعی نه‌تنها برای سامانه‌های پردازش گفتار بلکه حتی برای شنوندگان انسانی نیز به‌سختی از گفتار طبیعی قابل تمایز است.

یکی از جدی‌ترین تهدیدها در این زمینه، جعل صوتی جزئی (Partial Audio Deepfake) است. در این نوع حمله، بخش‌هایی از یک فایل صوتی واقعی با قطعاتی از گفتار مصنوعی جایگزین می‌شوند. این دستکاری می‌تواند در سطح کلمات، نام‌ها، یا حتی تک‌واج‌ها رخ دهد و معنای کل جمله یا پیام را تغییر دهد. به عنوان نمونه، تغییر یک نام سازمان یا مکان خاص در یک فایل صوتی خبری یا مکالمه کاری می‌تواند مخاطب را به‌طور کامل فریب دهد.

چالش اصلی اینجاست که جعل صوتی جزئی به‌دلیل موضعی و ظریف بودن، اغلب در مرزهای بین گفتار واقعی و جعلی رخ می‌دهد. همین ویژگی باعث می‌شود تشخیص آن برای روش‌های سنتی دشوارتر باشد. این تهدید نه‌تنها امنیت داده‌های صوتی را به خطر می‌اندازد، بلکه می‌تواند پیامدهای اجتماعی، اقتصادی و حتی سیاسی گسترده‌ای نیز به همراه داشته باشد.

 

تشخیص دقیق چنین دستکاری‌هایی یک چالش حیاتی محسوب می‌شود. پژوهشگران مدل NE-PADD را معرفی کرده‌اند؛ رویکردی که با بهره‌گیری از دانش موجودیت‌های اسمی (Named Entities) و مکانیزم‌های توجه (Attention Aggregation) دقت تشخیص را به‌طور چشمگیری افزایش می‌دهد.

روش پیشنهادی NE-PADD

مدل NE-PADD از دو شاخه موازی تشکیل شده است:

  • تشخیص موجودیت‌های اسمی صوتی (SpeechNER)
  • تشخیص جعل صوتی جزئی (PADD)

ماژول SpeechNER وظیفه دارد تا موجودیت‌های اسمی را از گفتار استخراج کرده و بازنمایی‌های معناشناختی مرتبط را تولید کند. این بازنمایی‌ها نقش راهنما را برای ماژول PADD ایفا می‌کنند تا بتواند نواحی جعلی را با دقت بیشتری شناسایی کند. از سوی دیگر، ماژول PADD با تمرکز بر ویژگی‌های فریم‌به‌فریم صوت، ناهنجاری‌ها و بخش‌های جعلی را آشکار می‌سازد. در نهایت، دو خروجی از طریق مکانیزم‌های Attention Fusion و Attention Transfer ادغام می‌شوند تا هم اطلاعات معنایی موجودیت‌های اسمی و هم نشانه‌های آکوستیکی جعل در کنار یکدیگر مورد استفاده قرار گیرند.

جزئیات معماری

  • برای استخراج ویژگی‌ها، از Wav2Vec2.0 آموزش‌دیده روی مجموعه Librispeech استفاده شده است.

  • سپس این ویژگی‌ها با ResNet-1D شامل بلوک‌های باقی‌مانده پردازش می‌شوند تا الگوهای محلی و وابستگی‌های زمانی بهتر شناسایی شوند.

  • در بخش کلاسیفایر نهایی، ابتدا از Transformer Encoder برای گرفتن وابستگی‌های بلندمدت و سپس از BiLSTM برای مدل‌سازی توالی استفاده شده است.

  • در نهایت یک لایه کاملاً متصل (Fully Connected) برای پیش‌بینی فریم‌های جعلی یا واقعی به کار رفته است.

مکانیزم‌های کلیدی 🔑

  • Attention Fusion (AF): ترکیب وزن‌های توجه به‌دست‌آمده از هر دو ماژول برای دستیابی به دقت بالاتر. این روش باعث می‌شود که مدل همزمان به نشانه‌های آکوستیکی و معناشناختی حساس باشد و از تلفیق آن‌ها در تشخیص بخش‌های جعلی استفاده کند.

  • Attention Transfer (AT): استفاده از توزیع‌های توجه ماژول SpeechNER به‌عنوان راهنما برای ماژول PADD جهت یادگیری بهتر معناشناسی موجودیت‌های اسمی. در واقع، AF نقش ادغام مستقیم و AT نقش هدایت غیرمستقیم را ایفا می‌کنند؛ این دو مکمل یکدیگرند و موجب می‌شوند مدل NE-PADD نه‌تنها مرزهای جعلی را دقیق‌تر بیاموزد بلکه تغییرات معنایی مرتبط با موجودیت‌ها را نیز به‌خوبی درک کند.

نوآوری‌های علمی 💡

    • طراحی یک مدل نوین (NE-PADD): برای ادغام اطلاعات موجودیت‌های اسمی در مدل‌های تشخیص تقلب صوتی، رویکردی تازه ارائه شده است که نقش معناشناسی را به‌طور مستقیم وارد فرآیند تشخیص می‌کند.

    • معرفی دیتاست جدید PartialSpoof-NER: این مجموعه داده با برچسب‌گذاری دقیق موجودیت‌های اسمی، امکان آموزش و ارزیابی مدل‌ها را در شرایط واقعی‌تر و کاربردی‌تر فراهم می‌سازد.

    • به‌کارگیری مکانیزم‌های Attention Fusion و Attention Transfer: این دو مکانیزم با ترکیب و انتقال وزن‌های توجه، موجب افزایش دقت و پایداری مدل در مواجهه با جعل‌های ظریف و جزئی می‌شوند.

    در مجموع، این نوآوری‌ها سبب شده‌اند NE-PADD نه‌تنها در سطح معماری و طراحی، بلکه در ارائه ابزارهای عملی برای پژوهشگران نیز یک گام جلوتر از روش‌های پیشین باشد.

نتایج آزمایش‌ها 📊

دیتاست‌ها و آماده‌سازی داده

دیتاست PartialSpoof-NER با مراحل زیر ساخته شد:

  1. رونویسی فایل‌های صوتی PartialSpoof با مدل Whisper.

  2. استخراج موجودیت‌های اسمی از متن رونویسی‌شده با استفاده از ابزار Stanza.

  3. الحاق این برچسب‌ها به داده‌ها و تشکیل PartialSpoof-NER.

آمار دیتاست:

  • Train: 966 فایل واقعی و 8789 فایل جعلی (11,572 موجودیت اسمی)

  • Dev: 124 فایل واقعی و 1057 فایل جعلی (1,407 موجودیت اسمی)

  • Eval: 122 فایل واقعی و 1126 فایل جعلی (1,526 موجودیت اسمی)

این سه بخش داده به‌گونه‌ای طراحی شده‌اند که مدل بتواند هم در مرحله آموزش، هم در مرحله تنظیم پارامترها و هم در مرحله ارزیابی نهایی عملکرد خود را نشان دهد. نکته مهم این است که هر فایل به‌طور میانگین شامل ۱ تا ۲ موجودیت اسمی است؛ موضوعی که اهمیت بالایی دارد زیرا جعل‌های جزئی اغلب روی همین موجودیت‌ها صورت می‌گیرد. بنابراین وجود برچسب‌گذاری دقیق موجودیت‌های اسمی در این دیتاست‌ها نقش کلیدی در تقویت دقت مدل NE-PADD ایفا می‌کند.

مقایسه مدل‌ها (معیار EER)

مدل نرخ خطای برابر (EER)
Single reso. 26.51%
BAM 18.21%
TDL 14.64%
WBD 11.59%
NE-PADD (پیشنهادی) 7.89%

مدل NE-PADD در مقایسه با روش‌های پیشرفته موجود عملکرد بهتری دارد و نرخ خطای بسیار کمتری ثبت کرده است.

مطالعات تکمیلی

  • آزمون Ablation: افزودن مکانیزم‌های توجه (AF و AT) باعث بهبود محسوس در مدل‌های پایه شد. این نتایج نشان داد که ادغام اطلاعات معنایی موجودیت‌های اسمی می‌تواند حتی در ساختارهای ساده‌تر هم به افزایش دقت کمک کند.

  • تحلیل سطوح جعل: با افزایش تعداد قطعات جعلی، دقت مدل در تشخیص تقلب افزایش یافت. این موضوع بیانگر آن است که هرچه سطح دستکاری در گفتار بیشتر شود، الگوهای آماری و معنایی بیشتری برای مدل آشکار می‌شود و شناسایی جعل ساده‌تر خواهد بود.

به طور کلی، این مطالعات تکمیلی اهمیت استفاده از مکانیزم‌های توجه و تحلیل عمیق‌تر داده را برای بهبود عملکرد مدل NE-PADD برجسته می‌سازد و مسیر پژوهش‌های آینده را روشن‌تر می‌کند.

جمع‌بندی 📝

مدل NE-PADD با بهره‌گیری از اطلاعات موجودیت‌های اسمی و مکانیزم‌های نوین توجه، توانسته است دقت تشخیص جعل صوتی جزئی را به‌طور چشمگیری ارتقا دهد. معرفی دیتاست PartialSpoof-NER نیز نقش کلیدی در این موفقیت داشته است، زیرا امکان برچسب‌گذاری دقیق موجودیت‌ها را فراهم کرده و زمینه‌ای برای آموزش بهتر مدل ایجاد نموده است. نتایج به‌دست‌آمده نشان می‌دهد که ترکیب اطلاعات معنایی و ویژگی‌های آکوستیکی در کنار هم، عملکردی فراتر از روش‌های موجود ارائه می‌دهد. هرچند تشخیص جعل‌های بسیار کوتاه همچنان چالش‌برانگیز باقی مانده است، اما این تحقیق مسیر تازه‌ای برای توسعه سامانه‌های مقاوم‌تر در برابر تقلب‌های صوتی پیچیده گشوده و پایه‌ای محکم برای پژوهش‌های آینده فراهم کرده است.

آنچه در این مطلب میخوانید !
مقدمه در سالهای گذشته در مرکز ملی پاسخگویی به سؤالات پایگاه اسلام کوئست و برخی...
معرفی پروژه پروژه «یکپارچه سازی و هوشمندسازی قوانین و مقررات جمهوری اسلامی ایران»، در راستای...

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *