🌟 مدل ترانسفورماتوری برای امتیازدهی مجدد و بازنویسی در سیستم‌های ASR

📝 مقدمه

سیستم‌های تشخیص گفتار خودکار (ASR) به یکی از عناصر اصلی دستیارهای صوتی تبدیل شده‌اند، اما خروجی اولیه آن‌ها همیشه دقیق نیست. به‌ویژه در پرس‌وجوهای پیچیده و پر از موجودیت، مدل باید بتواند میان چند فرضیه مختلف بهترین گزینه را انتخاب یا حتی متن را بازنویسی کند. معماری ترانسفورماتوری ارائه‌شده در این پژوهش، راهکاری نوین برای استفاده هم‌زمان از امتیازدهی مجدد (Rescoring) و بازنویسی (Rewriting) ارائه می‌دهد. ✨🎙️

نوآوری اصلی این مدل در آن است که بدون نیاز به ویژگی‌های آکوستیکی، تنها با تکیه بر فهرست N-best می‌تواند عملکرد ASR را بهبود دهد. این رویکرد با هدف حفظ حریم خصوصی، کاهش خطای کلمه (WER)، و افزایش سازگاری مدل با خطاهای واقعی ASR طراحی شده و توانسته در آزمایش‌ها عملکردی چشمگیر ارائه دهد. 🔍⚡

🔵۱. مدل‌ها (Models)

✳️ Transformer Rescorer (TR)

مدل TR نسخه ساده‌تر مدل‌های مبتنی بر دلایبریشِن است که در آن، اجزای آکوستیکی حذف شده‌اند تا بتوان آن را خارج از دستگاه نیز به‌کار گرفت. این مدل با ترکیب دو تابع هزینه—Cross-Entropy و MWER—تلاش می‌کند خطای کلمه را در میان کل N-best کاهش دهد. در این معماری، هر فرضیه به‌طور مستقل رمزگشایی شده و احتمال نهایی پس از نرمال‌سازی تعیین می‌شود. 📘🤖

در زمان استنتاج، مدل با روش Teacher-Forcing توالی هر فرضیه را پردازش می‌کند و ضرر توالی را به احتمال تبدیل می‌کند. در نتیجه، می‌تواند فرضیه‌ای را انتخاب کند که کمترین خطا نسبت به متن مرجع داشته باشد. این مدل پایه‌ای برای مقایسه با نسخه‌های پیشرفته‌تر به‌ویژه TRA است. 🎯

✳️ Transformer Rescore Attention (TRA)

مدل TRA نسخه پیشرفته TR است که با افزودن یک لایه Rescore-Attention، توانایی تحلیل عمیق‌تری نسبت به نسخه پایه پیدا کرده است. برخلاف TR که هر فرضیه را جداگانه پردازش می‌کند، TRA کل فرضیه‌های N-best را در یک دنباله طولانی ادغام کرده و به رمزگذار می‌دهد تا بتواند شباهت‌ها و اختلاف‌های میان فرضیه‌ها را تشخیص دهد. این یکپارچه‌سازی به مدل قدرتی می‌دهد که بتواند الگوهای خطایی را که در میان فرضیه‌ها تکرار می‌شوند، کشف کند و براساس آن‌ها امتیازدهی دقیق‌تری انجام دهد. 🧩

افزون بر این، لایه Rescore-Attention با استفاده از Multi-Head Attention میزان ارتباط میان هر بخش از خروجی هدف و توالی‌های N-best را محاسبه کرده و نتیجه را به یک نمره شباهت تبدیل می‌کند. این سازوکار باعث می‌شود که مدل بتواند هم بهترین فرضیه را رتبه‌بندی کند و هم هنگام لزوم، متن جدیدی تولید کرده و ۱-best را بازنویسی کند. درواقع TRA یک مدل دوکاره‌ است که هم برای انتخاب دقیق‌ترین فرضیه و هم برای اصلاح ساختاری جمله کاربرد دارد. 🚀📝

شکل ۱ — معماری مدل توجه امتیازدهی مجدد ترنسفورمر (Transformer Rescore Attention – TRA)

در این ساختار، مدل TRA در مرحله آموزش سه ورودی دریافت می‌کند: توالی هدف (Target)، فهرست N-best و نمرات شباهت آن‌ها. توالی هدف یک واحد به راست شیفت داده می‌شود تا دیکودر بتواند زیان Cross-Entropy را محاسبه کند، درحالی‌که نمرات شباهت برای محاسبه زیان MQSD استفاده می‌شوند. در زمان استنتاج، مدل با استفاده از خروجی تولیدشده، نمره شباهت هر فرضیه را محاسبه کرده و در صورت پایین بودن زیان توالی، می‌تواند 1-best را بازنویسی کند. این معماری امکان بررسی هم‌زمان کل N-best و تولید متن اصلاح‌شده را فراهم می‌سازد.

🔵 ۲. لایه توجه در امتیازدهی (Rescore Attention Layer)

این لایه مهم‌ترین نوآوری در TRA است. در این بخش، بردارهای رمزگذاری‌شده N-best و بردارهای خروجی هدف وارد سازوکار Multi-Head Attention می‌شوند تا میزان شباهت میان هر فرضیه و دنباله هدف محاسبه شود. نتیجه این فرایند ماتریسی است که نشان می‌دهد هر بخش از فرضیه چه ارتباطی با خروجی هدف دارد. ✨

در ادامه، خروجی توجه در طول توالی جمع شده و با ضرب اسکالر در خروجی هدف، نمره نهایی شباهت هر فرضیه تولید می‌شود. سپس این مقدار با تابع سیگموید تبدیل به نمره نهایی می‌شود. این سازوکار باعث می‌شود مدل بتواند الگوهای خطای ASR را بهتر درک کرده و امتیازدهی دقیق‌تری ارائه کند. 🔍

🔵 ۳. تابع هزینه MQSD

تابع MQSD به‌عنوان جایگزینی قدرتمند برای MWER معرفی شده و هدف آن تقلید توزیع شباهت واقعی میان فرضیه‌های N-best و متن هدف است. برای محاسبه این توزیع، ابتدا میزان شباهت ویرایشی هر فرضیه با متن صحیح اندازه‌گیری و سپس این نمرات با Softmax نرمال‌سازی می‌شوند تا احتمال نسبی هر فرضیه به‌دست آید. مدل در مرحله آموزش تلاش می‌کند با استفاده از Cross-Entropy این توزیع را بازتولید کند و به‌جای تمرکز صرف بر کاهش خطای کلمه، به سمت ایجاد یک ساختار احتمالاتی دقیق‌تر حرکت ‌کند. 📊

برخلاف MWER که تنها روی اختلاف تعداد کلمات صحیح و اشتباه تکیه دارد، MQSD ماهیت و شدت شباهت ویرایشی را هدف قرار می‌دهد. به همین دلیل، MQSD قادر است اختلاف‌ ریزبینانه‌تری بین فرضیه‌های نزدیک به هدف ایجاد کند. ترکیب MQSD با Cross-Entropy در مدل TRA باعث شده است که سیستم در دو سطح عملکرد داشته باشد: هم در تولید دنباله هدف‌مندتر، و هم در امتیازدهی دقیق‌تر به فرضیه‌ها. این ترکیب یکی از دلایل اصلی برتری TRA در آزمایش‌ها بوده و آن را به مدلی پایدار برای بازرتبه‌بندی و بازنویسی تبدیل کرده است. 🎯

🔵 ۴. تنظیمات آزمایشی (Experimental Setup)

✳️ ۴.۱ سیستم ASR

سیستم ASR مورد استفاده بر پایه معماری Conformer طراحی شده که با ترکیب توانایی یادگیری وابستگی‌های محلی (CNN) و بلندمدت (Transformer)، دقت رمزگشایی را افزایش می‌دهد. خروجی این سیستم شامل یک فهرست حداکثر ۱۰ فرضیه (N-best) است که مدل‌های بازرتبه‌بندی می‌توانند از آن استفاده کنند. علاوه‌بر این، از tokenization مبتنی بر Word-Piece و یک مدل زبانی خارجی برای تقویت فرایند رمزگشایی بهره گرفته شده است. 🎧

فهرست N-best خروجی به‌عنوان داده ورودی برای آموزش مدل‌های TR و TRA استفاده شده تا مدل‌ها دقیقاً همان الگوهای خطای ASR واقعی را بیاموزند. این ویژگی بسیار مهم است، زیرا باعث می‌شود TRA قادر باشد خطاهایی را اصلاح کند که فقط در سیستم واقعی ASR رخ می‌دهد و در داده‌های نوشتاری استاندارد وجود ندارند. 🧪

✳️ ۴.۲ داده‌های آموزشی و ارزیابی

داده‌های آموزشی شامل مجموعه‌ای بسیار گسترده از ۱.۸ میلیون پرسش واقعی کاربران و ۳۶ میلیون پرسش مصنوعی تولیدشده برای حوزه موسیقی است. پرسش‌های مصنوعی ابتدا به‌صورت متنی تولید شده و سپس با استفاده از TTS به صوت تبدیل می‌شوند تا از طریق سیستم ASR، خروجی N-best آن‌ها ساخته شود. این رویکرد باعث می‌شود مدل در معرض انواع خطاهای محتمل ASR قرار گیرد و مهارت بازرتبه‌بندی و بازنویسی آن تقویت شود. 🎶

برای ارزیابی نهایی مدل‌ها نیز از مجموعه‌های استاندارد VA-2022 و VA-2023 استفاده شده که شامل دامنه‌های مختلف عمومی و موسیقی هستند. این تنوع داده‌ای کمک می‌کند عملکرد مدل نه‌تنها در یک حوزه محدود، بلکه در سناریوهای متنوع‌تری سنجیده شود. استفاده از داده‌های حجیم و شامل خطاهای واقعی، نقش مهمی در موفقیت TR و TRA داشته و باعث شده کیفیت بازنویسی حتی روی پرسش‌های پیچیده یا پرسش‌هایی با نام‌های خاص بهبود قابل‌توجهی پیدا کند.

📊 جدول ۱. نمای کلی مجموعه‌های ارزیابی

مجموعه	زیرمجموعه	تعداد پرسش‌ها	میانگین طول پرسش
VA-2022	همه دامنه‌ها	8035	5.8
VA-2022	موسیقی	975	5.1
VA-2023	همه دامنه‌ها	11998	6.0
VA-2023	موسیقی	1100	5.9

🔵 ۵. روش‌های مقایسه‌ای

✳️ ۵.۱ مدل‌های ترانسفورمری

مدل‌های TR و TRA هردو با مجموعه‌ای متشکل از ۲۵ میلیون پارامتر طراحی شده‌اند و شامل ۴ لایه رمزگذار، ۱ لایه رمزگشا و سازوکار توجه چندسری با ۸ سر هستند. آموزش این مدل‌ها تا ۳۰۰ هزار گام ادامه یافته و با استفاده از early stopping از بیش‌برازش جلوگیری شده است. برای تعیین سطوح آستانه امتیازدهی و بازنویسی (thresholdR و thresholdW)، از جستجوی شبکه‌ای روی مجموعه توسعه استفاده شده تا بهترین تعادل میان دقت و پایداری مدل حاصل شود. ⚙️

برای توکن‌سازی نیز از SentencePiece با واژگان ۱۶هزار واحدی استفاده شده است. مهم‌تر اینکه داده‌های آموزشی مدل از خروجی ASR (نه متن عادی) ساخته شده‌اند، بنابراین TR و TRA می‌توانند الگوهای خطایی واقعی سیستم را بیاموزند؛ موضوعی که دلیل اصلی برتری TRA در نتایج آزمایشی است. 🤖

✳️ ۵.۲ مدل 4-Gram با Back-Off

مدل 4-Gram یک مدل کلاسیک و ساده زبانی است که بدون نیاز به صوت یا فهرست N-best آموزش داده می‌شود. این مدل از روش Katz Back-Off و تخفیف Good-Turing برای برآورد احتمال n-gramها استفاده می‌کند و به دلیل سادگی و سرعت، اجرای آسانی دارد. 📚

با وجود مزایای مذکور، این مدل نمی‌تواند خطاهای ویژه ASR را اصلاح کند، چون فاقد دسترسی به بافت N-best و الگوهای خطای تولیدشده توسط سیستم است. برخلاف آن، مدل‌های ترانسفورمری که مستقیماً بر اساس N-best آموزش دیده‌اند، قادرند خطاهای واقعی سیستم را درونی‌سازی کرده و اصلاح کنند؛ موضوعی که باعث برتری چشمگیر TRA در آزمایش‌ها شده است.

✳️ ۵.۳ توانایی بازنویسی TRA (Expansion)

مدل TRA علاوه‌بر امتیازدهی مجدد، توانایی تولید متن بازنویسی‌شده را نیز دارد. اگر زیان توالی متن تولیدشده کمتر از مقدار آستانه باشد، سیستم ۱-best را با متن جدید جایگزین می‌کند. این قابلیت درخصوص پرس‌وجوهای حساس—مثل نام هنرمندان، قطعات موسیقی یا موجودیت‌های مشابه—بسیار مؤثر است و دقت سیستم را قابل‌توجه افزایش می‌دهد.

در آزمایش‌ها نشان داده شده که همین توانایی بازنویسی یکی از دلایل اصلی بهبود ۸.۶٪‌ی WER در دامنه موسیقی است، زیرا بسیاری از خطاها با یک بازنویسی هدفمند قابل‌اصلاح‌اند. 🚀✨

🔵 ۶. نتایج (Results)

✳️ ۶.۱ مقایسه TR و TRA

در مقایسه میان TR و نسخه پیشرفته آن، یعنی TRA، مشاهده می‌شود که افزودن لایه Rescore-Attention نقش تعیین‌کننده‌ای در بهبود امتیازدهی دارد. مدل TR هر فرضیه را به‌طور مستقل پردازش می‌کند و تنها به اطلاعات همان فرضیه متکی است، اما TRA با ترکیب تمامی فرضیه‌های موجود در N-best ساختاری ترتیبی می‌سازد که به مدل اجازه می‌دهد روابط بین‌فرضیه‌ای را نیز تحلیل کند. همین ویژگی موجب می‌شود TRA بتواند خطاهای رایج و الگوهای تکرارشونده در ASR را بهتر تشخیص دهد و تصمیم دقیق‌تری در انتخاب یا بازنویسی ۱-best بگیرد.

تحلیل تجربی نشان داده است که TRA در هر دو مجموعه داده عمومی و موسیقی، نسبت به TR کاهش WER پایدارتری ایجاد می‌کند. دلیل اصلی این موضوع آن است که TRA به‌جای پردازش جداگانه، کل فضای فرضیه‌ها را به‌عنوان یک توالی منسجم می‌بیند و همچنین به کمک لایه توجه اضافی، ارتباط هر بخش از متن هدف با تمام فرضیه‌ها را می‌سنجد. این رفتار سبب می‌شود TRA نه‌تنها در رتبه‌بندی بهتر عمل کند، بلکه در بازنویسی جمله نیز عملکرد قابل‌اتکاتری داشته باشد.

📊 جدول ۲. خطای کلمه (WER) مدل‌ها با ورودی N-best

روش	VA-2022 (همه)	VA-2022 (موسیقی)	VA-2023 (همه)	VA-2023 (موسیقی)	میانگین (همه)	میانگین (موسیقی)
ASR پایه	3.57	4.70	5.78	5.52	4.68	5.11
TR	3.61	4.50	5.78	5.18	4.70	4.84
TRA-R	3.52	4.28	5.72	5.29	4.62	4.79
TRA-RW	3.51	3.98	5.72	5.36	4.62	4.67

نتایج نشان می‌دهند که TRA—به‌ویژه نسخه بازنویسی (TRA-RW)—در بسیاری از مجموعه‌ها بهترین عملکرد را ارائه می‌دهد. بهبود ۸.۶٪ در دامنه موسیقی نمایانگر نقش بازنویسی هدفمند در افزایش دقت است. 📈🎧

✳️ ۶.۲ ترکیب با سیگنال‌های ASR

در این مرحله، خروجی مدل‌های TR، TRA و مدل 4-Gram با سیگنال‌های اصلی ASR—از جمله log-likelihood مدل Conformer و امتیاز مدل زبانی خارجی—ترکیب شده است. این ترکیب با یک مدل خطی و وزن‌های بهینه‌شده از طریق الگوریتم Powell انجام شده و هدف آن کاهش حداکثری WER بوده است.

نتایج نشان می‌دهد TRA در تمام حالت‌ها عملکرد بهتر و پایدارتری نسبت به روش‌های کلاسیک ارائه می‌کند. دلیل این برتری آن است که TRA نه‌تنها ساختار N-best را تحلیل می‌کند، بلکه با داده‌های واقعی ASR آموزش دیده و به همین دلیل، دقیقاً با نوع خطاهای سیستم سازگار شده است.🔥🎧

📊 جدول ۳. WER پس از ترکیب با سیگنال‌های ASR (VA-2023)

روش	WER (همه)	بهبود نسبی	WER (موسیقی)	بهبود نسبی
ASR پایه	5.78	—	5.52	—
4-Gram + وزن	5.57	3.63٪	5.26	4.71٪
TR + وزن	5.57	3.63٪	5.32	3.62٪
TRA-R + وزن	5.47	5.36٪	5.15	6.70٪
TRA-RW + وزن	5.46	5.53٪	5.23	5.25٪

🟩 نتیجه‌گیری

مدل معرفی‌شده بر پایه ترنسفورمر، یک گام بزرگ در بهبود خروجی سیستم‌های ASR است. توانایی ترکیبی آن در امتیازدهی مجدد و بازنویسی به‌صورت هم‌زمان، همراه با تابع هزینه MQSD، باعث شده هم دقت متن نهایی افزایش یابد و هم خطای کلمه به میزان قابل‌توجهی کاهش پیدا کند. 🚀✨

نتایج نشان می‌دهند TRA چه به‌عنوان مدل مستقل و چه به‌عنوان مدل زبانی خارجی برای ASR، عملکردی بهتر از روش‌های کلاسیک و حتی مدل‌های ترانسفورمری ساده‌تر دارد. بهره‌گیری از کل زمینه N-best و یادگیری الگوهای خطای سیستم ASR، این مدل را به گزینه‌ای ایده‌آل برای دستیارهای صوتی آینده تبدیل می‌کند. 🎧🤖

نویسندگان و منبع مقاله

I. E. Kang, C. Van Gysel, M.-H. Siu

ایون ئی. کانگ، کریستوف وان گیسل، من-هانگ سیو،

متن کامل مقاله

مقاله قبل

از مغز انسان تا الگوریتم‌های مصنوعی: تحلیل مقایسه‌ای ذهن و هوش مصنوعی👉

بهبود دقت ASR با مدل ترنسفورمری TRA؛ نسل جدید بازنویسی و امتیازدهی مجدد N-best