🌟 مدل ترانسفورماتوری برای امتیازدهی مجدد و بازنویسی در سیستمهای ASR
📝 مقدمه
سیستمهای تشخیص گفتار خودکار (ASR) به یکی از عناصر اصلی دستیارهای صوتی تبدیل شدهاند، اما خروجی اولیه آنها همیشه دقیق نیست. بهویژه در پرسوجوهای پیچیده و پر از موجودیت، مدل باید بتواند میان چند فرضیه مختلف بهترین گزینه را انتخاب یا حتی متن را بازنویسی کند. معماری ترانسفورماتوری ارائهشده در این پژوهش، راهکاری نوین برای استفاده همزمان از امتیازدهی مجدد (Rescoring) و بازنویسی (Rewriting) ارائه میدهد. ✨🎙️
نوآوری اصلی این مدل در آن است که بدون نیاز به ویژگیهای آکوستیکی، تنها با تکیه بر فهرست N-best میتواند عملکرد ASR را بهبود دهد. این رویکرد با هدف حفظ حریم خصوصی، کاهش خطای کلمه (WER)، و افزایش سازگاری مدل با خطاهای واقعی ASR طراحی شده و توانسته در آزمایشها عملکردی چشمگیر ارائه دهد. 🔍⚡
🔵۱. مدلها (Models)
✳️ Transformer Rescorer (TR)
مدل TR نسخه سادهتر مدلهای مبتنی بر دلایبریشِن است که در آن، اجزای آکوستیکی حذف شدهاند تا بتوان آن را خارج از دستگاه نیز بهکار گرفت. این مدل با ترکیب دو تابع هزینه—Cross-Entropy و MWER—تلاش میکند خطای کلمه را در میان کل N-best کاهش دهد. در این معماری، هر فرضیه بهطور مستقل رمزگشایی شده و احتمال نهایی پس از نرمالسازی تعیین میشود. 📘🤖
در زمان استنتاج، مدل با روش Teacher-Forcing توالی هر فرضیه را پردازش میکند و ضرر توالی را به احتمال تبدیل میکند. در نتیجه، میتواند فرضیهای را انتخاب کند که کمترین خطا نسبت به متن مرجع داشته باشد. این مدل پایهای برای مقایسه با نسخههای پیشرفتهتر بهویژه TRA است. 🎯
✳️ Transformer Rescore Attention (TRA)
مدل TRA نسخه پیشرفته TR است که با افزودن یک لایه Rescore-Attention، توانایی تحلیل عمیقتری نسبت به نسخه پایه پیدا کرده است. برخلاف TR که هر فرضیه را جداگانه پردازش میکند، TRA کل فرضیههای N-best را در یک دنباله طولانی ادغام کرده و به رمزگذار میدهد تا بتواند شباهتها و اختلافهای میان فرضیهها را تشخیص دهد. این یکپارچهسازی به مدل قدرتی میدهد که بتواند الگوهای خطایی را که در میان فرضیهها تکرار میشوند، کشف کند و براساس آنها امتیازدهی دقیقتری انجام دهد. 🧩
افزون بر این، لایه Rescore-Attention با استفاده از Multi-Head Attention میزان ارتباط میان هر بخش از خروجی هدف و توالیهای N-best را محاسبه کرده و نتیجه را به یک نمره شباهت تبدیل میکند. این سازوکار باعث میشود که مدل بتواند هم بهترین فرضیه را رتبهبندی کند و هم هنگام لزوم، متن جدیدی تولید کرده و ۱-best را بازنویسی کند. درواقع TRA یک مدل دوکاره است که هم برای انتخاب دقیقترین فرضیه و هم برای اصلاح ساختاری جمله کاربرد دارد. 🚀📝

شکل ۱ — معماری مدل توجه امتیازدهی مجدد ترنسفورمر (Transformer Rescore Attention – TRA)
در این ساختار، مدل TRA در مرحله آموزش سه ورودی دریافت میکند: توالی هدف (Target)، فهرست N-best و نمرات شباهت آنها. توالی هدف یک واحد به راست شیفت داده میشود تا دیکودر بتواند زیان Cross-Entropy را محاسبه کند، درحالیکه نمرات شباهت برای محاسبه زیان MQSD استفاده میشوند. در زمان استنتاج، مدل با استفاده از خروجی تولیدشده، نمره شباهت هر فرضیه را محاسبه کرده و در صورت پایین بودن زیان توالی، میتواند 1-best را بازنویسی کند. این معماری امکان بررسی همزمان کل N-best و تولید متن اصلاحشده را فراهم میسازد.
🔵 ۲. لایه توجه در امتیازدهی (Rescore Attention Layer)
این لایه مهمترین نوآوری در TRA است. در این بخش، بردارهای رمزگذاریشده N-best و بردارهای خروجی هدف وارد سازوکار Multi-Head Attention میشوند تا میزان شباهت میان هر فرضیه و دنباله هدف محاسبه شود. نتیجه این فرایند ماتریسی است که نشان میدهد هر بخش از فرضیه چه ارتباطی با خروجی هدف دارد. ✨
در ادامه، خروجی توجه در طول توالی جمع شده و با ضرب اسکالر در خروجی هدف، نمره نهایی شباهت هر فرضیه تولید میشود. سپس این مقدار با تابع سیگموید تبدیل به نمره نهایی میشود. این سازوکار باعث میشود مدل بتواند الگوهای خطای ASR را بهتر درک کرده و امتیازدهی دقیقتری ارائه کند. 🔍
🔵 ۳. تابع هزینه MQSD
تابع MQSD بهعنوان جایگزینی قدرتمند برای MWER معرفی شده و هدف آن تقلید توزیع شباهت واقعی میان فرضیههای N-best و متن هدف است. برای محاسبه این توزیع، ابتدا میزان شباهت ویرایشی هر فرضیه با متن صحیح اندازهگیری و سپس این نمرات با Softmax نرمالسازی میشوند تا احتمال نسبی هر فرضیه بهدست آید. مدل در مرحله آموزش تلاش میکند با استفاده از Cross-Entropy این توزیع را بازتولید کند و بهجای تمرکز صرف بر کاهش خطای کلمه، به سمت ایجاد یک ساختار احتمالاتی دقیقتر حرکت کند. 📊
برخلاف MWER که تنها روی اختلاف تعداد کلمات صحیح و اشتباه تکیه دارد، MQSD ماهیت و شدت شباهت ویرایشی را هدف قرار میدهد. به همین دلیل، MQSD قادر است اختلاف ریزبینانهتری بین فرضیههای نزدیک به هدف ایجاد کند. ترکیب MQSD با Cross-Entropy در مدل TRA باعث شده است که سیستم در دو سطح عملکرد داشته باشد: هم در تولید دنباله هدفمندتر، و هم در امتیازدهی دقیقتر به فرضیهها. این ترکیب یکی از دلایل اصلی برتری TRA در آزمایشها بوده و آن را به مدلی پایدار برای بازرتبهبندی و بازنویسی تبدیل کرده است. 🎯
🔵 ۴. تنظیمات آزمایشی (Experimental Setup)
✳️ ۴.۱ سیستم ASR
سیستم ASR مورد استفاده بر پایه معماری Conformer طراحی شده که با ترکیب توانایی یادگیری وابستگیهای محلی (CNN) و بلندمدت (Transformer)، دقت رمزگشایی را افزایش میدهد. خروجی این سیستم شامل یک فهرست حداکثر ۱۰ فرضیه (N-best) است که مدلهای بازرتبهبندی میتوانند از آن استفاده کنند. علاوهبر این، از tokenization مبتنی بر Word-Piece و یک مدل زبانی خارجی برای تقویت فرایند رمزگشایی بهره گرفته شده است. 🎧
فهرست N-best خروجی بهعنوان داده ورودی برای آموزش مدلهای TR و TRA استفاده شده تا مدلها دقیقاً همان الگوهای خطای ASR واقعی را بیاموزند. این ویژگی بسیار مهم است، زیرا باعث میشود TRA قادر باشد خطاهایی را اصلاح کند که فقط در سیستم واقعی ASR رخ میدهد و در دادههای نوشتاری استاندارد وجود ندارند. 🧪
✳️ ۴.۲ دادههای آموزشی و ارزیابی
دادههای آموزشی شامل مجموعهای بسیار گسترده از ۱.۸ میلیون پرسش واقعی کاربران و ۳۶ میلیون پرسش مصنوعی تولیدشده برای حوزه موسیقی است. پرسشهای مصنوعی ابتدا بهصورت متنی تولید شده و سپس با استفاده از TTS به صوت تبدیل میشوند تا از طریق سیستم ASR، خروجی N-best آنها ساخته شود. این رویکرد باعث میشود مدل در معرض انواع خطاهای محتمل ASR قرار گیرد و مهارت بازرتبهبندی و بازنویسی آن تقویت شود. 🎶
برای ارزیابی نهایی مدلها نیز از مجموعههای استاندارد VA-2022 و VA-2023 استفاده شده که شامل دامنههای مختلف عمومی و موسیقی هستند. این تنوع دادهای کمک میکند عملکرد مدل نهتنها در یک حوزه محدود، بلکه در سناریوهای متنوعتری سنجیده شود. استفاده از دادههای حجیم و شامل خطاهای واقعی، نقش مهمی در موفقیت TR و TRA داشته و باعث شده کیفیت بازنویسی حتی روی پرسشهای پیچیده یا پرسشهایی با نامهای خاص بهبود قابلتوجهی پیدا کند.
📊 جدول ۱. نمای کلی مجموعههای ارزیابی
| مجموعه | زیرمجموعه | تعداد پرسشها | میانگین طول پرسش |
|---|---|---|---|
| VA-2022 | همه دامنهها | 8035 | 5.8 |
| VA-2022 | موسیقی | 975 | 5.1 |
| VA-2023 | همه دامنهها | 11998 | 6.0 |
| VA-2023 | موسیقی | 1100 | 5.9 |
🔵 ۵. روشهای مقایسهای
✳️ ۵.۱ مدلهای ترانسفورمری
مدلهای TR و TRA هردو با مجموعهای متشکل از ۲۵ میلیون پارامتر طراحی شدهاند و شامل ۴ لایه رمزگذار، ۱ لایه رمزگشا و سازوکار توجه چندسری با ۸ سر هستند. آموزش این مدلها تا ۳۰۰ هزار گام ادامه یافته و با استفاده از early stopping از بیشبرازش جلوگیری شده است. برای تعیین سطوح آستانه امتیازدهی و بازنویسی (thresholdR و thresholdW)، از جستجوی شبکهای روی مجموعه توسعه استفاده شده تا بهترین تعادل میان دقت و پایداری مدل حاصل شود. ⚙️
برای توکنسازی نیز از SentencePiece با واژگان ۱۶هزار واحدی استفاده شده است. مهمتر اینکه دادههای آموزشی مدل از خروجی ASR (نه متن عادی) ساخته شدهاند، بنابراین TR و TRA میتوانند الگوهای خطایی واقعی سیستم را بیاموزند؛ موضوعی که دلیل اصلی برتری TRA در نتایج آزمایشی است. 🤖
✳️ ۵.۲ مدل 4-Gram با Back-Off
مدل 4-Gram یک مدل کلاسیک و ساده زبانی است که بدون نیاز به صوت یا فهرست N-best آموزش داده میشود. این مدل از روش Katz Back-Off و تخفیف Good-Turing برای برآورد احتمال n-gramها استفاده میکند و به دلیل سادگی و سرعت، اجرای آسانی دارد. 📚
با وجود مزایای مذکور، این مدل نمیتواند خطاهای ویژه ASR را اصلاح کند، چون فاقد دسترسی به بافت N-best و الگوهای خطای تولیدشده توسط سیستم است. برخلاف آن، مدلهای ترانسفورمری که مستقیماً بر اساس N-best آموزش دیدهاند، قادرند خطاهای واقعی سیستم را درونیسازی کرده و اصلاح کنند؛ موضوعی که باعث برتری چشمگیر TRA در آزمایشها شده است.
✳️ ۵.۳ توانایی بازنویسی TRA (Expansion)
مدل TRA علاوهبر امتیازدهی مجدد، توانایی تولید متن بازنویسیشده را نیز دارد. اگر زیان توالی متن تولیدشده کمتر از مقدار آستانه باشد، سیستم ۱-best را با متن جدید جایگزین میکند. این قابلیت درخصوص پرسوجوهای حساس—مثل نام هنرمندان، قطعات موسیقی یا موجودیتهای مشابه—بسیار مؤثر است و دقت سیستم را قابلتوجه افزایش میدهد.
در آزمایشها نشان داده شده که همین توانایی بازنویسی یکی از دلایل اصلی بهبود ۸.۶٪ی WER در دامنه موسیقی است، زیرا بسیاری از خطاها با یک بازنویسی هدفمند قابلاصلاحاند. 🚀✨
🔵 ۶. نتایج (Results)
✳️ ۶.۱ مقایسه TR و TRA
در مقایسه میان TR و نسخه پیشرفته آن، یعنی TRA، مشاهده میشود که افزودن لایه Rescore-Attention نقش تعیینکنندهای در بهبود امتیازدهی دارد. مدل TR هر فرضیه را بهطور مستقل پردازش میکند و تنها به اطلاعات همان فرضیه متکی است، اما TRA با ترکیب تمامی فرضیههای موجود در N-best ساختاری ترتیبی میسازد که به مدل اجازه میدهد روابط بینفرضیهای را نیز تحلیل کند. همین ویژگی موجب میشود TRA بتواند خطاهای رایج و الگوهای تکرارشونده در ASR را بهتر تشخیص دهد و تصمیم دقیقتری در انتخاب یا بازنویسی ۱-best بگیرد.
تحلیل تجربی نشان داده است که TRA در هر دو مجموعه داده عمومی و موسیقی، نسبت به TR کاهش WER پایدارتری ایجاد میکند. دلیل اصلی این موضوع آن است که TRA بهجای پردازش جداگانه، کل فضای فرضیهها را بهعنوان یک توالی منسجم میبیند و همچنین به کمک لایه توجه اضافی، ارتباط هر بخش از متن هدف با تمام فرضیهها را میسنجد. این رفتار سبب میشود TRA نهتنها در رتبهبندی بهتر عمل کند، بلکه در بازنویسی جمله نیز عملکرد قابلاتکاتری داشته باشد.
📊 جدول ۲. خطای کلمه (WER) مدلها با ورودی N-best
| روش | VA-2022 (همه) | VA-2022 (موسیقی) | VA-2023 (همه) | VA-2023 (موسیقی) | میانگین (همه) | میانگین (موسیقی) |
|---|---|---|---|---|---|---|
| ASR پایه | 3.57 | 4.70 | 5.78 | 5.52 | 4.68 | 5.11 |
| TR | 3.61 | 4.50 | 5.78 | 5.18 | 4.70 | 4.84 |
| TRA-R | 3.52 | 4.28 | 5.72 | 5.29 | 4.62 | 4.79 |
| TRA-RW | 3.51 | 3.98 | 5.72 | 5.36 | 4.62 | 4.67 |
نتایج نشان میدهند که TRA—بهویژه نسخه بازنویسی (TRA-RW)—در بسیاری از مجموعهها بهترین عملکرد را ارائه میدهد. بهبود ۸.۶٪ در دامنه موسیقی نمایانگر نقش بازنویسی هدفمند در افزایش دقت است. 📈🎧
✳️ ۶.۲ ترکیب با سیگنالهای ASR
در این مرحله، خروجی مدلهای TR، TRA و مدل 4-Gram با سیگنالهای اصلی ASR—از جمله log-likelihood مدل Conformer و امتیاز مدل زبانی خارجی—ترکیب شده است. این ترکیب با یک مدل خطی و وزنهای بهینهشده از طریق الگوریتم Powell انجام شده و هدف آن کاهش حداکثری WER بوده است.
نتایج نشان میدهد TRA در تمام حالتها عملکرد بهتر و پایدارتری نسبت به روشهای کلاسیک ارائه میکند. دلیل این برتری آن است که TRA نهتنها ساختار N-best را تحلیل میکند، بلکه با دادههای واقعی ASR آموزش دیده و به همین دلیل، دقیقاً با نوع خطاهای سیستم سازگار شده است.🔥🎧
📊 جدول ۳. WER پس از ترکیب با سیگنالهای ASR (VA-2023)
| روش | WER (همه) | بهبود نسبی | WER (موسیقی) | بهبود نسبی |
|---|---|---|---|---|
| ASR پایه | 5.78 | — | 5.52 | — |
| 4-Gram + وزن | 5.57 | 3.63٪ | 5.26 | 4.71٪ |
| TR + وزن | 5.57 | 3.63٪ | 5.32 | 3.62٪ |
| TRA-R + وزن | 5.47 | 5.36٪ | 5.15 | 6.70٪ |
| TRA-RW + وزن | 5.46 | 5.53٪ | 5.23 | 5.25٪ |
🟩 نتیجهگیری
مدل معرفیشده بر پایه ترنسفورمر، یک گام بزرگ در بهبود خروجی سیستمهای ASR است. توانایی ترکیبی آن در امتیازدهی مجدد و بازنویسی بهصورت همزمان، همراه با تابع هزینه MQSD، باعث شده هم دقت متن نهایی افزایش یابد و هم خطای کلمه به میزان قابلتوجهی کاهش پیدا کند. 🚀✨
نتایج نشان میدهند TRA چه بهعنوان مدل مستقل و چه بهعنوان مدل زبانی خارجی برای ASR، عملکردی بهتر از روشهای کلاسیک و حتی مدلهای ترانسفورمری سادهتر دارد. بهرهگیری از کل زمینه N-best و یادگیری الگوهای خطای سیستم ASR، این مدل را به گزینهای ایدهآل برای دستیارهای صوتی آینده تبدیل میکند. 🎧🤖