تطوير مدوّنة تدريب لتحسين أداء نظم فصل المتكلمين المعتمدة على الذكاء الصنعي

تعتبر مشكلة فصل المتكلمين مسألة بحث مفتوحة وتحتاج إلى الكثير من العمل بالرغم من النتائج المنافسة التي ظهرت في السنوات الأخيرة، حيث تنخفض تلك النتائج كثيراً عند فصل المتكلمين في ظروف تسجيل حقيقية (ضجيج- صدى- تداخلات). يرجع السبب في ذلك التدهور إلى تدريب النماذج العصبونية على مدونات تدريب تركيبية تتك...

Full description

Bibliographic Details
Main Authors: رواد ملحم, د.م. آصف جعفر, د.م. أميمة الدكاك
Format: Article
Language:Arabic
Published: damascus university 2023-12-01
Series:مجلة جامعة دمشق للعلوم الهندسية
Subjects:
Online Access:http://journal.damascusuniversity.edu.sy/index.php/engj/article/view/10868
Description
Summary:تعتبر مشكلة فصل المتكلمين مسألة بحث مفتوحة وتحتاج إلى الكثير من العمل بالرغم من النتائج المنافسة التي ظهرت في السنوات الأخيرة، حيث تنخفض تلك النتائج كثيراً عند فصل المتكلمين في ظروف تسجيل حقيقية (ضجيج- صدى- تداخلات). يرجع السبب في ذلك التدهور إلى تدريب النماذج العصبونية على مدونات تدريب تركيبية تتكون من إشارات صوتية هي إشارة مزيج لصوتين والأصوات المفردة Ground Truths التي شكلت ذلك المزيج. صُممت إشارات المزيج في المدونات التركيبية باستخدام برامج محاكاة حاسوبية، لا تعكس بشكل كاف إشارات المزيج الواقعية التي يلتقطها الميكرفون. لا يوجد حتى الآن مدوّنة تدريب حقيقية أو واقعية لفصل المتكلمين، والعائق الرئيسي في ذلك هو صعوبة الحصول على الأصوات المفردة بعد تسجيل إشارة المزيج. نقدّم في هذه الورقة طريقة لبناء أول مدوّنة تدريب حقيقية لفصل المتكلمين تتضمن إشارات المزيج مع الأصوات المفردة الموافقة لكل مزيج. اختبرنا هذه المدوّنة على نموذج تعلم عميق وقارناه مع مدوّنة تركيبية حيث لاحظنا تحسّن دقة فصل المتكلمين بمقدار 1.65 dB حسب المعيار Scale Invariant Signal to Distortion Ratio (SI-SDR) في حالة المزج الحقيقي. أظهرت النتائج أهمية مجموعات التدريب الحقيقية في تحسين أداء خوارزميات فصل المتكلمين في بيئات حقيقية.
ISSN:1999-7302
2789-6854