تطوير مدوّنة تدريب لتحسين أداء نظم فصل المتكلمين المعتمدة على الذكاء الصنعي

تعتبر مشكلة فصل المتكلمين مسألة بحث مفتوحة وتحتاج إلى الكثير من العمل بالرغم من النتائج المنافسة التي ظهرت في السنوات الأخيرة، حيث تنخفض تلك النتائج كثيراً عند فصل المتكلمين في ظروف تسجيل حقيقية (ضجيج- صدى- تداخلات). يرجع السبب في ذلك التدهور إلى تدريب النماذج العصبونية على مدونات تدريب تركيبية تتك...

Full description

Bibliographic Details
Main Authors: رواد ملحم, د.م. آصف جعفر, د.م. أميمة الدكاك
Format: Article
Language:Arabic
Published: damascus university 2023-12-01
Series:مجلة جامعة دمشق للعلوم الهندسية
Subjects:
Online Access:http://journal.damascusuniversity.edu.sy/index.php/engj/article/view/10868
_version_ 1827584412671279104
author رواد ملحم
د.م. آصف جعفر
د.م. أميمة الدكاك
author_facet رواد ملحم
د.م. آصف جعفر
د.م. أميمة الدكاك
author_sort رواد ملحم
collection DOAJ
description تعتبر مشكلة فصل المتكلمين مسألة بحث مفتوحة وتحتاج إلى الكثير من العمل بالرغم من النتائج المنافسة التي ظهرت في السنوات الأخيرة، حيث تنخفض تلك النتائج كثيراً عند فصل المتكلمين في ظروف تسجيل حقيقية (ضجيج- صدى- تداخلات). يرجع السبب في ذلك التدهور إلى تدريب النماذج العصبونية على مدونات تدريب تركيبية تتكون من إشارات صوتية هي إشارة مزيج لصوتين والأصوات المفردة Ground Truths التي شكلت ذلك المزيج. صُممت إشارات المزيج في المدونات التركيبية باستخدام برامج محاكاة حاسوبية، لا تعكس بشكل كاف إشارات المزيج الواقعية التي يلتقطها الميكرفون. لا يوجد حتى الآن مدوّنة تدريب حقيقية أو واقعية لفصل المتكلمين، والعائق الرئيسي في ذلك هو صعوبة الحصول على الأصوات المفردة بعد تسجيل إشارة المزيج. نقدّم في هذه الورقة طريقة لبناء أول مدوّنة تدريب حقيقية لفصل المتكلمين تتضمن إشارات المزيج مع الأصوات المفردة الموافقة لكل مزيج. اختبرنا هذه المدوّنة على نموذج تعلم عميق وقارناه مع مدوّنة تركيبية حيث لاحظنا تحسّن دقة فصل المتكلمين بمقدار 1.65 dB حسب المعيار Scale Invariant Signal to Distortion Ratio (SI-SDR) في حالة المزج الحقيقي. أظهرت النتائج أهمية مجموعات التدريب الحقيقية في تحسين أداء خوارزميات فصل المتكلمين في بيئات حقيقية.
first_indexed 2024-03-08T23:30:00Z
format Article
id doaj.art-9e962b71b79b41e0a756193e61f32feb
institution Directory Open Access Journal
issn 1999-7302
2789-6854
language Arabic
last_indexed 2024-03-08T23:30:00Z
publishDate 2023-12-01
publisher damascus university
record_format Article
series مجلة جامعة دمشق للعلوم الهندسية
spelling doaj.art-9e962b71b79b41e0a756193e61f32feb2023-12-14T15:03:07Zaradamascus universityمجلة جامعة دمشق للعلوم الهندسية1999-73022789-68542023-12-01394تطوير مدوّنة تدريب لتحسين أداء نظم فصل المتكلمين المعتمدة على الذكاء الصنعي رواد ملحمد.م. آصف جعفر0د.م. أميمة الدكاك1جامعة دمشقجامعة دمشق تعتبر مشكلة فصل المتكلمين مسألة بحث مفتوحة وتحتاج إلى الكثير من العمل بالرغم من النتائج المنافسة التي ظهرت في السنوات الأخيرة، حيث تنخفض تلك النتائج كثيراً عند فصل المتكلمين في ظروف تسجيل حقيقية (ضجيج- صدى- تداخلات). يرجع السبب في ذلك التدهور إلى تدريب النماذج العصبونية على مدونات تدريب تركيبية تتكون من إشارات صوتية هي إشارة مزيج لصوتين والأصوات المفردة Ground Truths التي شكلت ذلك المزيج. صُممت إشارات المزيج في المدونات التركيبية باستخدام برامج محاكاة حاسوبية، لا تعكس بشكل كاف إشارات المزيج الواقعية التي يلتقطها الميكرفون. لا يوجد حتى الآن مدوّنة تدريب حقيقية أو واقعية لفصل المتكلمين، والعائق الرئيسي في ذلك هو صعوبة الحصول على الأصوات المفردة بعد تسجيل إشارة المزيج. نقدّم في هذه الورقة طريقة لبناء أول مدوّنة تدريب حقيقية لفصل المتكلمين تتضمن إشارات المزيج مع الأصوات المفردة الموافقة لكل مزيج. اختبرنا هذه المدوّنة على نموذج تعلم عميق وقارناه مع مدوّنة تركيبية حيث لاحظنا تحسّن دقة فصل المتكلمين بمقدار 1.65 dB حسب المعيار Scale Invariant Signal to Distortion Ratio (SI-SDR) في حالة المزج الحقيقي. أظهرت النتائج أهمية مجموعات التدريب الحقيقية في تحسين أداء خوارزميات فصل المتكلمين في بيئات حقيقية. http://journal.damascusuniversity.edu.sy/index.php/engj/article/view/10868فصل المتكلمينمدوّنة التدريبالأصوات المفردةإشارة مزيج
spellingShingle رواد ملحم
د.م. آصف جعفر
د.م. أميمة الدكاك
تطوير مدوّنة تدريب لتحسين أداء نظم فصل المتكلمين المعتمدة على الذكاء الصنعي
مجلة جامعة دمشق للعلوم الهندسية
فصل المتكلمين
مدوّنة التدريب
الأصوات المفردة
إشارة مزيج
title تطوير مدوّنة تدريب لتحسين أداء نظم فصل المتكلمين المعتمدة على الذكاء الصنعي
title_full تطوير مدوّنة تدريب لتحسين أداء نظم فصل المتكلمين المعتمدة على الذكاء الصنعي
title_fullStr تطوير مدوّنة تدريب لتحسين أداء نظم فصل المتكلمين المعتمدة على الذكاء الصنعي
title_full_unstemmed تطوير مدوّنة تدريب لتحسين أداء نظم فصل المتكلمين المعتمدة على الذكاء الصنعي
title_short تطوير مدوّنة تدريب لتحسين أداء نظم فصل المتكلمين المعتمدة على الذكاء الصنعي
title_sort تطوير مدوّنة تدريب لتحسين أداء نظم فصل المتكلمين المعتمدة على الذكاء الصنعي
topic فصل المتكلمين
مدوّنة التدريب
الأصوات المفردة
إشارة مزيج
url http://journal.damascusuniversity.edu.sy/index.php/engj/article/view/10868
work_keys_str_mv AT rwạdmlḥm tṭwyrmdwnẗtdrybltḥsynạdạʾnẓmfṣlạlmtklmynạlmʿtmdẗʿlyạldẖkạʾạlṣnʿy
AT dmậṣfjʿfr tṭwyrmdwnẗtdrybltḥsynạdạʾnẓmfṣlạlmtklmynạlmʿtmdẗʿlyạldẖkạʾạlṣnʿy
AT dmạmymẗạldkạk tṭwyrmdwnẗtdrybltḥsynạdạʾnẓmfṣlạlmtklmynạlmʿtmdẗʿlyạldẖkạʾạlṣnʿy