تطوير مدوّنة تدريب لتحسين أداء نظم فصل المتكلمين المعتمدة على الذكاء الصنعي
تعتبر مشكلة فصل المتكلمين مسألة بحث مفتوحة وتحتاج إلى الكثير من العمل بالرغم من النتائج المنافسة التي ظهرت في السنوات الأخيرة، حيث تنخفض تلك النتائج كثيراً عند فصل المتكلمين في ظروف تسجيل حقيقية (ضجيج- صدى- تداخلات). يرجع السبب في ذلك التدهور إلى تدريب النماذج العصبونية على مدونات تدريب تركيبية تتك...
Main Authors: | , , |
---|---|
Format: | Article |
Language: | Arabic |
Published: |
damascus university
2023-12-01
|
Series: | مجلة جامعة دمشق للعلوم الهندسية |
Subjects: | |
Online Access: | http://journal.damascusuniversity.edu.sy/index.php/engj/article/view/10868 |
_version_ | 1827584412671279104 |
---|---|
author | رواد ملحم د.م. آصف جعفر د.م. أميمة الدكاك |
author_facet | رواد ملحم د.م. آصف جعفر د.م. أميمة الدكاك |
author_sort | رواد ملحم |
collection | DOAJ |
description |
تعتبر مشكلة فصل المتكلمين مسألة بحث مفتوحة وتحتاج إلى الكثير من العمل بالرغم من النتائج المنافسة التي ظهرت في السنوات الأخيرة، حيث تنخفض تلك النتائج كثيراً عند فصل المتكلمين في ظروف تسجيل حقيقية (ضجيج- صدى- تداخلات). يرجع السبب في ذلك التدهور إلى تدريب النماذج العصبونية على مدونات تدريب تركيبية تتكون من إشارات صوتية هي إشارة مزيج لصوتين والأصوات المفردة Ground Truths التي شكلت ذلك المزيج. صُممت إشارات المزيج في المدونات التركيبية باستخدام برامج محاكاة حاسوبية، لا تعكس بشكل كاف إشارات المزيج الواقعية التي يلتقطها الميكرفون. لا يوجد حتى الآن مدوّنة تدريب حقيقية أو واقعية لفصل المتكلمين، والعائق الرئيسي في ذلك هو صعوبة الحصول على الأصوات المفردة بعد تسجيل إشارة المزيج. نقدّم في هذه الورقة طريقة لبناء أول مدوّنة تدريب حقيقية لفصل المتكلمين تتضمن إشارات المزيج مع الأصوات المفردة الموافقة لكل مزيج. اختبرنا هذه المدوّنة على نموذج تعلم عميق وقارناه مع مدوّنة تركيبية حيث لاحظنا تحسّن دقة فصل المتكلمين بمقدار 1.65 dB حسب المعيار Scale Invariant Signal to Distortion Ratio (SI-SDR) في حالة المزج الحقيقي. أظهرت النتائج أهمية مجموعات التدريب الحقيقية في تحسين أداء خوارزميات فصل المتكلمين في بيئات حقيقية.
|
first_indexed | 2024-03-08T23:30:00Z |
format | Article |
id | doaj.art-9e962b71b79b41e0a756193e61f32feb |
institution | Directory Open Access Journal |
issn | 1999-7302 2789-6854 |
language | Arabic |
last_indexed | 2024-03-08T23:30:00Z |
publishDate | 2023-12-01 |
publisher | damascus university |
record_format | Article |
series | مجلة جامعة دمشق للعلوم الهندسية |
spelling | doaj.art-9e962b71b79b41e0a756193e61f32feb2023-12-14T15:03:07Zaradamascus universityمجلة جامعة دمشق للعلوم الهندسية1999-73022789-68542023-12-01394تطوير مدوّنة تدريب لتحسين أداء نظم فصل المتكلمين المعتمدة على الذكاء الصنعي رواد ملحمد.م. آصف جعفر0د.م. أميمة الدكاك1جامعة دمشقجامعة دمشق تعتبر مشكلة فصل المتكلمين مسألة بحث مفتوحة وتحتاج إلى الكثير من العمل بالرغم من النتائج المنافسة التي ظهرت في السنوات الأخيرة، حيث تنخفض تلك النتائج كثيراً عند فصل المتكلمين في ظروف تسجيل حقيقية (ضجيج- صدى- تداخلات). يرجع السبب في ذلك التدهور إلى تدريب النماذج العصبونية على مدونات تدريب تركيبية تتكون من إشارات صوتية هي إشارة مزيج لصوتين والأصوات المفردة Ground Truths التي شكلت ذلك المزيج. صُممت إشارات المزيج في المدونات التركيبية باستخدام برامج محاكاة حاسوبية، لا تعكس بشكل كاف إشارات المزيج الواقعية التي يلتقطها الميكرفون. لا يوجد حتى الآن مدوّنة تدريب حقيقية أو واقعية لفصل المتكلمين، والعائق الرئيسي في ذلك هو صعوبة الحصول على الأصوات المفردة بعد تسجيل إشارة المزيج. نقدّم في هذه الورقة طريقة لبناء أول مدوّنة تدريب حقيقية لفصل المتكلمين تتضمن إشارات المزيج مع الأصوات المفردة الموافقة لكل مزيج. اختبرنا هذه المدوّنة على نموذج تعلم عميق وقارناه مع مدوّنة تركيبية حيث لاحظنا تحسّن دقة فصل المتكلمين بمقدار 1.65 dB حسب المعيار Scale Invariant Signal to Distortion Ratio (SI-SDR) في حالة المزج الحقيقي. أظهرت النتائج أهمية مجموعات التدريب الحقيقية في تحسين أداء خوارزميات فصل المتكلمين في بيئات حقيقية. http://journal.damascusuniversity.edu.sy/index.php/engj/article/view/10868فصل المتكلمينمدوّنة التدريبالأصوات المفردةإشارة مزيج |
spellingShingle | رواد ملحم د.م. آصف جعفر د.م. أميمة الدكاك تطوير مدوّنة تدريب لتحسين أداء نظم فصل المتكلمين المعتمدة على الذكاء الصنعي مجلة جامعة دمشق للعلوم الهندسية فصل المتكلمين مدوّنة التدريب الأصوات المفردة إشارة مزيج |
title | تطوير مدوّنة تدريب لتحسين أداء نظم فصل المتكلمين المعتمدة على الذكاء الصنعي |
title_full | تطوير مدوّنة تدريب لتحسين أداء نظم فصل المتكلمين المعتمدة على الذكاء الصنعي |
title_fullStr | تطوير مدوّنة تدريب لتحسين أداء نظم فصل المتكلمين المعتمدة على الذكاء الصنعي |
title_full_unstemmed | تطوير مدوّنة تدريب لتحسين أداء نظم فصل المتكلمين المعتمدة على الذكاء الصنعي |
title_short | تطوير مدوّنة تدريب لتحسين أداء نظم فصل المتكلمين المعتمدة على الذكاء الصنعي |
title_sort | تطوير مدوّنة تدريب لتحسين أداء نظم فصل المتكلمين المعتمدة على الذكاء الصنعي |
topic | فصل المتكلمين مدوّنة التدريب الأصوات المفردة إشارة مزيج |
url | http://journal.damascusuniversity.edu.sy/index.php/engj/article/view/10868 |
work_keys_str_mv | AT rwạdmlḥm tṭwyrmdwnẗtdrybltḥsynạdạʾnẓmfṣlạlmtklmynạlmʿtmdẗʿlyạldẖkạʾạlṣnʿy AT dmậṣfjʿfr tṭwyrmdwnẗtdrybltḥsynạdạʾnẓmfṣlạlmtklmynạlmʿtmdẗʿlyạldẖkạʾạlṣnʿy AT dmạmymẗạldkạk tṭwyrmdwnẗtdrybltḥsynạdạʾnẓmfṣlạlmtklmynạlmʿtmdẗʿlyạldẖkạʾạlṣnʿy |