HiVAD : A Voice Activity Detection Application Based on Deep Learning
ABSTRAK Dalam tulisan ini, deteksi aktivitas suara disajikan pada smartphone secara realtime dengan jaringan saraf konvolusional. Pengurangan waktu komputasi adalah masalah dari studi sebelumnya. Meskipun telah menggunakan pendekatan machine learning, masih banyak kekurangan dari penelitian sebelum...
Main Authors: | , |
---|---|
Format: | Article |
Language: | Indonesian |
Published: |
Teknik Elektro Institut Teknologi Nasional Bandung
2021-10-01
|
Series: | Jurnal Elkomika |
Subjects: | |
Online Access: | https://ejurnal.itenas.ac.id/index.php/elkomika/article/view/4950 |
Summary: | ABSTRAK
Dalam tulisan ini, deteksi aktivitas suara disajikan pada smartphone secara realtime dengan jaringan saraf konvolusional. Pengurangan waktu komputasi adalah masalah dari studi sebelumnya. Meskipun telah menggunakan pendekatan machine learning, masih banyak kekurangan dari penelitian sebelumnya. Citra sinyal suara dihasikan oleh spektrogram energi log-mel, kemudian citra sinyal suara diinputkan ke dalam deep learning CNN untuk mengklasifikasi suara manusia dan derau. HiVAD mengungguli persentase metode VAD lainnya yaitu G729B, Sohn, dan RF dari hasil tes yang ditunjukkan dengan akurasi rata-rata SHR sebesar 15,89%, 28,98%, 42,13% pada tingkat 0dB, 8,67%, 16,29%, 17,63% pada tingkat 5 dB, dan 1,35%, 7,72%, 5,14% pada tingkat 10 dB. Selain itu, mekanisme Multi-threading memungkinkan komputasi yang efisien untuk waktu secara realtime. Penelitian ini menunjukkan bahwa arsitektur CNN pada HiVAD secara signifikan meningkatkan akurasi deteksi aktivitas suara.
Kata kunci: aplikasi VAD, voice detection, deep learning, CNN
ABSTRACT
In this paper, the detection of sound activity is presented on smartphones in realtime with convolutional neural networks. Reduced computing time is a problem from previous studies. Despite the use of machine learning approaches, there are still many shortcomings from previous research. A log-mel energy spectrogram narrates the sound signal image. Then the sound signal image is inputted into CNN's deep learning to classify the human voice and noise. HiVAD outperformed the percentage of other VAD methods, namely G729B, Sohn, and RF from the test results shown with an average SHR accuracy of 15.89%, 28.98%, 42.13% at 0dB, 8.67%, 16.29% ,17.63% at 5 dB, and 1.35%, 7.72%, 5.14% at 10 dB. In addition, the Multi-threading mechanism enables efficient computing for real-time. This study shows that CNN's architecture on HiVAD significantly improves the accuracy of sound activity detection.
Keywords: VAD App, voice detection, deep learning, CNN |
---|---|
ISSN: | 2338-8323 2459-9638 |