HiVAD : A Voice Activity Detection Application Based on Deep Learning

ABSTRAK Dalam tulisan ini, deteksi aktivitas suara disajikan pada smartphone secara realtime dengan jaringan saraf konvolusional. Pengurangan waktu komputasi adalah masalah dari studi sebelumnya. Meskipun telah menggunakan pendekatan machine learning, masih banyak kekurangan dari penelitian sebelum...

Full description

Bibliographic Details
Main Authors: MUHAMMAD HILMI FARIDH, ULIL SURTIA ZULPRATITA
Format: Article
Language:Indonesian
Published: Teknik Elektro Institut Teknologi Nasional Bandung 2021-10-01
Series:Jurnal Elkomika
Subjects:
Online Access:https://ejurnal.itenas.ac.id/index.php/elkomika/article/view/4950
Description
Summary:ABSTRAK Dalam tulisan ini, deteksi aktivitas suara disajikan pada smartphone secara realtime dengan jaringan saraf konvolusional. Pengurangan waktu komputasi adalah masalah dari studi sebelumnya. Meskipun telah menggunakan pendekatan machine learning, masih banyak kekurangan dari penelitian sebelumnya. Citra sinyal suara dihasikan oleh spektrogram energi log-mel, kemudian citra sinyal suara diinputkan ke dalam deep learning CNN untuk mengklasifikasi suara manusia dan derau. HiVAD mengungguli persentase metode VAD lainnya yaitu G729B, Sohn, dan RF dari hasil tes yang ditunjukkan dengan akurasi rata-rata SHR sebesar 15,89%, 28,98%, 42,13% pada tingkat 0dB, 8,67%, 16,29%, 17,63% pada tingkat 5 dB, dan 1,35%, 7,72%, 5,14% pada tingkat 10 dB. Selain itu, mekanisme Multi-threading memungkinkan komputasi yang efisien untuk waktu secara realtime. Penelitian ini menunjukkan bahwa arsitektur CNN pada HiVAD secara signifikan meningkatkan akurasi deteksi aktivitas suara. Kata kunci: aplikasi VAD, voice detection, deep learning, CNN   ABSTRACT In this paper, the detection of sound activity is presented on smartphones in realtime with convolutional neural networks. Reduced computing time is a problem from previous studies. Despite the use of machine learning approaches, there are still many shortcomings from previous research. A log-mel energy spectrogram narrates the sound signal image. Then the sound signal image is inputted into CNN's deep learning to classify the human voice and noise. HiVAD outperformed the percentage of other VAD methods, namely G729B, Sohn, and RF from the test results shown with an average SHR accuracy of 15.89%, 28.98%, 42.13% at 0dB, 8.67%, 16.29% ,17.63% at 5 dB, and 1.35%, 7.72%, 5.14% at 10 dB. In addition, the Multi-threading mechanism enables efficient computing for real-time. This study shows that CNN's architecture on HiVAD significantly improves the accuracy of sound activity detection. Keywords: VAD App, voice detection, deep learning, CNN
ISSN:2338-8323
2459-9638