Pemodelan CNN Untuk Deteksi Emosi Berbasis Speech Bahasa Indonesia

Perkembangan teknologi menunjukkan semakin banyak kebutuhan perangkat yang mampu menjalankan interaksi antara manusia dengan computer secara cerdas. Satu contohnya adalah sistem pengenalan emosi dengan computer. Di dalamnya diperlukan kemampuan untuk melakukan pengenalan, penafsiran, dan memberikan...

Full description

Bibliographic Details
Main Authors: Yulistia Khoirotul Aini, Tri Budi Santoso, Titon Dutono
Format: Article
Language:Indonesian
Published: Politeknik Caltex Riau 2021-06-01
Series:Jurnal Komputer Terapan
Subjects:
Online Access:https://jurnal.pcr.ac.id/index.php/jkt/article/view/4623
_version_ 1797462800062218240
author Yulistia Khoirotul Aini
Tri Budi Santoso
Titon Dutono
author_facet Yulistia Khoirotul Aini
Tri Budi Santoso
Titon Dutono
author_sort Yulistia Khoirotul Aini
collection DOAJ
description Perkembangan teknologi menunjukkan semakin banyak kebutuhan perangkat yang mampu menjalankan interaksi antara manusia dengan computer secara cerdas. Satu contohnya adalah sistem pengenalan emosi dengan computer. Di dalamnya diperlukan kemampuan untuk melakukan pengenalan, penafsiran, dan memberikan respons emosi yang diekspresikan dalam ucapan. Tetapi sampai saat ini penelilitan speech emotion recognition (SER) yang berbasis bahasa Indonesia masih sangat sedikit. Hal ini disebabkan keterbatasan korpus data berbahasa Indonesia untuk SER. Pada penelitian ini dibuat sistem SER dengan mengambil dataset dari TV series berbahasa Indonesia. Sistem dirancang dengan kemampuan untuk  melakukan proses klasifikasi emosi, yaitu empat kelas label emosi  marah, senang, netral dan sedih. Untuk implementasinya digunakan metode deep learning, yang dalam hal ini dipilih metode CNN. Pada sistem ini input berupa kombinasi dari tiga fitur, yaitu MFCC, frekuensi fundamental, dan RMSE. Dari eksperimen yang telah dijalankan telah diperoleh hasil terbaik untuk sistem SER berbahasa Indonesia dengan menggunakan input MFCC + frekuensi fundamental, yang menunjukkan tingkat akurasi sebesar 85%. Sedangkan ketika hanya menggunakan input MFCC memiliki tingkat akurasi sampai 83%. Sementara itu ketika dipaksakan dengan kombinasi ketiga input MFCC+ F0+ RMSE mengalami penurunan kinerja dan hanya mencapai akurasi 78% ,dan akurasi terendah menggunakan fitur MFCC + RMSE yaitu 72%. Dari study awal ini diharapkan mampu memberikan gambaran bagi para peneliti di bidang SER, tentang  bagaimana memilih fitur sinyal wicara sebagai input di dalam pengujian dan mempermudah untuk langkah pengembangan penelitiannya.
first_indexed 2024-03-09T17:42:34Z
format Article
id doaj.art-5ef8729e39174f918f1d4bcf20132326
institution Directory Open Access Journal
issn 2443-4159
2460-5255
language Indonesian
last_indexed 2024-03-09T17:42:34Z
publishDate 2021-06-01
publisher Politeknik Caltex Riau
record_format Article
series Jurnal Komputer Terapan
spelling doaj.art-5ef8729e39174f918f1d4bcf201323262023-11-24T11:29:03ZindPoliteknik Caltex RiauJurnal Komputer Terapan2443-41592460-52552021-06-017110.35143/jkt.v7i1.46234271Pemodelan CNN Untuk Deteksi Emosi Berbasis Speech Bahasa IndonesiaYulistia Khoirotul Aini0Tri Budi Santoso1Titon Dutono2Politeknik Elektronika Negeri SurabayaPoliteknik Elektronika Negeri SurabayaPoliteknik Elektronika Negeri Surabaya Perkembangan teknologi menunjukkan semakin banyak kebutuhan perangkat yang mampu menjalankan interaksi antara manusia dengan computer secara cerdas. Satu contohnya adalah sistem pengenalan emosi dengan computer. Di dalamnya diperlukan kemampuan untuk melakukan pengenalan, penafsiran, dan memberikan respons emosi yang diekspresikan dalam ucapan. Tetapi sampai saat ini penelilitan speech emotion recognition (SER) yang berbasis bahasa Indonesia masih sangat sedikit. Hal ini disebabkan keterbatasan korpus data berbahasa Indonesia untuk SER. Pada penelitian ini dibuat sistem SER dengan mengambil dataset dari TV series berbahasa Indonesia. Sistem dirancang dengan kemampuan untuk  melakukan proses klasifikasi emosi, yaitu empat kelas label emosi  marah, senang, netral dan sedih. Untuk implementasinya digunakan metode deep learning, yang dalam hal ini dipilih metode CNN. Pada sistem ini input berupa kombinasi dari tiga fitur, yaitu MFCC, frekuensi fundamental, dan RMSE. Dari eksperimen yang telah dijalankan telah diperoleh hasil terbaik untuk sistem SER berbahasa Indonesia dengan menggunakan input MFCC + frekuensi fundamental, yang menunjukkan tingkat akurasi sebesar 85%. Sedangkan ketika hanya menggunakan input MFCC memiliki tingkat akurasi sampai 83%. Sementara itu ketika dipaksakan dengan kombinasi ketiga input MFCC+ F0+ RMSE mengalami penurunan kinerja dan hanya mencapai akurasi 78% ,dan akurasi terendah menggunakan fitur MFCC + RMSE yaitu 72%. Dari study awal ini diharapkan mampu memberikan gambaran bagi para peneliti di bidang SER, tentang  bagaimana memilih fitur sinyal wicara sebagai input di dalam pengujian dan mempermudah untuk langkah pengembangan penelitiannya. https://jurnal.pcr.ac.id/index.php/jkt/article/view/4623Speech Emotion Recognition (SER), CNN, deep learning
spellingShingle Yulistia Khoirotul Aini
Tri Budi Santoso
Titon Dutono
Pemodelan CNN Untuk Deteksi Emosi Berbasis Speech Bahasa Indonesia
Jurnal Komputer Terapan
Speech Emotion Recognition (SER), CNN, deep learning
title Pemodelan CNN Untuk Deteksi Emosi Berbasis Speech Bahasa Indonesia
title_full Pemodelan CNN Untuk Deteksi Emosi Berbasis Speech Bahasa Indonesia
title_fullStr Pemodelan CNN Untuk Deteksi Emosi Berbasis Speech Bahasa Indonesia
title_full_unstemmed Pemodelan CNN Untuk Deteksi Emosi Berbasis Speech Bahasa Indonesia
title_short Pemodelan CNN Untuk Deteksi Emosi Berbasis Speech Bahasa Indonesia
title_sort pemodelan cnn untuk deteksi emosi berbasis speech bahasa indonesia
topic Speech Emotion Recognition (SER), CNN, deep learning
url https://jurnal.pcr.ac.id/index.php/jkt/article/view/4623
work_keys_str_mv AT yulistiakhoirotulaini pemodelancnnuntukdeteksiemosiberbasisspeechbahasaindonesia
AT tribudisantoso pemodelancnnuntukdeteksiemosiberbasisspeechbahasaindonesia
AT titondutono pemodelancnnuntukdeteksiemosiberbasisspeechbahasaindonesia