Algoritme decision tree untuk mendeteksi ujaran kebencian dan bahasa kasar multilabel pada Twitter berbahasa Indonesia

Ujaran kebencian dan bahasa kasar mudah ditemukan di dalam komunikasi tertulis di media sosial seperti Twitter, yang dapat memicu terjadinya persengketaan di antara korban dan pengujarnya. Bagaimanapun, akan sulit memeriksa apakah suatu twit mengandung ujaran kebencian dan/atau bahasa kasar bila ses...

Full description

Bibliographic Details
Main Authors: Fauzi Ihsan, Iwan Iskandar, Nazruddin Safaat Harahap, Surya Agustian
Format: Article
Language:English
Published: Diponegoro University 2021-10-01
Series:Jurnal Teknologi dan Sistem Komputer
Subjects:
Online Access:https://jtsiskom.undip.ac.id/article/view/13907
_version_ 1827333427098025984
author Fauzi Ihsan
Iwan Iskandar
Nazruddin Safaat Harahap
Surya Agustian
author_facet Fauzi Ihsan
Iwan Iskandar
Nazruddin Safaat Harahap
Surya Agustian
author_sort Fauzi Ihsan
collection DOAJ
description Ujaran kebencian dan bahasa kasar mudah ditemukan di dalam komunikasi tertulis di media sosial seperti Twitter, yang dapat memicu terjadinya persengketaan di antara korban dan pengujarnya. Bagaimanapun, akan sulit memeriksa apakah suatu twit mengandung ujaran kebencian dan/atau bahasa kasar bila seseorang berpihak. Penelitian ini bertujuan untuk membangun sistem untuk mengklasifikasi twit apakah mengandung ujaran kebencian dan kata-kata kasar. Apabila terdeteksi mengandung ujaran kebencian, maka level ujaran kebenciannya diukur. Dataset yang digunakan terdiri dari 13.126 twit asli dari Twitter. Word embedding digunakan untuk fitur dari teks. Algoritme Decision Tree digunakan untuk klasifikasi. Rekayasa fitur dan pengaturan parameter menunjukkan peningkatan performa deteksi. Fitur leksikon di klasifikasi Decision Tree menghasilkan akurasi tertinggi untuk deteksi ketiga kelas, yaitu kelas ujaran kebencian, kata-kata kasar dan level ujaran kebencian, daripada rekayasa fitur khusus dan fitur tekstual. Rata-rata akurasi dari ketiga kelas meningkat dari 69,77 % menjadi 70,48 % untuk komposisi data latih-uji 90:10, dan dari 69,35 % menjadi 69,54 % untuk komposisi 80:20.
first_indexed 2024-03-07T17:23:00Z
format Article
id doaj.art-58a97ce7f40a4dd4acaf42e6135dfc52
institution Directory Open Access Journal
issn 2338-0403
language English
last_indexed 2024-03-07T17:23:00Z
publishDate 2021-10-01
publisher Diponegoro University
record_format Article
series Jurnal Teknologi dan Sistem Komputer
spelling doaj.art-58a97ce7f40a4dd4acaf42e6135dfc522024-03-02T19:33:11ZengDiponegoro UniversityJurnal Teknologi dan Sistem Komputer2338-04032021-10-019419920410.14710/jtsiskom.2021.1390712875Algoritme decision tree untuk mendeteksi ujaran kebencian dan bahasa kasar multilabel pada Twitter berbahasa IndonesiaFauzi Ihsan0Iwan Iskandar1Nazruddin Safaat Harahap2Surya Agustian3Department of Informatics, UIN Sultan Syarif Kasim Riau. Jl. H.R. Soebrantas km 11.5 Simpang Baru Panam, Pekanbaru, Riau 28293, IndonesiaDepartment of Informatics, UIN Sultan Syarif Kasim Riau. Jl. H.R. Soebrantas km 11.5 Simpang Baru Panam, Pekanbaru, Riau 28293, IndonesiaDepartment of Informatics, UIN Sultan Syarif Kasim Riau. Jl. H.R. Soebrantas km 11.5 Simpang Baru Panam, Pekanbaru, Riau 28293, IndonesiaDepartment of Informatics, UIN Sultan Syarif Kasim Riau. Jl. H.R. Soebrantas km 11.5 Simpang Baru Panam, Pekanbaru, Riau 28293, IndonesiaUjaran kebencian dan bahasa kasar mudah ditemukan di dalam komunikasi tertulis di media sosial seperti Twitter, yang dapat memicu terjadinya persengketaan di antara korban dan pengujarnya. Bagaimanapun, akan sulit memeriksa apakah suatu twit mengandung ujaran kebencian dan/atau bahasa kasar bila seseorang berpihak. Penelitian ini bertujuan untuk membangun sistem untuk mengklasifikasi twit apakah mengandung ujaran kebencian dan kata-kata kasar. Apabila terdeteksi mengandung ujaran kebencian, maka level ujaran kebenciannya diukur. Dataset yang digunakan terdiri dari 13.126 twit asli dari Twitter. Word embedding digunakan untuk fitur dari teks. Algoritme Decision Tree digunakan untuk klasifikasi. Rekayasa fitur dan pengaturan parameter menunjukkan peningkatan performa deteksi. Fitur leksikon di klasifikasi Decision Tree menghasilkan akurasi tertinggi untuk deteksi ketiga kelas, yaitu kelas ujaran kebencian, kata-kata kasar dan level ujaran kebencian, daripada rekayasa fitur khusus dan fitur tekstual. Rata-rata akurasi dari ketiga kelas meningkat dari 69,77 % menjadi 70,48 % untuk komposisi data latih-uji 90:10, dan dari 69,35 % menjadi 69,54 % untuk komposisi 80:20.https://jtsiskom.undip.ac.id/article/view/13907ujaran kebencianbahasa kasardecision treetwitterword embeddings
spellingShingle Fauzi Ihsan
Iwan Iskandar
Nazruddin Safaat Harahap
Surya Agustian
Algoritme decision tree untuk mendeteksi ujaran kebencian dan bahasa kasar multilabel pada Twitter berbahasa Indonesia
Jurnal Teknologi dan Sistem Komputer
ujaran kebencian
bahasa kasar
decision tree
twitter
word embeddings
title Algoritme decision tree untuk mendeteksi ujaran kebencian dan bahasa kasar multilabel pada Twitter berbahasa Indonesia
title_full Algoritme decision tree untuk mendeteksi ujaran kebencian dan bahasa kasar multilabel pada Twitter berbahasa Indonesia
title_fullStr Algoritme decision tree untuk mendeteksi ujaran kebencian dan bahasa kasar multilabel pada Twitter berbahasa Indonesia
title_full_unstemmed Algoritme decision tree untuk mendeteksi ujaran kebencian dan bahasa kasar multilabel pada Twitter berbahasa Indonesia
title_short Algoritme decision tree untuk mendeteksi ujaran kebencian dan bahasa kasar multilabel pada Twitter berbahasa Indonesia
title_sort algoritme decision tree untuk mendeteksi ujaran kebencian dan bahasa kasar multilabel pada twitter berbahasa indonesia
topic ujaran kebencian
bahasa kasar
decision tree
twitter
word embeddings
url https://jtsiskom.undip.ac.id/article/view/13907
work_keys_str_mv AT fauziihsan algoritmedecisiontreeuntukmendeteksiujarankebenciandanbahasakasarmultilabelpadatwitterberbahasaindonesia
AT iwaniskandar algoritmedecisiontreeuntukmendeteksiujarankebenciandanbahasakasarmultilabelpadatwitterberbahasaindonesia
AT nazruddinsafaatharahap algoritmedecisiontreeuntukmendeteksiujarankebenciandanbahasakasarmultilabelpadatwitterberbahasaindonesia
AT suryaagustian algoritmedecisiontreeuntukmendeteksiujarankebenciandanbahasakasarmultilabelpadatwitterberbahasaindonesia