A Comprehensive Review of Clasifier used with Imbalanced Data in Machine Learning

Dengan majunya perkembangan teknologi beberapa tahun terakhir, menghadirkan banyak konten digital. Hal ini juga menghadirkan kesempatan dalam bidang penelitian seperti halnya Machine Learning. Salah satu metode dalam Machine Learning adalah klasifikasi. Klasifikasi bertujuan untuk mengelompokkan dat...

Full description

Bibliographic Details
Main Authors: Muammar Reza Pahlawan, Arief Setyanto, M. Rudyanto Arief
Format: Article
Language:Indonesian
Published: LP3M Universitas Nurul Jadid 2024-04-01
Series:Journal of Electrical Engineering and Computer
Subjects:
Online Access:https://ejournal.unuja.ac.id/index.php/jeecom/article/view/8510
Description
Summary:Dengan majunya perkembangan teknologi beberapa tahun terakhir, menghadirkan banyak konten digital. Hal ini juga menghadirkan kesempatan dalam bidang penelitian seperti halnya Machine Learning. Salah satu metode dalam Machine Learning adalah klasifikasi. Klasifikasi bertujuan untuk mengelompokkan data sesuai dengan kelasnya. Akan tetapi faktor seperti data imbalance dapat menyebabkan hasil dari metode ini menjadi kurang sesuai dengan yang diharapkan. Penelitian ini menyajikan tinjauan komprehensif tentang metode klasifikasi dalam pengolahan teks, dengan fokus pada penanganan tantangan yang ditimbulkan oleh data yang tidak seimbang. Dengan pertumbuhan eksponensial konten digital, kebutuhan untuk mengkategorikan dan menganalisis data teks secara efektif telah menjadi semakin kritis. Metode klasifikasi memainkan peran penting dalam upaya ini, memfasilitasi tugas seperti analisis sentimen, klasifikasi dokumen, dan pengambilan informasi. Namun, keberadaan data imbalance, ditandai oleh distribusi kelas yang condong, menimbulkan hambatan signifikan terhadap keandalan dan efektivitas model klasifikasi. Dengan penelitian ini diharapkan pembaca, dapat mengetahui metode apa saja yang umumnya digunakan dalam metode klasifikasi. Kemampuan metode klasifikasi tersebut pada umumnya ketika dihadapkan pada kasus tertentu seperti data imbalance. Tinjauan ini menyoroti Support Vector Machine (SVM) sebagai metode klasifikasi paling menonjol sebesar 25%, diikuti oleh K-Nearest Neighbours (KNN) dan Random Forest dengan persentase 19%, Decision Tree, dan Naïve Bayes. Metode alternatif yang disesuaikan dengan tujuan penelitian dan tantangan tertentu juga dieksplorasi. Hasil persentase penggunaan metode tersebut didapat dari kumpulan jurnal yang peneliti kumpulkan dan teliti
ISSN:2715-0410
2715-6427