Penerapan SMOTE untuk Mengatasi Imbalance Class dalam Klasifikasi Kepribadian MBTI Menggunakan Naive Bayes Classifier

Kepribadian Myers-Briggs Type Indicator ( MBTI ) telah menjadi topik populer dalam memahami karakteristik individu dan dampaknya pada interaksi sosial, karir, dan pengambilan keputusan. Model Machine Learning dengan algoritma Naive Bayes Classifier sering digunakan untuk memprediksi kepribadian MBT...

Full description

Bibliographic Details
Main Authors: Mutiara Persada Pulungan, Andi Purnomo, Aliyah Kurniasih
Format: Article
Language:Indonesian
Published: University of Brawijaya 2023-12-01
Series:Jurnal Teknologi Informasi dan Ilmu Komputer
Subjects:
Online Access:https://jtiik.ub.ac.id/index.php/jtiik/article/view/7989
Description
Summary:Kepribadian Myers-Briggs Type Indicator ( MBTI ) telah menjadi topik populer dalam memahami karakteristik individu dan dampaknya pada interaksi sosial, karir, dan pengambilan keputusan. Model Machine Learning dengan algoritma Naive Bayes Classifier sering digunakan untuk memprediksi kepribadian MBTI berdasarkan data Twitter. Namun, seringkali terjadi ketidakseimbangan kelas, dengan beberapa jenis kepribadian yang memiliki sampel lebih sedikit. Untuk mengatasi hal ini, penelitian ini menggunakan teknik Synthetic Minority Over-sampling Technique (SMOTE) untuk meningkatkan jumlah sampel pada kelas minoritas. Selain itu, metode Term Frequency-Inverse Document Frequency (TF-IDF) digunakan untuk mengekstraksi fitur penting dari teks. Penelitian ini bertujuan menerapkan teknik SMOTE untuk mengatasi ketidakseimbangan kelas dalam klasifikasi kepribadian MBTI menggunakan beberapa algoritma Naive Bayes Classifier, termasuk Gaussian, Multinomial, Bernoulli, Complement, dan Logistic Regression berdasarkan model Keirsey: Artisan, Guardian, Rational, dan Idealist. Evaluasi menggunakan metode Hold-Out-Validation dengan membagi data menjadi 90% data latih dan 10% data uji. Hasil evaluasi menunjukkan performa rendah algoritma Naive Bayes Classifier untuk kelas Artisan dan Guardian, tetapi baik untuk kelas Rational dan Idealist. Algoritma Logistic Regression memiliki akurasi tertinggi 80% dan performa yang lebih baik secara keseluruhan, meskipun masih rendah untuk kelas Artisan dan Guardian. Dengan demikian, penelitian ini memberikan pemahaman tentang penggunaan algoritma Naive Bayes Classifier dan teknik SMOTE dalam prediksi kepribadian MBTI, dengan potensi peningkatan kinerja melalui penggunaan algoritma Logistic Regression.   Abstract   Myers-Briggs Type Indicator (MBTI) personality is becoming a popular topic in understanding individual characteristics and their impact on social interaction, career, and decision-making. Machine Learning models with Naive Bayes Classifier algorithms are often used to predict MBTI personalities from Twitter data. However, there is often a class imbalance, with some personality types having a smaller sample. To overcome this, this study used the Synthetic Minority Over-sampling Technique (SMOTE) technique to increase the number of samples in minority classes. Additionally, the Term Frequency-Inverse Document Frequency (TF-IDF) method is used to extract important features from text. This study aims to apply SMOTE techniques to address class imbalances in MBTI personality classification using several Naïve Bayes Classifier algorithms, including Gaussian, Multinomial, Bernoulli, Complement, and Logistic Regression based on Keirsey's model: Artisan, Guardian, Rational, and Idealist. Evaluation using the Hold-Out-Validation method by dividing the data into 90% training data and 10% test data. The evaluation results showed low performance of the Naive Bayes Classifier algorithm for the Artisan and Guardian classes, but both for the Rational and Idealist classes. The Logistic Regression algorithm has the highest accuracy of 79% and better performance overall, although it is still low for the Artisan and Guardian classes. Thus, this study provides insight into the use of Naive Bayes Classifier algorithm and SMOTE technique in MBTI personality prediction, with potential performance improvement through the use of Logistic Regression algorithm.
ISSN:2355-7699
2528-6579