Penerapan SMOTE untuk Mengatasi Imbalance Class dalam Klasifikasi Kepribadian MBTI Menggunakan Naive Bayes Classifier

Kepribadian Myers-Briggs Type Indicator ( MBTI ) telah menjadi topik populer dalam memahami karakteristik individu dan dampaknya pada interaksi sosial, karir, dan pengambilan keputusan. Model Machine Learning dengan algoritma Naive Bayes Classifier sering digunakan untuk memprediksi kepribadian MBT...

Full description

Bibliographic Details
Main Authors: Mutiara Persada Pulungan, Andi Purnomo, Aliyah Kurniasih
Format: Article
Language:Indonesian
Published: University of Brawijaya 2023-12-01
Series:Jurnal Teknologi Informasi dan Ilmu Komputer
Subjects:
Online Access:https://jtiik.ub.ac.id/index.php/jtiik/article/view/7989
_version_ 1797194658691940352
author Mutiara Persada Pulungan
Andi Purnomo
Aliyah Kurniasih
author_facet Mutiara Persada Pulungan
Andi Purnomo
Aliyah Kurniasih
author_sort Mutiara Persada Pulungan
collection DOAJ
description Kepribadian Myers-Briggs Type Indicator ( MBTI ) telah menjadi topik populer dalam memahami karakteristik individu dan dampaknya pada interaksi sosial, karir, dan pengambilan keputusan. Model Machine Learning dengan algoritma Naive Bayes Classifier sering digunakan untuk memprediksi kepribadian MBTI berdasarkan data Twitter. Namun, seringkali terjadi ketidakseimbangan kelas, dengan beberapa jenis kepribadian yang memiliki sampel lebih sedikit. Untuk mengatasi hal ini, penelitian ini menggunakan teknik Synthetic Minority Over-sampling Technique (SMOTE) untuk meningkatkan jumlah sampel pada kelas minoritas. Selain itu, metode Term Frequency-Inverse Document Frequency (TF-IDF) digunakan untuk mengekstraksi fitur penting dari teks. Penelitian ini bertujuan menerapkan teknik SMOTE untuk mengatasi ketidakseimbangan kelas dalam klasifikasi kepribadian MBTI menggunakan beberapa algoritma Naive Bayes Classifier, termasuk Gaussian, Multinomial, Bernoulli, Complement, dan Logistic Regression berdasarkan model Keirsey: Artisan, Guardian, Rational, dan Idealist. Evaluasi menggunakan metode Hold-Out-Validation dengan membagi data menjadi 90% data latih dan 10% data uji. Hasil evaluasi menunjukkan performa rendah algoritma Naive Bayes Classifier untuk kelas Artisan dan Guardian, tetapi baik untuk kelas Rational dan Idealist. Algoritma Logistic Regression memiliki akurasi tertinggi 80% dan performa yang lebih baik secara keseluruhan, meskipun masih rendah untuk kelas Artisan dan Guardian. Dengan demikian, penelitian ini memberikan pemahaman tentang penggunaan algoritma Naive Bayes Classifier dan teknik SMOTE dalam prediksi kepribadian MBTI, dengan potensi peningkatan kinerja melalui penggunaan algoritma Logistic Regression.   Abstract   Myers-Briggs Type Indicator (MBTI) personality is becoming a popular topic in understanding individual characteristics and their impact on social interaction, career, and decision-making. Machine Learning models with Naive Bayes Classifier algorithms are often used to predict MBTI personalities from Twitter data. However, there is often a class imbalance, with some personality types having a smaller sample. To overcome this, this study used the Synthetic Minority Over-sampling Technique (SMOTE) technique to increase the number of samples in minority classes. Additionally, the Term Frequency-Inverse Document Frequency (TF-IDF) method is used to extract important features from text. This study aims to apply SMOTE techniques to address class imbalances in MBTI personality classification using several Naïve Bayes Classifier algorithms, including Gaussian, Multinomial, Bernoulli, Complement, and Logistic Regression based on Keirsey's model: Artisan, Guardian, Rational, and Idealist. Evaluation using the Hold-Out-Validation method by dividing the data into 90% training data and 10% test data. The evaluation results showed low performance of the Naive Bayes Classifier algorithm for the Artisan and Guardian classes, but both for the Rational and Idealist classes. The Logistic Regression algorithm has the highest accuracy of 79% and better performance overall, although it is still low for the Artisan and Guardian classes. Thus, this study provides insight into the use of Naive Bayes Classifier algorithm and SMOTE technique in MBTI personality prediction, with potential performance improvement through the use of Logistic Regression algorithm.
first_indexed 2024-04-24T05:59:47Z
format Article
id doaj.art-51c950ac7a534b3780825d97a2e35316
institution Directory Open Access Journal
issn 2355-7699
2528-6579
language Indonesian
last_indexed 2024-04-24T05:59:47Z
publishDate 2023-12-01
publisher University of Brawijaya
record_format Article
series Jurnal Teknologi Informasi dan Ilmu Komputer
spelling doaj.art-51c950ac7a534b3780825d97a2e353162024-04-23T08:44:11ZindUniversity of BrawijayaJurnal Teknologi Informasi dan Ilmu Komputer2355-76992528-65792023-12-0110710.25126/jtiik.1077989Penerapan SMOTE untuk Mengatasi Imbalance Class dalam Klasifikasi Kepribadian MBTI Menggunakan Naive Bayes ClassifierMutiara Persada Pulungan0Andi Purnomo1Aliyah Kurniasih2Sekolah Tinggi Ilmu Manajemen dan Ilmu Komputer ESQ, JakartaSekolah Tinggi Ilmu Manajemen dan Ilmu Komputer ESQ, JakartaSekolah Tinggi Ilmu Manajemen dan Ilmu Komputer ESQ, Jakarta Kepribadian Myers-Briggs Type Indicator ( MBTI ) telah menjadi topik populer dalam memahami karakteristik individu dan dampaknya pada interaksi sosial, karir, dan pengambilan keputusan. Model Machine Learning dengan algoritma Naive Bayes Classifier sering digunakan untuk memprediksi kepribadian MBTI berdasarkan data Twitter. Namun, seringkali terjadi ketidakseimbangan kelas, dengan beberapa jenis kepribadian yang memiliki sampel lebih sedikit. Untuk mengatasi hal ini, penelitian ini menggunakan teknik Synthetic Minority Over-sampling Technique (SMOTE) untuk meningkatkan jumlah sampel pada kelas minoritas. Selain itu, metode Term Frequency-Inverse Document Frequency (TF-IDF) digunakan untuk mengekstraksi fitur penting dari teks. Penelitian ini bertujuan menerapkan teknik SMOTE untuk mengatasi ketidakseimbangan kelas dalam klasifikasi kepribadian MBTI menggunakan beberapa algoritma Naive Bayes Classifier, termasuk Gaussian, Multinomial, Bernoulli, Complement, dan Logistic Regression berdasarkan model Keirsey: Artisan, Guardian, Rational, dan Idealist. Evaluasi menggunakan metode Hold-Out-Validation dengan membagi data menjadi 90% data latih dan 10% data uji. Hasil evaluasi menunjukkan performa rendah algoritma Naive Bayes Classifier untuk kelas Artisan dan Guardian, tetapi baik untuk kelas Rational dan Idealist. Algoritma Logistic Regression memiliki akurasi tertinggi 80% dan performa yang lebih baik secara keseluruhan, meskipun masih rendah untuk kelas Artisan dan Guardian. Dengan demikian, penelitian ini memberikan pemahaman tentang penggunaan algoritma Naive Bayes Classifier dan teknik SMOTE dalam prediksi kepribadian MBTI, dengan potensi peningkatan kinerja melalui penggunaan algoritma Logistic Regression.   Abstract   Myers-Briggs Type Indicator (MBTI) personality is becoming a popular topic in understanding individual characteristics and their impact on social interaction, career, and decision-making. Machine Learning models with Naive Bayes Classifier algorithms are often used to predict MBTI personalities from Twitter data. However, there is often a class imbalance, with some personality types having a smaller sample. To overcome this, this study used the Synthetic Minority Over-sampling Technique (SMOTE) technique to increase the number of samples in minority classes. Additionally, the Term Frequency-Inverse Document Frequency (TF-IDF) method is used to extract important features from text. This study aims to apply SMOTE techniques to address class imbalances in MBTI personality classification using several Naïve Bayes Classifier algorithms, including Gaussian, Multinomial, Bernoulli, Complement, and Logistic Regression based on Keirsey's model: Artisan, Guardian, Rational, and Idealist. Evaluation using the Hold-Out-Validation method by dividing the data into 90% training data and 10% test data. The evaluation results showed low performance of the Naive Bayes Classifier algorithm for the Artisan and Guardian classes, but both for the Rational and Idealist classes. The Logistic Regression algorithm has the highest accuracy of 79% and better performance overall, although it is still low for the Artisan and Guardian classes. Thus, this study provides insight into the use of Naive Bayes Classifier algorithm and SMOTE technique in MBTI personality prediction, with potential performance improvement through the use of Logistic Regression algorithm. https://jtiik.ub.ac.id/index.php/jtiik/article/view/7989Myers-Briggs Type Indicator(MBTI)Imbalance Class, Synthetic Minority Over-sampling Technique (SMOTE)Term Frequency-Inverse Document Frequency (TF-IDF)Naive Bayes Classifier
spellingShingle Mutiara Persada Pulungan
Andi Purnomo
Aliyah Kurniasih
Penerapan SMOTE untuk Mengatasi Imbalance Class dalam Klasifikasi Kepribadian MBTI Menggunakan Naive Bayes Classifier
Jurnal Teknologi Informasi dan Ilmu Komputer
Myers-Briggs Type Indicator(MBTI)
Imbalance Class, Synthetic Minority Over-sampling Technique (SMOTE)
Term Frequency-Inverse Document Frequency (TF-IDF)
Naive Bayes Classifier
title Penerapan SMOTE untuk Mengatasi Imbalance Class dalam Klasifikasi Kepribadian MBTI Menggunakan Naive Bayes Classifier
title_full Penerapan SMOTE untuk Mengatasi Imbalance Class dalam Klasifikasi Kepribadian MBTI Menggunakan Naive Bayes Classifier
title_fullStr Penerapan SMOTE untuk Mengatasi Imbalance Class dalam Klasifikasi Kepribadian MBTI Menggunakan Naive Bayes Classifier
title_full_unstemmed Penerapan SMOTE untuk Mengatasi Imbalance Class dalam Klasifikasi Kepribadian MBTI Menggunakan Naive Bayes Classifier
title_short Penerapan SMOTE untuk Mengatasi Imbalance Class dalam Klasifikasi Kepribadian MBTI Menggunakan Naive Bayes Classifier
title_sort penerapan smote untuk mengatasi imbalance class dalam klasifikasi kepribadian mbti menggunakan naive bayes classifier
topic Myers-Briggs Type Indicator(MBTI)
Imbalance Class, Synthetic Minority Over-sampling Technique (SMOTE)
Term Frequency-Inverse Document Frequency (TF-IDF)
Naive Bayes Classifier
url https://jtiik.ub.ac.id/index.php/jtiik/article/view/7989
work_keys_str_mv AT mutiarapersadapulungan penerapansmoteuntukmengatasiimbalanceclassdalamklasifikasikepribadianmbtimenggunakannaivebayesclassifier
AT andipurnomo penerapansmoteuntukmengatasiimbalanceclassdalamklasifikasikepribadianmbtimenggunakannaivebayesclassifier
AT aliyahkurniasih penerapansmoteuntukmengatasiimbalanceclassdalamklasifikasikepribadianmbtimenggunakannaivebayesclassifier