Perbandingan Algoritma Support Vector Machine dan K-Nearest Neighbor untuk Memprediksi Struktur Sekunder Protein

Pendekatan biologi komputasi telah maju secara eksponensial dalam prediksi struktur sekunder protein yang sangat penting untuk industri farmasi. Ekstraksi fitur protein di dalam laboratorium memiliki informasi yang cukup untuk prediksi struktur sekunder protein yang digunakan dalam studi bioinformat...

Full description

Bibliographic Details
Main Authors: Anggi Tasari, Dewan Dinata Tarigan, Erika Nia Devina Br Purba, Kana Saputra S
Format: Article
Language:Indonesian
Published: Universitas Bina Sarana Informatika, LPPM 2022-10-01
Series:Jurnal Informatika
Subjects:
Online Access:https://ejournal.bsi.ac.id/ejurnal/index.php/ji/article/view/13100
_version_ 1828055142967017472
author Anggi Tasari
Dewan Dinata Tarigan
Erika Nia Devina Br Purba
Kana Saputra S
author_facet Anggi Tasari
Dewan Dinata Tarigan
Erika Nia Devina Br Purba
Kana Saputra S
author_sort Anggi Tasari
collection DOAJ
description Pendekatan biologi komputasi telah maju secara eksponensial dalam prediksi struktur sekunder protein yang sangat penting untuk industri farmasi. Ekstraksi fitur protein di dalam laboratorium memiliki informasi yang cukup untuk prediksi struktur sekunder protein yang digunakan dalam studi bioinformatika. Memprediksi struktur sekunder protein merupakan suatu permasalahan yang terdapat dalam bidang Bioinformatika. Terdapat beberapa metode yang telah diterapkan dengan tingkat akurasi yang dihasilkan berbeda-beda. Penelitian ini bertujuan untuk membandingkan model prediksi Support Vector Machine dengan K-Nearest Neighbor dalam memprediksi struktur sekunder protein. Dalam penelitian ini, model Support Vector Machine dan K-Nearest Neighbor disajikan dalam dataset RS126 yang terdiri dari 126 data protein dan memiliki panjang urutan protein rata-rata 185 sekuens Data RS126 juga terdiri atas 32% alpha helix, 21% beta, dan 47% coil. Masing-masing model prediksi pada penelitian ini diberikan nilai lebar sliding window sebesar 15. Nilai K = 5, K=10, dan K= 15 untuk model prediksi KNN serta Nilai C = 1, Gamma = 0,1 dan Kernel Radial Basis Function untuk model prediksi SVM. Penggunaan model Support Vector Machine dan K-Nearest Neighbor digunakan untuk memperoleh hasil yang relavan serta akurat dalam prediksi struktur sekunder. Beberapa prinsip yang diusulkan memiliki klarifikasi biologis yang menarik dan relevan. Hasil yang diperoleh menegaskan bahwa keberadaan asam amino tertentu dalam urutan protein meningkatkan stabilitas untuk prakiraan stuktur sekunder protein. Dalam penelitian ini algoritma KNN memiliki performa yang lebih baik dalam memprediksi struktur sekunder protein dibandingkan dengan algoritm SVM.   Computational biology approaches have advanced exponentially in the prediction of the secondary structure of proteins of great importance to the pharmaceutical industry. The extraction of protein features in the laboratory has sufficient information for the prediction of the secondary structure of proteins used in bioinformatics studies. Predicting the secondary structure of proteins is a problem in the field of bioinformatics. There are several methods that have been applied with different levels of accuracy produced. This study aims to compare the Support Vector Machine prediction model with K-Nearest Neighbor in predicting the secondary structure of proteins. In this study, the Support Vector Machine and K-Nearest Neighbor models are presented in the RS126 dataset which consists of 126 protein data with an average protein sequence length of 185 sequences. RS126 data also consists of 32% alpha helix (H) , 21% beta (E), and 47% coil (C). Each prediction model in this study is given a sliding window width value of 15. The value of K = 5, K = 10, and K = 15 for the KNN prediction model and the value of C = 1, Gamma = 0.1 and Kernel Radial Basis Function for SVM prediction model. The use of Support Vector Machine and K-Nearest Neighbor models are used to obtain relevant and accurate results in secondary structure prediction. Some of the proposed principles have interesting and relevant biological clarifications. The obtained results confirm that the presence of certain amino acids in the protein sequence increases the stability for the predicted secondary structure of the protein. In this study, the KNN algorithm has a better performance in predicting the secondary structure of proteins than the SVM algorithm.
first_indexed 2024-04-10T20:33:58Z
format Article
id doaj.art-7a65681ff439412ebd54c36fd0e37a85
institution Directory Open Access Journal
issn 2355-6579
2528-2247
language Indonesian
last_indexed 2024-04-10T20:33:58Z
publishDate 2022-10-01
publisher Universitas Bina Sarana Informatika, LPPM
record_format Article
series Jurnal Informatika
spelling doaj.art-7a65681ff439412ebd54c36fd0e37a852023-01-25T01:51:24ZindUniversitas Bina Sarana Informatika, LPPMJurnal Informatika2355-65792528-22472022-10-019217217910.31294/inf.v9i2.131005124Perbandingan Algoritma Support Vector Machine dan K-Nearest Neighbor untuk Memprediksi Struktur Sekunder ProteinAnggi Tasari0Dewan Dinata Tarigan1Erika Nia Devina Br Purba2Kana Saputra S3Universitas Negeri MedanUniversitas Negeri MedanUniversitas Negeri MedanUniversitas Negeri MedanPendekatan biologi komputasi telah maju secara eksponensial dalam prediksi struktur sekunder protein yang sangat penting untuk industri farmasi. Ekstraksi fitur protein di dalam laboratorium memiliki informasi yang cukup untuk prediksi struktur sekunder protein yang digunakan dalam studi bioinformatika. Memprediksi struktur sekunder protein merupakan suatu permasalahan yang terdapat dalam bidang Bioinformatika. Terdapat beberapa metode yang telah diterapkan dengan tingkat akurasi yang dihasilkan berbeda-beda. Penelitian ini bertujuan untuk membandingkan model prediksi Support Vector Machine dengan K-Nearest Neighbor dalam memprediksi struktur sekunder protein. Dalam penelitian ini, model Support Vector Machine dan K-Nearest Neighbor disajikan dalam dataset RS126 yang terdiri dari 126 data protein dan memiliki panjang urutan protein rata-rata 185 sekuens Data RS126 juga terdiri atas 32% alpha helix, 21% beta, dan 47% coil. Masing-masing model prediksi pada penelitian ini diberikan nilai lebar sliding window sebesar 15. Nilai K = 5, K=10, dan K= 15 untuk model prediksi KNN serta Nilai C = 1, Gamma = 0,1 dan Kernel Radial Basis Function untuk model prediksi SVM. Penggunaan model Support Vector Machine dan K-Nearest Neighbor digunakan untuk memperoleh hasil yang relavan serta akurat dalam prediksi struktur sekunder. Beberapa prinsip yang diusulkan memiliki klarifikasi biologis yang menarik dan relevan. Hasil yang diperoleh menegaskan bahwa keberadaan asam amino tertentu dalam urutan protein meningkatkan stabilitas untuk prakiraan stuktur sekunder protein. Dalam penelitian ini algoritma KNN memiliki performa yang lebih baik dalam memprediksi struktur sekunder protein dibandingkan dengan algoritm SVM.   Computational biology approaches have advanced exponentially in the prediction of the secondary structure of proteins of great importance to the pharmaceutical industry. The extraction of protein features in the laboratory has sufficient information for the prediction of the secondary structure of proteins used in bioinformatics studies. Predicting the secondary structure of proteins is a problem in the field of bioinformatics. There are several methods that have been applied with different levels of accuracy produced. This study aims to compare the Support Vector Machine prediction model with K-Nearest Neighbor in predicting the secondary structure of proteins. In this study, the Support Vector Machine and K-Nearest Neighbor models are presented in the RS126 dataset which consists of 126 protein data with an average protein sequence length of 185 sequences. RS126 data also consists of 32% alpha helix (H) , 21% beta (E), and 47% coil (C). Each prediction model in this study is given a sliding window width value of 15. The value of K = 5, K = 10, and K = 15 for the KNN prediction model and the value of C = 1, Gamma = 0.1 and Kernel Radial Basis Function for SVM prediction model. The use of Support Vector Machine and K-Nearest Neighbor models are used to obtain relevant and accurate results in secondary structure prediction. Some of the proposed principles have interesting and relevant biological clarifications. The obtained results confirm that the presence of certain amino acids in the protein sequence increases the stability for the predicted secondary structure of the protein. In this study, the KNN algorithm has a better performance in predicting the secondary structure of proteins than the SVM algorithm.https://ejournal.bsi.ac.id/ejurnal/index.php/ji/article/view/13100struktur sekunder protein, support vector machine, k-nearest neighbor, rs126, ekstraksi fitur
spellingShingle Anggi Tasari
Dewan Dinata Tarigan
Erika Nia Devina Br Purba
Kana Saputra S
Perbandingan Algoritma Support Vector Machine dan K-Nearest Neighbor untuk Memprediksi Struktur Sekunder Protein
Jurnal Informatika
struktur sekunder protein, support vector machine, k-nearest neighbor, rs126, ekstraksi fitur
title Perbandingan Algoritma Support Vector Machine dan K-Nearest Neighbor untuk Memprediksi Struktur Sekunder Protein
title_full Perbandingan Algoritma Support Vector Machine dan K-Nearest Neighbor untuk Memprediksi Struktur Sekunder Protein
title_fullStr Perbandingan Algoritma Support Vector Machine dan K-Nearest Neighbor untuk Memprediksi Struktur Sekunder Protein
title_full_unstemmed Perbandingan Algoritma Support Vector Machine dan K-Nearest Neighbor untuk Memprediksi Struktur Sekunder Protein
title_short Perbandingan Algoritma Support Vector Machine dan K-Nearest Neighbor untuk Memprediksi Struktur Sekunder Protein
title_sort perbandingan algoritma support vector machine dan k nearest neighbor untuk memprediksi struktur sekunder protein
topic struktur sekunder protein, support vector machine, k-nearest neighbor, rs126, ekstraksi fitur
url https://ejournal.bsi.ac.id/ejurnal/index.php/ji/article/view/13100
work_keys_str_mv AT anggitasari perbandinganalgoritmasupportvectormachinedanknearestneighboruntukmemprediksistruktursekunderprotein
AT dewandinatatarigan perbandinganalgoritmasupportvectormachinedanknearestneighboruntukmemprediksistruktursekunderprotein
AT erikaniadevinabrpurba perbandinganalgoritmasupportvectormachinedanknearestneighboruntukmemprediksistruktursekunderprotein
AT kanasaputras perbandinganalgoritmasupportvectormachinedanknearestneighboruntukmemprediksistruktursekunderprotein