Perbandingan Algoritma Support Vector Machine dan K-Nearest Neighbor untuk Memprediksi Struktur Sekunder Protein
Pendekatan biologi komputasi telah maju secara eksponensial dalam prediksi struktur sekunder protein yang sangat penting untuk industri farmasi. Ekstraksi fitur protein di dalam laboratorium memiliki informasi yang cukup untuk prediksi struktur sekunder protein yang digunakan dalam studi bioinformat...
Main Authors: | , , , |
---|---|
Format: | Article |
Language: | Indonesian |
Published: |
Universitas Bina Sarana Informatika, LPPM
2022-10-01
|
Series: | Jurnal Informatika |
Subjects: | |
Online Access: | https://ejournal.bsi.ac.id/ejurnal/index.php/ji/article/view/13100 |
_version_ | 1828055142967017472 |
---|---|
author | Anggi Tasari Dewan Dinata Tarigan Erika Nia Devina Br Purba Kana Saputra S |
author_facet | Anggi Tasari Dewan Dinata Tarigan Erika Nia Devina Br Purba Kana Saputra S |
author_sort | Anggi Tasari |
collection | DOAJ |
description | Pendekatan biologi komputasi telah maju secara eksponensial dalam prediksi struktur sekunder protein yang sangat penting untuk industri farmasi. Ekstraksi fitur protein di dalam laboratorium memiliki informasi yang cukup untuk prediksi struktur sekunder protein yang digunakan dalam studi bioinformatika. Memprediksi struktur sekunder protein merupakan suatu permasalahan yang terdapat dalam bidang Bioinformatika. Terdapat beberapa metode yang telah diterapkan dengan tingkat akurasi yang dihasilkan berbeda-beda. Penelitian ini bertujuan untuk membandingkan model prediksi Support Vector Machine dengan K-Nearest Neighbor dalam memprediksi struktur sekunder protein. Dalam penelitian ini, model Support Vector Machine dan K-Nearest Neighbor disajikan dalam dataset RS126 yang terdiri dari 126 data protein dan memiliki panjang urutan protein rata-rata 185 sekuens Data RS126 juga terdiri atas 32% alpha helix, 21% beta, dan 47% coil. Masing-masing model prediksi pada penelitian ini diberikan nilai lebar sliding window sebesar 15. Nilai K = 5, K=10, dan K= 15 untuk model prediksi KNN serta Nilai C = 1, Gamma = 0,1 dan Kernel Radial Basis Function untuk model prediksi SVM. Penggunaan model Support Vector Machine dan K-Nearest Neighbor digunakan untuk memperoleh hasil yang relavan serta akurat dalam prediksi struktur sekunder. Beberapa prinsip yang diusulkan memiliki klarifikasi biologis yang menarik dan relevan. Hasil yang diperoleh menegaskan bahwa keberadaan asam amino tertentu dalam urutan protein meningkatkan stabilitas untuk prakiraan stuktur sekunder protein. Dalam penelitian ini algoritma KNN memiliki performa yang lebih baik dalam memprediksi struktur sekunder protein dibandingkan dengan algoritm SVM.
Computational biology approaches have advanced exponentially in the prediction of the secondary structure of proteins of great importance to the pharmaceutical industry. The extraction of protein features in the laboratory has sufficient information for the prediction of the secondary structure of proteins used in bioinformatics studies. Predicting the secondary structure of proteins is a problem in the field of bioinformatics. There are several methods that have been applied with different levels of accuracy produced. This study aims to compare the Support Vector Machine prediction model with K-Nearest Neighbor in predicting the secondary structure of proteins. In this study, the Support Vector Machine and K-Nearest Neighbor models are presented in the RS126 dataset which consists of 126 protein data with an average protein sequence length of 185 sequences. RS126 data also consists of 32% alpha helix (H) , 21% beta (E), and 47% coil (C). Each prediction model in this study is given a sliding window width value of 15. The value of K = 5, K = 10, and K = 15 for the KNN prediction model and the value of C = 1, Gamma = 0.1 and Kernel Radial Basis Function for SVM prediction model. The use of Support Vector Machine and K-Nearest Neighbor models are used to obtain relevant and accurate results in secondary structure prediction. Some of the proposed principles have interesting and relevant biological clarifications. The obtained results confirm that the presence of certain amino acids in the protein sequence increases the stability for the predicted secondary structure of the protein. In this study, the KNN algorithm has a better performance in predicting the secondary structure of proteins than the SVM algorithm. |
first_indexed | 2024-04-10T20:33:58Z |
format | Article |
id | doaj.art-7a65681ff439412ebd54c36fd0e37a85 |
institution | Directory Open Access Journal |
issn | 2355-6579 2528-2247 |
language | Indonesian |
last_indexed | 2024-04-10T20:33:58Z |
publishDate | 2022-10-01 |
publisher | Universitas Bina Sarana Informatika, LPPM |
record_format | Article |
series | Jurnal Informatika |
spelling | doaj.art-7a65681ff439412ebd54c36fd0e37a852023-01-25T01:51:24ZindUniversitas Bina Sarana Informatika, LPPMJurnal Informatika2355-65792528-22472022-10-019217217910.31294/inf.v9i2.131005124Perbandingan Algoritma Support Vector Machine dan K-Nearest Neighbor untuk Memprediksi Struktur Sekunder ProteinAnggi Tasari0Dewan Dinata Tarigan1Erika Nia Devina Br Purba2Kana Saputra S3Universitas Negeri MedanUniversitas Negeri MedanUniversitas Negeri MedanUniversitas Negeri MedanPendekatan biologi komputasi telah maju secara eksponensial dalam prediksi struktur sekunder protein yang sangat penting untuk industri farmasi. Ekstraksi fitur protein di dalam laboratorium memiliki informasi yang cukup untuk prediksi struktur sekunder protein yang digunakan dalam studi bioinformatika. Memprediksi struktur sekunder protein merupakan suatu permasalahan yang terdapat dalam bidang Bioinformatika. Terdapat beberapa metode yang telah diterapkan dengan tingkat akurasi yang dihasilkan berbeda-beda. Penelitian ini bertujuan untuk membandingkan model prediksi Support Vector Machine dengan K-Nearest Neighbor dalam memprediksi struktur sekunder protein. Dalam penelitian ini, model Support Vector Machine dan K-Nearest Neighbor disajikan dalam dataset RS126 yang terdiri dari 126 data protein dan memiliki panjang urutan protein rata-rata 185 sekuens Data RS126 juga terdiri atas 32% alpha helix, 21% beta, dan 47% coil. Masing-masing model prediksi pada penelitian ini diberikan nilai lebar sliding window sebesar 15. Nilai K = 5, K=10, dan K= 15 untuk model prediksi KNN serta Nilai C = 1, Gamma = 0,1 dan Kernel Radial Basis Function untuk model prediksi SVM. Penggunaan model Support Vector Machine dan K-Nearest Neighbor digunakan untuk memperoleh hasil yang relavan serta akurat dalam prediksi struktur sekunder. Beberapa prinsip yang diusulkan memiliki klarifikasi biologis yang menarik dan relevan. Hasil yang diperoleh menegaskan bahwa keberadaan asam amino tertentu dalam urutan protein meningkatkan stabilitas untuk prakiraan stuktur sekunder protein. Dalam penelitian ini algoritma KNN memiliki performa yang lebih baik dalam memprediksi struktur sekunder protein dibandingkan dengan algoritm SVM. Computational biology approaches have advanced exponentially in the prediction of the secondary structure of proteins of great importance to the pharmaceutical industry. The extraction of protein features in the laboratory has sufficient information for the prediction of the secondary structure of proteins used in bioinformatics studies. Predicting the secondary structure of proteins is a problem in the field of bioinformatics. There are several methods that have been applied with different levels of accuracy produced. This study aims to compare the Support Vector Machine prediction model with K-Nearest Neighbor in predicting the secondary structure of proteins. In this study, the Support Vector Machine and K-Nearest Neighbor models are presented in the RS126 dataset which consists of 126 protein data with an average protein sequence length of 185 sequences. RS126 data also consists of 32% alpha helix (H) , 21% beta (E), and 47% coil (C). Each prediction model in this study is given a sliding window width value of 15. The value of K = 5, K = 10, and K = 15 for the KNN prediction model and the value of C = 1, Gamma = 0.1 and Kernel Radial Basis Function for SVM prediction model. The use of Support Vector Machine and K-Nearest Neighbor models are used to obtain relevant and accurate results in secondary structure prediction. Some of the proposed principles have interesting and relevant biological clarifications. The obtained results confirm that the presence of certain amino acids in the protein sequence increases the stability for the predicted secondary structure of the protein. In this study, the KNN algorithm has a better performance in predicting the secondary structure of proteins than the SVM algorithm.https://ejournal.bsi.ac.id/ejurnal/index.php/ji/article/view/13100struktur sekunder protein, support vector machine, k-nearest neighbor, rs126, ekstraksi fitur |
spellingShingle | Anggi Tasari Dewan Dinata Tarigan Erika Nia Devina Br Purba Kana Saputra S Perbandingan Algoritma Support Vector Machine dan K-Nearest Neighbor untuk Memprediksi Struktur Sekunder Protein Jurnal Informatika struktur sekunder protein, support vector machine, k-nearest neighbor, rs126, ekstraksi fitur |
title | Perbandingan Algoritma Support Vector Machine dan K-Nearest Neighbor untuk Memprediksi Struktur Sekunder Protein |
title_full | Perbandingan Algoritma Support Vector Machine dan K-Nearest Neighbor untuk Memprediksi Struktur Sekunder Protein |
title_fullStr | Perbandingan Algoritma Support Vector Machine dan K-Nearest Neighbor untuk Memprediksi Struktur Sekunder Protein |
title_full_unstemmed | Perbandingan Algoritma Support Vector Machine dan K-Nearest Neighbor untuk Memprediksi Struktur Sekunder Protein |
title_short | Perbandingan Algoritma Support Vector Machine dan K-Nearest Neighbor untuk Memprediksi Struktur Sekunder Protein |
title_sort | perbandingan algoritma support vector machine dan k nearest neighbor untuk memprediksi struktur sekunder protein |
topic | struktur sekunder protein, support vector machine, k-nearest neighbor, rs126, ekstraksi fitur |
url | https://ejournal.bsi.ac.id/ejurnal/index.php/ji/article/view/13100 |
work_keys_str_mv | AT anggitasari perbandinganalgoritmasupportvectormachinedanknearestneighboruntukmemprediksistruktursekunderprotein AT dewandinatatarigan perbandinganalgoritmasupportvectormachinedanknearestneighboruntukmemprediksistruktursekunderprotein AT erikaniadevinabrpurba perbandinganalgoritmasupportvectormachinedanknearestneighboruntukmemprediksistruktursekunderprotein AT kanasaputras perbandinganalgoritmasupportvectormachinedanknearestneighboruntukmemprediksistruktursekunderprotein |