Автоматическая классификация генетических мутаций на основе методов машинного обучения
В данной статье описывается проблема определения вида генетической мутации раковой опухоли после секвенирования ее генома. Проблематика решения относится к задачам многоклассовой классификации. В работе предложен подход определения классов мутаций на основе их текстового описания с помощью методов м...
Main Authors: | , , |
---|---|
Format: | Article |
Language: | English |
Published: |
Altai State University
2024-04-01
|
Series: | Известия Алтайского государственного университета |
Subjects: | |
Online Access: | http://izvestiya.asu.ru/article/view/15013 |
_version_ | 1797216042463789056 |
---|---|
author | Ольга Николаевна Половикова Анастасия Станиславовна Маничева Вячеслав Вячеславович Ширяев |
author_facet | Ольга Николаевна Половикова Анастасия Станиславовна Маничева Вячеслав Вячеславович Ширяев |
author_sort | Ольга Николаевна Половикова |
collection | DOAJ |
description | В данной статье описывается проблема определения вида генетической мутации раковой опухоли после секвенирования ее генома. Проблематика решения относится к задачам многоклассовой классификации. В работе предложен подход определения классов мутаций на основе их текстового описания с помощью методов машинного обучения, относящихся к группе обучения с учителем. Исследование проводилось на примере набора данных по онкологическим заболеваниям на основе анализа мутаций генома в клетках опухоли. Набор данных включает вид гена, его мутацию, текстовое описание генной мутации и класс мутации. Число классов равно девяти. В соответствии со спецификой исходных данных проведено обоснование выбора методов предобработки и векторизации текста, которые необходимо применить перед использованием методов машинного обучения. Построены классификаторы текстовых данных на основе моделей: k-ближайших соседей, деревьев решений, байесовского классификатора, логистической регрессии. По результатам моделирования получены оценки метрик качества классификации. Показано, что для исходных данных наилучшей моделью классификации является логистическая регрессия, показавшая меньшее значение функции потерь. |
first_indexed | 2024-04-24T11:39:40Z |
format | Article |
id | doaj.art-a2032fce33e548f084a7dd1a419d3994 |
institution | Directory Open Access Journal |
issn | 1561-9443 1561-9451 |
language | English |
last_indexed | 2024-04-24T11:39:40Z |
publishDate | 2024-04-01 |
publisher | Altai State University |
record_format | Article |
series | Известия Алтайского государственного университета |
spelling | doaj.art-a2032fce33e548f084a7dd1a419d39942024-04-10T02:39:03ZengAltai State UniversityИзвестия Алтайского государственного университета1561-94431561-94512024-04-011(135)12613110.14258/izvasu(2024)1-1815013Автоматическая классификация генетических мутаций на основе методов машинного обученияОльга Николаевна Половикова0Анастасия Станиславовна Маничева1Вячеслав Вячеславович Ширяев2Алтайский государственный университет, Барнаул, РоссияАлтайский государственный университет, Барнаул, РоссияООО «ИТ Сфера», Барнаул, РоссияВ данной статье описывается проблема определения вида генетической мутации раковой опухоли после секвенирования ее генома. Проблематика решения относится к задачам многоклассовой классификации. В работе предложен подход определения классов мутаций на основе их текстового описания с помощью методов машинного обучения, относящихся к группе обучения с учителем. Исследование проводилось на примере набора данных по онкологическим заболеваниям на основе анализа мутаций генома в клетках опухоли. Набор данных включает вид гена, его мутацию, текстовое описание генной мутации и класс мутации. Число классов равно девяти. В соответствии со спецификой исходных данных проведено обоснование выбора методов предобработки и векторизации текста, которые необходимо применить перед использованием методов машинного обучения. Построены классификаторы текстовых данных на основе моделей: k-ближайших соседей, деревьев решений, байесовского классификатора, логистической регрессии. По результатам моделирования получены оценки метрик качества классификации. Показано, что для исходных данных наилучшей моделью классификации является логистическая регрессия, показавшая меньшее значение функции потерь.http://izvestiya.asu.ru/article/view/15013генетические мутацииметоды машинного обученияклассификациякодирование текстатокенизациявекторизацияметрики качества обучениялогарифмическая функция потерьподбор гиперпараметров модели |
spellingShingle | Ольга Николаевна Половикова Анастасия Станиславовна Маничева Вячеслав Вячеславович Ширяев Автоматическая классификация генетических мутаций на основе методов машинного обучения Известия Алтайского государственного университета генетические мутации методы машинного обучения классификация кодирование текста токенизация векторизация метрики качества обучения логарифмическая функция потерь подбор гиперпараметров модели |
title | Автоматическая классификация генетических мутаций на основе методов машинного обучения |
title_full | Автоматическая классификация генетических мутаций на основе методов машинного обучения |
title_fullStr | Автоматическая классификация генетических мутаций на основе методов машинного обучения |
title_full_unstemmed | Автоматическая классификация генетических мутаций на основе методов машинного обучения |
title_short | Автоматическая классификация генетических мутаций на основе методов машинного обучения |
title_sort | автоматическая классификация генетических мутаций на основе методов машинного обучения |
topic | генетические мутации методы машинного обучения классификация кодирование текста токенизация векторизация метрики качества обучения логарифмическая функция потерь подбор гиперпараметров модели |
url | http://izvestiya.asu.ru/article/view/15013 |
work_keys_str_mv | AT olʹganikolaevnapolovikova avtomatičeskaâklassifikaciâgenetičeskihmutacijnaosnovemetodovmašinnogoobučeniâ AT anastasiâstanislavovnamaničeva avtomatičeskaâklassifikaciâgenetičeskihmutacijnaosnovemetodovmašinnogoobučeniâ AT vâčeslavvâčeslavovičširâev avtomatičeskaâklassifikaciâgenetičeskihmutacijnaosnovemetodovmašinnogoobučeniâ |