Автоматическая классификация генетических мутаций на основе методов машинного обучения

В данной статье описывается проблема определения вида генетической мутации раковой опухоли после секвенирования ее генома. Проблематика решения относится к задачам многоклассовой классификации. В работе предложен подход определения классов мутаций на основе их текстового описания с помощью методов м...

Full description

Bibliographic Details
Main Authors: Ольга Николаевна Половикова, Анастасия Станиславовна Маничева, Вячеслав Вячеславович Ширяев
Format: Article
Language:English
Published: Altai State University 2024-04-01
Series:Известия Алтайского государственного университета
Subjects:
Online Access:http://izvestiya.asu.ru/article/view/15013
_version_ 1797216042463789056
author Ольга Николаевна Половикова
Анастасия Станиславовна Маничева
Вячеслав Вячеславович Ширяев
author_facet Ольга Николаевна Половикова
Анастасия Станиславовна Маничева
Вячеслав Вячеславович Ширяев
author_sort Ольга Николаевна Половикова
collection DOAJ
description В данной статье описывается проблема определения вида генетической мутации раковой опухоли после секвенирования ее генома. Проблематика решения относится к задачам многоклассовой классификации. В работе предложен подход определения классов мутаций на основе их текстового описания с помощью методов машинного обучения, относящихся к группе обучения с учителем. Исследование проводилось на примере набора данных по онкологическим заболеваниям на основе анализа мутаций генома в клетках опухоли. Набор данных включает вид гена, его мутацию, текстовое описание генной мутации и класс мутации. Число классов равно девяти. В соответствии со спецификой исходных данных проведено обоснование выбора методов предобработки и векторизации текста, которые необходимо применить перед использованием методов машинного обучения. Построены классификаторы текстовых данных на основе моделей: k-ближайших соседей, деревьев решений, байесовского классификатора, логистической регрессии. По результатам моделирования получены оценки метрик качества классификации. Показано, что для исходных данных наилучшей моделью классификации является логистическая регрессия, показавшая меньшее значение функции потерь.
first_indexed 2024-04-24T11:39:40Z
format Article
id doaj.art-a2032fce33e548f084a7dd1a419d3994
institution Directory Open Access Journal
issn 1561-9443
1561-9451
language English
last_indexed 2024-04-24T11:39:40Z
publishDate 2024-04-01
publisher Altai State University
record_format Article
series Известия Алтайского государственного университета
spelling doaj.art-a2032fce33e548f084a7dd1a419d39942024-04-10T02:39:03ZengAltai State UniversityИзвестия Алтайского государственного университета1561-94431561-94512024-04-011(135)12613110.14258/izvasu(2024)1-1815013Автоматическая классификация генетических мутаций на основе методов машинного обученияОльга Николаевна Половикова0Анастасия Станиславовна Маничева1Вячеслав Вячеславович Ширяев2Алтайский государственный университет, Барнаул, РоссияАлтайский государственный университет, Барнаул, РоссияООО «ИТ Сфера», Барнаул, РоссияВ данной статье описывается проблема определения вида генетической мутации раковой опухоли после секвенирования ее генома. Проблематика решения относится к задачам многоклассовой классификации. В работе предложен подход определения классов мутаций на основе их текстового описания с помощью методов машинного обучения, относящихся к группе обучения с учителем. Исследование проводилось на примере набора данных по онкологическим заболеваниям на основе анализа мутаций генома в клетках опухоли. Набор данных включает вид гена, его мутацию, текстовое описание генной мутации и класс мутации. Число классов равно девяти. В соответствии со спецификой исходных данных проведено обоснование выбора методов предобработки и векторизации текста, которые необходимо применить перед использованием методов машинного обучения. Построены классификаторы текстовых данных на основе моделей: k-ближайших соседей, деревьев решений, байесовского классификатора, логистической регрессии. По результатам моделирования получены оценки метрик качества классификации. Показано, что для исходных данных наилучшей моделью классификации является логистическая регрессия, показавшая меньшее значение функции потерь.http://izvestiya.asu.ru/article/view/15013генетические мутацииметоды машинного обученияклассификациякодирование текстатокенизациявекторизацияметрики качества обучениялогарифмическая функция потерьподбор гиперпараметров модели
spellingShingle Ольга Николаевна Половикова
Анастасия Станиславовна Маничева
Вячеслав Вячеславович Ширяев
Автоматическая классификация генетических мутаций на основе методов машинного обучения
Известия Алтайского государственного университета
генетические мутации
методы машинного обучения
классификация
кодирование текста
токенизация
векторизация
метрики качества обучения
логарифмическая функция потерь
подбор гиперпараметров модели
title Автоматическая классификация генетических мутаций на основе методов машинного обучения
title_full Автоматическая классификация генетических мутаций на основе методов машинного обучения
title_fullStr Автоматическая классификация генетических мутаций на основе методов машинного обучения
title_full_unstemmed Автоматическая классификация генетических мутаций на основе методов машинного обучения
title_short Автоматическая классификация генетических мутаций на основе методов машинного обучения
title_sort автоматическая классификация генетических мутаций на основе методов машинного обучения
topic генетические мутации
методы машинного обучения
классификация
кодирование текста
токенизация
векторизация
метрики качества обучения
логарифмическая функция потерь
подбор гиперпараметров модели
url http://izvestiya.asu.ru/article/view/15013
work_keys_str_mv AT olʹganikolaevnapolovikova avtomatičeskaâklassifikaciâgenetičeskihmutacijnaosnovemetodovmašinnogoobučeniâ
AT anastasiâstanislavovnamaničeva avtomatičeskaâklassifikaciâgenetičeskihmutacijnaosnovemetodovmašinnogoobučeniâ
AT vâčeslavvâčeslavovičširâev avtomatičeskaâklassifikaciâgenetičeskihmutacijnaosnovemetodovmašinnogoobučeniâ