Методы и модели извлечения знаний из медицинских документов
В работе выполнен анализ современного состояния проблемы извлечения знаний из клинических рекомендаций, представленных в виде слабоструктурированных корпусов текстовых документов на естественном языке с учетом их периодического обновления. Рассматриваемые методы интеллектуального анализа накопленных...
Main Authors: | , , , , |
---|---|
Format: | Article |
Language: | English |
Published: |
Russian Academy of Sciences, St. Petersburg Federal Research Center
2022-11-01
|
Series: | Информатика и автоматизация |
Subjects: | |
Online Access: | http://ia.spcras.ru/index.php/sp/article/view/15433 |
_version_ | 1827831250083119104 |
---|---|
author | Rustem Zulkarneev Nafisa Yusupova Olga Smetanina Maya Gayanova Alexey Vulfin |
author_facet | Rustem Zulkarneev Nafisa Yusupova Olga Smetanina Maya Gayanova Alexey Vulfin |
author_sort | Rustem Zulkarneev |
collection | DOAJ |
description | В работе выполнен анализ современного состояния проблемы извлечения знаний из клинических рекомендаций, представленных в виде слабоструктурированных корпусов текстовых документов на естественном языке с учетом их периодического обновления. Рассматриваемые методы интеллектуального анализа накопленных массивов медицинских данных позволяют автоматизировать ряд задач, направленных на повышение качества медицинской помощи за счет значимой поддержки принятия решений в процессе диагностики и лечения. Выполнен обзор известных публикаций, освещающий подходы к автоматизации построения нейросетевых языковых моделей, онтологий и графов знаний в задачах семантического моделирования проблемно-ориентированного корпуса текстов. Представлена структурно-функциональная организация системы извлечения знаний и автоматического построения онтологии и графа знаний проблемно-ориентированного корпуса для конкретной предметной области. Рассмотрены основные этапы извлечения знаний и динамического обновления графа знаний: извлечение именованных сущностей, семантическое аннотирование, извлечение терминов, ключевых слов, тематическое моделирование, идентификация тем и извлечение отношений. Формализованное представление текстов получено с помощью предобученной модели-трансформера BERT. Использовано автоматическое выделение триплетов «объект»-«действие»-«субъект» на основе частеречной разметки корпуса текстов для построения фрагментов графа знаний. Проведен эксперимент на корпусе медицинских текстов заданной тематики (162 документа обезличенных историй болезни пациентов педиатрического центра) без предварительной разметки с целью проверки предложенного решения по извлечению триплетов и конструирования на их основе графа знаний. Анализ экспериментальных результатов подтверждает необходимость более глубокой разметки корпуса текстовых документов для учета специфики медицинских текстовых документов. Показано, что модели общего назначения не позволяют приблизиться по качеству выделения именованных сущностей к специализированным моделям, однако, позволяют предварительно разметить корпус для дальнейшей верификации и уточнения разметки (оценка F1-меры для модели общего назначения – 20,4% по сравнению с вариантом использования словаря – 16,7%). Для неразмеченного корпуса текстов предложенное решение демонстрирует удовлетворительную работоспособность ввиду выделения атомарных фрагментов, включаемых в автоматически формируемую онтологию. |
first_indexed | 2024-03-12T04:41:57Z |
format | Article |
id | doaj.art-6bbb7971bb8745e99947da60c1d62497 |
institution | Directory Open Access Journal |
issn | 2713-3192 2713-3206 |
language | English |
last_indexed | 2024-03-12T04:41:57Z |
publishDate | 2022-11-01 |
publisher | Russian Academy of Sciences, St. Petersburg Federal Research Center |
record_format | Article |
series | Информатика и автоматизация |
spelling | doaj.art-6bbb7971bb8745e99947da60c1d624972023-09-03T09:38:02ZengRussian Academy of Sciences, St. Petersburg Federal Research CenterИнформатика и автоматизация2713-31922713-32062022-11-012161169121010.15622/ia.21.6.415433Методы и модели извлечения знаний из медицинских документовRustem Zulkarneev0Nafisa Yusupova1Olga Smetanina2Maya Gayanova3Alexey Vulfin4Bashkir State Medical UniversityUfa State Aviation Technical UniversityUfa State Aviation Technical UniversityUfa State Aviation Technical UniversityUfa State Aviation Technical UniversityВ работе выполнен анализ современного состояния проблемы извлечения знаний из клинических рекомендаций, представленных в виде слабоструктурированных корпусов текстовых документов на естественном языке с учетом их периодического обновления. Рассматриваемые методы интеллектуального анализа накопленных массивов медицинских данных позволяют автоматизировать ряд задач, направленных на повышение качества медицинской помощи за счет значимой поддержки принятия решений в процессе диагностики и лечения. Выполнен обзор известных публикаций, освещающий подходы к автоматизации построения нейросетевых языковых моделей, онтологий и графов знаний в задачах семантического моделирования проблемно-ориентированного корпуса текстов. Представлена структурно-функциональная организация системы извлечения знаний и автоматического построения онтологии и графа знаний проблемно-ориентированного корпуса для конкретной предметной области. Рассмотрены основные этапы извлечения знаний и динамического обновления графа знаний: извлечение именованных сущностей, семантическое аннотирование, извлечение терминов, ключевых слов, тематическое моделирование, идентификация тем и извлечение отношений. Формализованное представление текстов получено с помощью предобученной модели-трансформера BERT. Использовано автоматическое выделение триплетов «объект»-«действие»-«субъект» на основе частеречной разметки корпуса текстов для построения фрагментов графа знаний. Проведен эксперимент на корпусе медицинских текстов заданной тематики (162 документа обезличенных историй болезни пациентов педиатрического центра) без предварительной разметки с целью проверки предложенного решения по извлечению триплетов и конструирования на их основе графа знаний. Анализ экспериментальных результатов подтверждает необходимость более глубокой разметки корпуса текстовых документов для учета специфики медицинских текстовых документов. Показано, что модели общего назначения не позволяют приблизиться по качеству выделения именованных сущностей к специализированным моделям, однако, позволяют предварительно разметить корпус для дальнейшей верификации и уточнения разметки (оценка F1-меры для модели общего назначения – 20,4% по сравнению с вариантом использования словаря – 16,7%). Для неразмеченного корпуса текстов предложенное решение демонстрирует удовлетворительную работоспособность ввиду выделения атомарных фрагментов, включаемых в автоматически формируемую онтологию.http://ia.spcras.ru/index.php/sp/article/view/15433клинические текстыизвлечение информациимашинное обучениеинтеллектуальный анализ медицинских данныхавтоматическое построение онтологийграфы знаний |
spellingShingle | Rustem Zulkarneev Nafisa Yusupova Olga Smetanina Maya Gayanova Alexey Vulfin Методы и модели извлечения знаний из медицинских документов Информатика и автоматизация клинические тексты извлечение информации машинное обучение интеллектуальный анализ медицинских данных автоматическое построение онтологий графы знаний |
title | Методы и модели извлечения знаний из медицинских документов |
title_full | Методы и модели извлечения знаний из медицинских документов |
title_fullStr | Методы и модели извлечения знаний из медицинских документов |
title_full_unstemmed | Методы и модели извлечения знаний из медицинских документов |
title_short | Методы и модели извлечения знаний из медицинских документов |
title_sort | методы и модели извлечения знаний из медицинских документов |
topic | клинические тексты извлечение информации машинное обучение интеллектуальный анализ медицинских данных автоматическое построение онтологий графы знаний |
url | http://ia.spcras.ru/index.php/sp/article/view/15433 |
work_keys_str_mv | AT rustemzulkarneev metodyimodeliizvlečeniâznanijizmedicinskihdokumentov AT nafisayusupova metodyimodeliizvlečeniâznanijizmedicinskihdokumentov AT olgasmetanina metodyimodeliizvlečeniâznanijizmedicinskihdokumentov AT mayagayanova metodyimodeliizvlečeniâznanijizmedicinskihdokumentov AT alexeyvulfin metodyimodeliizvlečeniâznanijizmedicinskihdokumentov |