Методы и модели извлечения знаний из медицинских документов

В работе выполнен анализ современного состояния проблемы извлечения знаний из клинических рекомендаций, представленных в виде слабоструктурированных корпусов текстовых документов на естественном языке с учетом их периодического обновления. Рассматриваемые методы интеллектуального анализа накопленных...

Full description

Bibliographic Details
Main Authors: Rustem Zulkarneev, Nafisa Yusupova, Olga Smetanina, Maya Gayanova, Alexey Vulfin
Format: Article
Language:English
Published: Russian Academy of Sciences, St. Petersburg Federal Research Center 2022-11-01
Series:Информатика и автоматизация
Subjects:
Online Access:http://ia.spcras.ru/index.php/sp/article/view/15433
_version_ 1827831250083119104
author Rustem Zulkarneev
Nafisa Yusupova
Olga Smetanina
Maya Gayanova
Alexey Vulfin
author_facet Rustem Zulkarneev
Nafisa Yusupova
Olga Smetanina
Maya Gayanova
Alexey Vulfin
author_sort Rustem Zulkarneev
collection DOAJ
description В работе выполнен анализ современного состояния проблемы извлечения знаний из клинических рекомендаций, представленных в виде слабоструктурированных корпусов текстовых документов на естественном языке с учетом их периодического обновления. Рассматриваемые методы интеллектуального анализа накопленных массивов медицинских данных позволяют автоматизировать ряд задач, направленных на повышение качества медицинской помощи за счет значимой поддержки принятия решений в процессе диагностики и лечения. Выполнен обзор известных публикаций, освещающий подходы к автоматизации построения нейросетевых языковых моделей, онтологий и графов знаний в задачах семантического моделирования проблемно-ориентированного корпуса текстов. Представлена структурно-функциональная организация системы извлечения знаний и автоматического построения онтологии и графа знаний проблемно-ориентированного корпуса для конкретной предметной области. Рассмотрены основные этапы извлечения знаний и динамического обновления графа знаний: извлечение именованных сущностей, семантическое аннотирование, извлечение терминов, ключевых слов, тематическое моделирование, идентификация тем и извлечение отношений. Формализованное представление текстов получено с помощью предобученной модели-трансформера BERT. Использовано автоматическое выделение триплетов «объект»-«действие»-«субъект» на основе частеречной разметки корпуса текстов для построения фрагментов графа знаний. Проведен эксперимент на корпусе медицинских текстов заданной тематики (162 документа обезличенных историй болезни пациентов педиатрического центра) без предварительной разметки с целью проверки предложенного решения по извлечению триплетов и конструирования на их основе графа знаний. Анализ экспериментальных результатов подтверждает необходимость более глубокой разметки корпуса текстовых документов для учета специфики медицинских текстовых документов. Показано, что модели общего назначения не позволяют приблизиться по качеству выделения именованных сущностей к специализированным моделям, однако, позволяют предварительно разметить корпус для дальнейшей верификации и уточнения разметки (оценка F1-меры для модели общего назначения – 20,4% по сравнению с вариантом использования словаря – 16,7%). Для неразмеченного корпуса текстов предложенное решение демонстрирует удовлетворительную работоспособность ввиду выделения атомарных фрагментов, включаемых в автоматически формируемую онтологию.
first_indexed 2024-03-12T04:41:57Z
format Article
id doaj.art-6bbb7971bb8745e99947da60c1d62497
institution Directory Open Access Journal
issn 2713-3192
2713-3206
language English
last_indexed 2024-03-12T04:41:57Z
publishDate 2022-11-01
publisher Russian Academy of Sciences, St. Petersburg Federal Research Center
record_format Article
series Информатика и автоматизация
spelling doaj.art-6bbb7971bb8745e99947da60c1d624972023-09-03T09:38:02ZengRussian Academy of Sciences, St. Petersburg Federal Research CenterИнформатика и автоматизация2713-31922713-32062022-11-012161169121010.15622/ia.21.6.415433Методы и модели извлечения знаний из медицинских документовRustem Zulkarneev0Nafisa Yusupova1Olga Smetanina2Maya Gayanova3Alexey Vulfin4Bashkir State Medical UniversityUfa State Aviation Technical UniversityUfa State Aviation Technical UniversityUfa State Aviation Technical UniversityUfa State Aviation Technical UniversityВ работе выполнен анализ современного состояния проблемы извлечения знаний из клинических рекомендаций, представленных в виде слабоструктурированных корпусов текстовых документов на естественном языке с учетом их периодического обновления. Рассматриваемые методы интеллектуального анализа накопленных массивов медицинских данных позволяют автоматизировать ряд задач, направленных на повышение качества медицинской помощи за счет значимой поддержки принятия решений в процессе диагностики и лечения. Выполнен обзор известных публикаций, освещающий подходы к автоматизации построения нейросетевых языковых моделей, онтологий и графов знаний в задачах семантического моделирования проблемно-ориентированного корпуса текстов. Представлена структурно-функциональная организация системы извлечения знаний и автоматического построения онтологии и графа знаний проблемно-ориентированного корпуса для конкретной предметной области. Рассмотрены основные этапы извлечения знаний и динамического обновления графа знаний: извлечение именованных сущностей, семантическое аннотирование, извлечение терминов, ключевых слов, тематическое моделирование, идентификация тем и извлечение отношений. Формализованное представление текстов получено с помощью предобученной модели-трансформера BERT. Использовано автоматическое выделение триплетов «объект»-«действие»-«субъект» на основе частеречной разметки корпуса текстов для построения фрагментов графа знаний. Проведен эксперимент на корпусе медицинских текстов заданной тематики (162 документа обезличенных историй болезни пациентов педиатрического центра) без предварительной разметки с целью проверки предложенного решения по извлечению триплетов и конструирования на их основе графа знаний. Анализ экспериментальных результатов подтверждает необходимость более глубокой разметки корпуса текстовых документов для учета специфики медицинских текстовых документов. Показано, что модели общего назначения не позволяют приблизиться по качеству выделения именованных сущностей к специализированным моделям, однако, позволяют предварительно разметить корпус для дальнейшей верификации и уточнения разметки (оценка F1-меры для модели общего назначения – 20,4% по сравнению с вариантом использования словаря – 16,7%). Для неразмеченного корпуса текстов предложенное решение демонстрирует удовлетворительную работоспособность ввиду выделения атомарных фрагментов, включаемых в автоматически формируемую онтологию.http://ia.spcras.ru/index.php/sp/article/view/15433клинические текстыизвлечение информациимашинное обучениеинтеллектуальный анализ медицинских данныхавтоматическое построение онтологийграфы знаний
spellingShingle Rustem Zulkarneev
Nafisa Yusupova
Olga Smetanina
Maya Gayanova
Alexey Vulfin
Методы и модели извлечения знаний из медицинских документов
Информатика и автоматизация
клинические тексты
извлечение информации
машинное обучение
интеллектуальный анализ медицинских данных
автоматическое построение онтологий
графы знаний
title Методы и модели извлечения знаний из медицинских документов
title_full Методы и модели извлечения знаний из медицинских документов
title_fullStr Методы и модели извлечения знаний из медицинских документов
title_full_unstemmed Методы и модели извлечения знаний из медицинских документов
title_short Методы и модели извлечения знаний из медицинских документов
title_sort методы и модели извлечения знаний из медицинских документов
topic клинические тексты
извлечение информации
машинное обучение
интеллектуальный анализ медицинских данных
автоматическое построение онтологий
графы знаний
url http://ia.spcras.ru/index.php/sp/article/view/15433
work_keys_str_mv AT rustemzulkarneev metodyimodeliizvlečeniâznanijizmedicinskihdokumentov
AT nafisayusupova metodyimodeliizvlečeniâznanijizmedicinskihdokumentov
AT olgasmetanina metodyimodeliizvlečeniâznanijizmedicinskihdokumentov
AT mayagayanova metodyimodeliizvlečeniâznanijizmedicinskihdokumentov
AT alexeyvulfin metodyimodeliizvlečeniâznanijizmedicinskihdokumentov