Методы и модели извлечения знаний из медицинских документов

В работе выполнен анализ современного состояния проблемы извлечения знаний из клинических рекомендаций, представленных в виде слабоструктурированных корпусов текстовых документов на естественном языке с учетом их периодического обновления. Рассматриваемые методы интеллектуального анализа накопленных...

Full description

Bibliographic Details
Main Authors:	Rustem Zulkarneev, Nafisa Yusupova, Olga Smetanina, Maya Gayanova, Alexey Vulfin
Format:	Article
Language:	English
Published:	Russian Academy of Sciences, St. Petersburg Federal Research Center 2022-11-01
Series:	Информатика и автоматизация
Subjects:	клинические тексты извлечение информации машинное обучение интеллектуальный анализ медицинских данных автоматическое построение онтологий графы знаний
Online Access:	http://ia.spcras.ru/index.php/sp/article/view/15433

_version_	1827831250083119104
author	Rustem Zulkarneev Nafisa Yusupova Olga Smetanina Maya Gayanova Alexey Vulfin
author_facet	Rustem Zulkarneev Nafisa Yusupova Olga Smetanina Maya Gayanova Alexey Vulfin
author_sort	Rustem Zulkarneev
collection	DOAJ
description	В работе выполнен анализ современного состояния проблемы извлечения знаний из клинических рекомендаций, представленных в виде слабоструктурированных корпусов текстовых документов на естественном языке с учетом их периодического обновления. Рассматриваемые методы интеллектуального анализа накопленных массивов медицинских данных позволяют автоматизировать ряд задач, направленных на повышение качества медицинской помощи за счет значимой поддержки принятия решений в процессе диагностики и лечения. Выполнен обзор известных публикаций, освещающий подходы к автоматизации построения нейросетевых языковых моделей, онтологий и графов знаний в задачах семантического моделирования проблемно-ориентированного корпуса текстов. Представлена структурно-функциональная организация системы извлечения знаний и автоматического построения онтологии и графа знаний проблемно-ориентированного корпуса для конкретной предметной области. Рассмотрены основные этапы извлечения знаний и динамического обновления графа знаний: извлечение именованных сущностей, семантическое аннотирование, извлечение терминов, ключевых слов, тематическое моделирование, идентификация тем и извлечение отношений. Формализованное представление текстов получено с помощью предобученной модели-трансформера BERT. Использовано автоматическое выделение триплетов «объект»-«действие»-«субъект» на основе частеречной разметки корпуса текстов для построения фрагментов графа знаний. Проведен эксперимент на корпусе медицинских текстов заданной тематики (162 документа обезличенных историй болезни пациентов педиатрического центра) без предварительной разметки с целью проверки предложенного решения по извлечению триплетов и конструирования на их основе графа знаний. Анализ экспериментальных результатов подтверждает необходимость более глубокой разметки корпуса текстовых документов для учета специфики медицинских текстовых документов. Показано, что модели общего назначения не позволяют приблизиться по качеству выделения именованных сущностей к специализированным моделям, однако, позволяют предварительно разметить корпус для дальнейшей верификации и уточнения разметки (оценка F1-меры для модели общего назначения – 20,4% по сравнению с вариантом использования словаря – 16,7%). Для неразмеченного корпуса текстов предложенное решение демонстрирует удовлетворительную работоспособность ввиду выделения атомарных фрагментов, включаемых в автоматически формируемую онтологию.
first_indexed	2024-03-12T04:41:57Z
format	Article
id	doaj.art-6bbb7971bb8745e99947da60c1d62497
institution	Directory Open Access Journal
issn	2713-3192 2713-3206
language	English
last_indexed	2024-03-12T04:41:57Z
publishDate	2022-11-01
publisher	Russian Academy of Sciences, St. Petersburg Federal Research Center
record_format	Article
series	Информатика и автоматизация
spelling	doaj.art-6bbb7971bb8745e99947da60c1d624972023-09-03T09:38:02ZengRussian Academy of Sciences, St. Petersburg Federal Research CenterИнформатика и автоматизация2713-31922713-32062022-11-012161169121010.15622/ia.21.6.415433Методы и модели извлечения знаний из медицинских документовRustem Zulkarneev0Nafisa Yusupova1Olga Smetanina2Maya Gayanova3Alexey Vulfin4Bashkir State Medical UniversityUfa State Aviation Technical UniversityUfa State Aviation Technical UniversityUfa State Aviation Technical UniversityUfa State Aviation Technical UniversityВ работе выполнен анализ современного состояния проблемы извлечения знаний из клинических рекомендаций, представленных в виде слабоструктурированных корпусов текстовых документов на естественном языке с учетом их периодического обновления. Рассматриваемые методы интеллектуального анализа накопленных массивов медицинских данных позволяют автоматизировать ряд задач, направленных на повышение качества медицинской помощи за счет значимой поддержки принятия решений в процессе диагностики и лечения. Выполнен обзор известных публикаций, освещающий подходы к автоматизации построения нейросетевых языковых моделей, онтологий и графов знаний в задачах семантического моделирования проблемно-ориентированного корпуса текстов. Представлена структурно-функциональная организация системы извлечения знаний и автоматического построения онтологии и графа знаний проблемно-ориентированного корпуса для конкретной предметной области. Рассмотрены основные этапы извлечения знаний и динамического обновления графа знаний: извлечение именованных сущностей, семантическое аннотирование, извлечение терминов, ключевых слов, тематическое моделирование, идентификация тем и извлечение отношений. Формализованное представление текстов получено с помощью предобученной модели-трансформера BERT. Использовано автоматическое выделение триплетов «объект»-«действие»-«субъект» на основе частеречной разметки корпуса текстов для построения фрагментов графа знаний. Проведен эксперимент на корпусе медицинских текстов заданной тематики (162 документа обезличенных историй болезни пациентов педиатрического центра) без предварительной разметки с целью проверки предложенного решения по извлечению триплетов и конструирования на их основе графа знаний. Анализ экспериментальных результатов подтверждает необходимость более глубокой разметки корпуса текстовых документов для учета специфики медицинских текстовых документов. Показано, что модели общего назначения не позволяют приблизиться по качеству выделения именованных сущностей к специализированным моделям, однако, позволяют предварительно разметить корпус для дальнейшей верификации и уточнения разметки (оценка F1-меры для модели общего назначения – 20,4% по сравнению с вариантом использования словаря – 16,7%). Для неразмеченного корпуса текстов предложенное решение демонстрирует удовлетворительную работоспособность ввиду выделения атомарных фрагментов, включаемых в автоматически формируемую онтологию.http://ia.spcras.ru/index.php/sp/article/view/15433клинические текстыизвлечение информациимашинное обучениеинтеллектуальный анализ медицинских данныхавтоматическое построение онтологийграфы знаний
spellingShingle	Rustem Zulkarneev Nafisa Yusupova Olga Smetanina Maya Gayanova Alexey Vulfin Методы и модели извлечения знаний из медицинских документов Информатика и автоматизация клинические тексты извлечение информации машинное обучение интеллектуальный анализ медицинских данных автоматическое построение онтологий графы знаний
title	Методы и модели извлечения знаний из медицинских документов
title_full	Методы и модели извлечения знаний из медицинских документов
title_fullStr	Методы и модели извлечения знаний из медицинских документов
title_full_unstemmed	Методы и модели извлечения знаний из медицинских документов
title_short	Методы и модели извлечения знаний из медицинских документов
title_sort	методы и модели извлечения знаний из медицинских документов
topic	клинические тексты извлечение информации машинное обучение интеллектуальный анализ медицинских данных автоматическое построение онтологий графы знаний
url	http://ia.spcras.ru/index.php/sp/article/view/15433
work_keys_str_mv	AT rustemzulkarneev metodyimodeliizvlečeniâznanijizmedicinskihdokumentov AT nafisayusupova metodyimodeliizvlečeniâznanijizmedicinskihdokumentov AT olgasmetanina metodyimodeliizvlečeniâznanijizmedicinskihdokumentov AT mayagayanova metodyimodeliizvlečeniâznanijizmedicinskihdokumentov AT alexeyvulfin metodyimodeliizvlečeniâznanijizmedicinskihdokumentov

Методы и модели извлечения знаний из медицинских документов

Similar Items