Алгоритм оптимизации извлечения ключевых слов на основе применения лингвистического парсера

В данной статье представлено аналитическое исследование особенностей двух типов парсинга, а именно синтаксический анализ составляющих (constituency parsing) и синтаксический анализ зависимостей (dependency parsing). Также в рамках проведенного исследования разработан алгоритм оптимизации извлечения...

Full description

Bibliographic Details
Main Authors: Daniil Kravchenko, Yury Kravchenko, Ali Mahmoud Mansour, Juman Mohammad, Nikolai Pavlov
Format: Article
Language:English
Published: Russian Academy of Sciences, St. Petersburg Federal Research Center 2024-03-01
Series:Информатика и автоматизация
Subjects:
Online Access:http://ia.spcras.ru/index.php/sp/article/view/16071
_version_ 1797236840786296832
author Daniil Kravchenko
Yury Kravchenko
Ali Mahmoud Mansour
Juman Mohammad
Nikolai Pavlov
author_facet Daniil Kravchenko
Yury Kravchenko
Ali Mahmoud Mansour
Juman Mohammad
Nikolai Pavlov
author_sort Daniil Kravchenko
collection DOAJ
description В данной статье представлено аналитическое исследование особенностей двух типов парсинга, а именно синтаксический анализ составляющих (constituency parsing) и синтаксический анализ зависимостей (dependency parsing). Также в рамках проведенного исследования разработан алгоритм оптимизации извлечения ключевых слов, отличающийся применением функции извлечения именных фраз, предоставляемой парсером, для фильтрации неподходящих фраз. Алгоритм реализован с помощью трех разных парсеров: SpaCy, AllenNLP и Stazna. Эффективность предложенного алгоритма сравнивалась с двумя популярными методами (Yake, Rake) на наборе данных с английскими текстами. Результаты экспериментов показали, что предложенный алгоритм с парсером SpaCy превосходит другие алгоритмы извлечения ключевых слов с точки зрения точности и скорости. Для парсера AllenNLP и Stanza алгоритм так же отличается точностью, но требует гораздо большего времени выполнения. Полученные результаты позволяют более детально оценить преимущества и недостатки изучаемых в работе парсеров, а также определить направления дальнейших исследований. Время работы парсера SpaCy значительно меньше, чем у двух других парсеров, потому что парсеры, которые используют переходы, применяют детерминированный или машинно-обучаемый набор действий для пошагового построения дерева зависимостей. Они обычно работают быстрее и требуют меньше памяти по сравнению с парсерами, основанными на графах, что делает их более эффективными для анализа больших объемов текста. С другой стороны, AllenNLP и Stanza используют модели парсинга на основе графов, которые опираются на миллионы признаков, что ограничивает их способность к обобщению и замедляет скорость анализа по сравнению с парсерами на основе переходов. Задача достижения баланса между точностью и скоростью лингвистического парсера является открытой темой, требующей дальнейших исследований в связи с важностью данной проблемы для повышения эффективности текстового анализа, особенно в приложениях, требующих точности при работе в реальном масштабе времени. С этой целью авторы планируют проведение дальнейших исследований возможных решений для достижения такого баланса.
first_indexed 2024-04-24T17:10:15Z
format Article
id doaj.art-22521f8d866743d792f49dfe9385e7a8
institution Directory Open Access Journal
issn 2713-3192
2713-3206
language English
last_indexed 2024-04-24T17:10:15Z
publishDate 2024-03-01
publisher Russian Academy of Sciences, St. Petersburg Federal Research Center
record_format Article
series Информатика и автоматизация
spelling doaj.art-22521f8d866743d792f49dfe9385e7a82024-03-28T12:01:00ZengRussian Academy of Sciences, St. Petersburg Federal Research CenterИнформатика и автоматизация2713-31922713-32062024-03-0123246749410.15622/ia.23.2.616071Алгоритм оптимизации извлечения ключевых слов на основе применения лингвистического парсераDaniil Kravchenko0Yury Kravchenko1Ali Mahmoud Mansour2Juman Mohammad3Nikolai Pavlov4Southern Federal UniversitySouthern Federal UniversitySouthern Federal UniversitySouthern Federal UniversitySouthern Federal UniversityВ данной статье представлено аналитическое исследование особенностей двух типов парсинга, а именно синтаксический анализ составляющих (constituency parsing) и синтаксический анализ зависимостей (dependency parsing). Также в рамках проведенного исследования разработан алгоритм оптимизации извлечения ключевых слов, отличающийся применением функции извлечения именных фраз, предоставляемой парсером, для фильтрации неподходящих фраз. Алгоритм реализован с помощью трех разных парсеров: SpaCy, AllenNLP и Stazna. Эффективность предложенного алгоритма сравнивалась с двумя популярными методами (Yake, Rake) на наборе данных с английскими текстами. Результаты экспериментов показали, что предложенный алгоритм с парсером SpaCy превосходит другие алгоритмы извлечения ключевых слов с точки зрения точности и скорости. Для парсера AllenNLP и Stanza алгоритм так же отличается точностью, но требует гораздо большего времени выполнения. Полученные результаты позволяют более детально оценить преимущества и недостатки изучаемых в работе парсеров, а также определить направления дальнейших исследований. Время работы парсера SpaCy значительно меньше, чем у двух других парсеров, потому что парсеры, которые используют переходы, применяют детерминированный или машинно-обучаемый набор действий для пошагового построения дерева зависимостей. Они обычно работают быстрее и требуют меньше памяти по сравнению с парсерами, основанными на графах, что делает их более эффективными для анализа больших объемов текста. С другой стороны, AllenNLP и Stanza используют модели парсинга на основе графов, которые опираются на миллионы признаков, что ограничивает их способность к обобщению и замедляет скорость анализа по сравнению с парсерами на основе переходов. Задача достижения баланса между точностью и скоростью лингвистического парсера является открытой темой, требующей дальнейших исследований в связи с важностью данной проблемы для повышения эффективности текстового анализа, особенно в приложениях, требующих точности при работе в реальном масштабе времени. С этой целью авторы планируют проведение дальнейших исследований возможных решений для достижения такого баланса.http://ia.spcras.ru/index.php/sp/article/view/16071синтаксический анализ составляющихсинтаксический анализ зависимостейизвлечение ключевых словобработка естественного языкаnlpspacystanzaallennlp
spellingShingle Daniil Kravchenko
Yury Kravchenko
Ali Mahmoud Mansour
Juman Mohammad
Nikolai Pavlov
Алгоритм оптимизации извлечения ключевых слов на основе применения лингвистического парсера
Информатика и автоматизация
синтаксический анализ составляющих
синтаксический анализ зависимостей
извлечение ключевых слов
обработка естественного языка
nlp
spacy
stanza
allennlp
title Алгоритм оптимизации извлечения ключевых слов на основе применения лингвистического парсера
title_full Алгоритм оптимизации извлечения ключевых слов на основе применения лингвистического парсера
title_fullStr Алгоритм оптимизации извлечения ключевых слов на основе применения лингвистического парсера
title_full_unstemmed Алгоритм оптимизации извлечения ключевых слов на основе применения лингвистического парсера
title_short Алгоритм оптимизации извлечения ключевых слов на основе применения лингвистического парсера
title_sort алгоритм оптимизации извлечения ключевых слов на основе применения лингвистического парсера
topic синтаксический анализ составляющих
синтаксический анализ зависимостей
извлечение ключевых слов
обработка естественного языка
nlp
spacy
stanza
allennlp
url http://ia.spcras.ru/index.php/sp/article/view/16071
work_keys_str_mv AT daniilkravchenko algoritmoptimizaciiizvlečeniâklûčevyhslovnaosnoveprimeneniâlingvističeskogoparsera
AT yurykravchenko algoritmoptimizaciiizvlečeniâklûčevyhslovnaosnoveprimeneniâlingvističeskogoparsera
AT alimahmoudmansour algoritmoptimizaciiizvlečeniâklûčevyhslovnaosnoveprimeneniâlingvističeskogoparsera
AT jumanmohammad algoritmoptimizaciiizvlečeniâklûčevyhslovnaosnoveprimeneniâlingvističeskogoparsera
AT nikolaipavlov algoritmoptimizaciiizvlečeniâklûčevyhslovnaosnoveprimeneniâlingvističeskogoparsera