Алгоритм оптимизации извлечения ключевых слов на основе применения лингвистического парсера
В данной статье представлено аналитическое исследование особенностей двух типов парсинга, а именно синтаксический анализ составляющих (constituency parsing) и синтаксический анализ зависимостей (dependency parsing). Также в рамках проведенного исследования разработан алгоритм оптимизации извлечения...
Main Authors: | , , , , |
---|---|
Format: | Article |
Language: | English |
Published: |
Russian Academy of Sciences, St. Petersburg Federal Research Center
2024-03-01
|
Series: | Информатика и автоматизация |
Subjects: | |
Online Access: | http://ia.spcras.ru/index.php/sp/article/view/16071 |
_version_ | 1797236840786296832 |
---|---|
author | Daniil Kravchenko Yury Kravchenko Ali Mahmoud Mansour Juman Mohammad Nikolai Pavlov |
author_facet | Daniil Kravchenko Yury Kravchenko Ali Mahmoud Mansour Juman Mohammad Nikolai Pavlov |
author_sort | Daniil Kravchenko |
collection | DOAJ |
description | В данной статье представлено аналитическое исследование особенностей двух типов парсинга, а именно синтаксический анализ составляющих (constituency parsing) и синтаксический анализ зависимостей (dependency parsing). Также в рамках проведенного исследования разработан алгоритм оптимизации извлечения ключевых слов, отличающийся применением функции извлечения именных фраз, предоставляемой парсером, для фильтрации неподходящих фраз. Алгоритм реализован с помощью трех разных парсеров: SpaCy, AllenNLP и Stazna. Эффективность предложенного алгоритма сравнивалась с двумя популярными методами (Yake, Rake) на наборе данных с английскими текстами. Результаты экспериментов показали, что предложенный алгоритм с парсером SpaCy превосходит другие алгоритмы извлечения ключевых слов с точки зрения точности и скорости. Для парсера AllenNLP и Stanza алгоритм так же отличается точностью, но требует гораздо большего времени выполнения. Полученные результаты позволяют более детально оценить преимущества и недостатки изучаемых в работе парсеров, а также определить направления дальнейших исследований. Время работы парсера SpaCy значительно меньше, чем у двух других парсеров, потому что парсеры, которые используют переходы, применяют детерминированный или машинно-обучаемый набор действий для пошагового построения дерева зависимостей. Они обычно работают быстрее и требуют меньше памяти по сравнению с парсерами, основанными на графах, что делает их более эффективными для анализа больших объемов текста. С другой стороны, AllenNLP и Stanza используют модели парсинга на основе графов, которые опираются на миллионы признаков, что ограничивает их способность к обобщению и замедляет скорость анализа по сравнению с парсерами на основе переходов. Задача достижения баланса между точностью и скоростью лингвистического парсера является открытой темой, требующей дальнейших исследований в связи с важностью данной проблемы для повышения эффективности текстового анализа, особенно в приложениях, требующих точности при работе в реальном масштабе времени. С этой целью авторы планируют проведение дальнейших исследований возможных решений для достижения такого баланса. |
first_indexed | 2024-04-24T17:10:15Z |
format | Article |
id | doaj.art-22521f8d866743d792f49dfe9385e7a8 |
institution | Directory Open Access Journal |
issn | 2713-3192 2713-3206 |
language | English |
last_indexed | 2024-04-24T17:10:15Z |
publishDate | 2024-03-01 |
publisher | Russian Academy of Sciences, St. Petersburg Federal Research Center |
record_format | Article |
series | Информатика и автоматизация |
spelling | doaj.art-22521f8d866743d792f49dfe9385e7a82024-03-28T12:01:00ZengRussian Academy of Sciences, St. Petersburg Federal Research CenterИнформатика и автоматизация2713-31922713-32062024-03-0123246749410.15622/ia.23.2.616071Алгоритм оптимизации извлечения ключевых слов на основе применения лингвистического парсераDaniil Kravchenko0Yury Kravchenko1Ali Mahmoud Mansour2Juman Mohammad3Nikolai Pavlov4Southern Federal UniversitySouthern Federal UniversitySouthern Federal UniversitySouthern Federal UniversitySouthern Federal UniversityВ данной статье представлено аналитическое исследование особенностей двух типов парсинга, а именно синтаксический анализ составляющих (constituency parsing) и синтаксический анализ зависимостей (dependency parsing). Также в рамках проведенного исследования разработан алгоритм оптимизации извлечения ключевых слов, отличающийся применением функции извлечения именных фраз, предоставляемой парсером, для фильтрации неподходящих фраз. Алгоритм реализован с помощью трех разных парсеров: SpaCy, AllenNLP и Stazna. Эффективность предложенного алгоритма сравнивалась с двумя популярными методами (Yake, Rake) на наборе данных с английскими текстами. Результаты экспериментов показали, что предложенный алгоритм с парсером SpaCy превосходит другие алгоритмы извлечения ключевых слов с точки зрения точности и скорости. Для парсера AllenNLP и Stanza алгоритм так же отличается точностью, но требует гораздо большего времени выполнения. Полученные результаты позволяют более детально оценить преимущества и недостатки изучаемых в работе парсеров, а также определить направления дальнейших исследований. Время работы парсера SpaCy значительно меньше, чем у двух других парсеров, потому что парсеры, которые используют переходы, применяют детерминированный или машинно-обучаемый набор действий для пошагового построения дерева зависимостей. Они обычно работают быстрее и требуют меньше памяти по сравнению с парсерами, основанными на графах, что делает их более эффективными для анализа больших объемов текста. С другой стороны, AllenNLP и Stanza используют модели парсинга на основе графов, которые опираются на миллионы признаков, что ограничивает их способность к обобщению и замедляет скорость анализа по сравнению с парсерами на основе переходов. Задача достижения баланса между точностью и скоростью лингвистического парсера является открытой темой, требующей дальнейших исследований в связи с важностью данной проблемы для повышения эффективности текстового анализа, особенно в приложениях, требующих точности при работе в реальном масштабе времени. С этой целью авторы планируют проведение дальнейших исследований возможных решений для достижения такого баланса.http://ia.spcras.ru/index.php/sp/article/view/16071синтаксический анализ составляющихсинтаксический анализ зависимостейизвлечение ключевых словобработка естественного языкаnlpspacystanzaallennlp |
spellingShingle | Daniil Kravchenko Yury Kravchenko Ali Mahmoud Mansour Juman Mohammad Nikolai Pavlov Алгоритм оптимизации извлечения ключевых слов на основе применения лингвистического парсера Информатика и автоматизация синтаксический анализ составляющих синтаксический анализ зависимостей извлечение ключевых слов обработка естественного языка nlp spacy stanza allennlp |
title | Алгоритм оптимизации извлечения ключевых слов на основе применения лингвистического парсера |
title_full | Алгоритм оптимизации извлечения ключевых слов на основе применения лингвистического парсера |
title_fullStr | Алгоритм оптимизации извлечения ключевых слов на основе применения лингвистического парсера |
title_full_unstemmed | Алгоритм оптимизации извлечения ключевых слов на основе применения лингвистического парсера |
title_short | Алгоритм оптимизации извлечения ключевых слов на основе применения лингвистического парсера |
title_sort | алгоритм оптимизации извлечения ключевых слов на основе применения лингвистического парсера |
topic | синтаксический анализ составляющих синтаксический анализ зависимостей извлечение ключевых слов обработка естественного языка nlp spacy stanza allennlp |
url | http://ia.spcras.ru/index.php/sp/article/view/16071 |
work_keys_str_mv | AT daniilkravchenko algoritmoptimizaciiizvlečeniâklûčevyhslovnaosnoveprimeneniâlingvističeskogoparsera AT yurykravchenko algoritmoptimizaciiizvlečeniâklûčevyhslovnaosnoveprimeneniâlingvističeskogoparsera AT alimahmoudmansour algoritmoptimizaciiizvlečeniâklûčevyhslovnaosnoveprimeneniâlingvističeskogoparsera AT jumanmohammad algoritmoptimizaciiizvlečeniâklûčevyhslovnaosnoveprimeneniâlingvističeskogoparsera AT nikolaipavlov algoritmoptimizaciiizvlečeniâklûčevyhslovnaosnoveprimeneniâlingvističeskogoparsera |