Как язык Python помогает лексикографам

Современные средства компьютерной обработки текста позволили автоматизировать многие рутинные задачи лексикографов и терминологов. Помимо привычных программных средств, применяемых для вспомогательных задач прикладной лексикографии специалистами по составлению терминологических и других словарей, в...

Full description

Bibliographic Details
Main Author: Мария Игоревна Ладушина
Format: Article
Language:English
Published: Herzen State Pedagogical University of Russia 2022-12-01
Series:Journal of Applied Linguistics and Lexicography
Subjects:
Online Access:https://www.journall.org/index.php/main/article/view/107
_version_ 1827397418966056960
author Мария Игоревна Ладушина
author_facet Мария Игоревна Ладушина
author_sort Мария Игоревна Ладушина
collection DOAJ
description Современные средства компьютерной обработки текста позволили автоматизировать многие рутинные задачи лексикографов и терминологов. Помимо привычных программных средств, применяемых для вспомогательных задач прикладной лексикографии специалистами по составлению терминологических и других словарей, в решении таких задач может помочь язык программирования Python и его библиотеки, такие как NLTK (Natural Language Toolkit), pymorphy2, mystem и др. Python — один из самых распространенных и доступных в изучении языков программирования, который все шире применяется в прикладной лингвистике. Статья продолжает цикл публикаций, знакомящих практикующих лингвистов и лексикографов с Python и его возможностями для обработки текстов на естественном языке (natural language processing). Описываются техники, которые можно использовать для предварительной обработки текстов с целью последующего извлечения из них терминологии и составления терминологических словарей, в том числе для нужд письменного перевода. В настоящее время эта задача пересекается с использованием систем машинного перевода, в ряде которых реализована функция приоритетного использования пользовательского терминологического двуязычного словаря. Кроме того, некоторые из описанных приемов помогут извлечь информацию из больших корпусов текстов и проанализировать их содержание. В статье описывается порядок выполнения токенизации и лемматизации текста или корпуса текстов, приемы для выделения наиболее частотных лемм, рассматриваются разные подходы к поиску в тексте частотных словосочетаний методом нахождения n-грамм. Техники для автоматического нахождения потенциальных узкоспециальных терминов проиллюстрированы примерами из научно-технического текста. На материале художественного текста показаны методы анализа содержания, например, подсчет частотности определенных лемм в корпусе. Все приведенные примеры кода можно скопировать и запустить в облачной среде Google Colab без установки каких-либо программ на компьютер. Надеемся, что эти приемы облегчат повседневную работу лексикографов, а может быть, и побудят лингвистов к изучению языка Python.
first_indexed 2024-03-08T19:08:06Z
format Article
id doaj.art-d1bedd7a5d844453a6e5004db35700ae
institution Directory Open Access Journal
issn 2687-0215
language English
last_indexed 2024-03-08T19:08:06Z
publishDate 2022-12-01
publisher Herzen State Pedagogical University of Russia
record_format Article
series Journal of Applied Linguistics and Lexicography
spelling doaj.art-d1bedd7a5d844453a6e5004db35700ae2023-12-27T22:10:50ZengHerzen State Pedagogical University of RussiaJournal of Applied Linguistics and Lexicography2687-02152022-12-014210.33910/2687-0215-2022-4-2-107-121Как язык Python помогает лексикографамМария Игоревна Ладушина0Национальный исследовательский технологический университет Современные средства компьютерной обработки текста позволили автоматизировать многие рутинные задачи лексикографов и терминологов. Помимо привычных программных средств, применяемых для вспомогательных задач прикладной лексикографии специалистами по составлению терминологических и других словарей, в решении таких задач может помочь язык программирования Python и его библиотеки, такие как NLTK (Natural Language Toolkit), pymorphy2, mystem и др. Python — один из самых распространенных и доступных в изучении языков программирования, который все шире применяется в прикладной лингвистике. Статья продолжает цикл публикаций, знакомящих практикующих лингвистов и лексикографов с Python и его возможностями для обработки текстов на естественном языке (natural language processing). Описываются техники, которые можно использовать для предварительной обработки текстов с целью последующего извлечения из них терминологии и составления терминологических словарей, в том числе для нужд письменного перевода. В настоящее время эта задача пересекается с использованием систем машинного перевода, в ряде которых реализована функция приоритетного использования пользовательского терминологического двуязычного словаря. Кроме того, некоторые из описанных приемов помогут извлечь информацию из больших корпусов текстов и проанализировать их содержание. В статье описывается порядок выполнения токенизации и лемматизации текста или корпуса текстов, приемы для выделения наиболее частотных лемм, рассматриваются разные подходы к поиску в тексте частотных словосочетаний методом нахождения n-грамм. Техники для автоматического нахождения потенциальных узкоспециальных терминов проиллюстрированы примерами из научно-технического текста. На материале художественного текста показаны методы анализа содержания, например, подсчет частотности определенных лемм в корпусе. Все приведенные примеры кода можно скопировать и запустить в облачной среде Google Colab без установки каких-либо программ на компьютер. Надеемся, что эти приемы облегчат повседневную работу лексикографов, а может быть, и побудят лингвистов к изучению языка Python. https://www.journall.org/index.php/main/article/view/107компьютерная лингвистикалексикографиякомпьютерная лексикографияавтоматизированная лексикографиякомпьютерная терминографияавтоматическое извлечение терминологии
spellingShingle Мария Игоревна Ладушина
Как язык Python помогает лексикографам
Journal of Applied Linguistics and Lexicography
компьютерная лингвистика
лексикография
компьютерная лексикография
автоматизированная лексикография
компьютерная терминография
автоматическое извлечение терминологии
title Как язык Python помогает лексикографам
title_full Как язык Python помогает лексикографам
title_fullStr Как язык Python помогает лексикографам
title_full_unstemmed Как язык Python помогает лексикографам
title_short Как язык Python помогает лексикографам
title_sort как язык python помогает лексикографам
topic компьютерная лингвистика
лексикография
компьютерная лексикография
автоматизированная лексикография
компьютерная терминография
автоматическое извлечение терминологии
url https://www.journall.org/index.php/main/article/view/107
work_keys_str_mv AT mariâigorevnaladušina kakâzykpythonpomogaetleksikografam