Как язык Python помогает лексикографам
Современные средства компьютерной обработки текста позволили автоматизировать многие рутинные задачи лексикографов и терминологов. Помимо привычных программных средств, применяемых для вспомогательных задач прикладной лексикографии специалистами по составлению терминологических и других словарей, в...
Main Author: | |
---|---|
Format: | Article |
Language: | English |
Published: |
Herzen State Pedagogical University of Russia
2022-12-01
|
Series: | Journal of Applied Linguistics and Lexicography |
Subjects: | |
Online Access: | https://www.journall.org/index.php/main/article/view/107 |
_version_ | 1827397418966056960 |
---|---|
author | Мария Игоревна Ладушина |
author_facet | Мария Игоревна Ладушина |
author_sort | Мария Игоревна Ладушина |
collection | DOAJ |
description |
Современные средства компьютерной обработки текста позволили автоматизировать многие рутинные задачи лексикографов и терминологов. Помимо привычных программных средств, применяемых для вспомогательных задач прикладной лексикографии специалистами по составлению терминологических и других словарей, в решении таких задач может помочь язык программирования Python и его библиотеки, такие как NLTK (Natural Language Toolkit), pymorphy2, mystem и др.
Python — один из самых распространенных и доступных в изучении языков программирования, который все шире применяется в прикладной лингвистике. Статья продолжает цикл публикаций, знакомящих практикующих лингвистов и лексикографов с Python и его возможностями для обработки текстов на естественном языке (natural language processing). Описываются техники, которые можно использовать для предварительной обработки текстов с целью последующего извлечения из них терминологии и составления терминологических словарей, в том числе для нужд письменного перевода. В настоящее время эта задача пересекается с использованием систем машинного перевода, в ряде которых реализована функция приоритетного использования пользовательского терминологического двуязычного словаря. Кроме того, некоторые из описанных приемов помогут извлечь информацию из больших корпусов текстов и проанализировать их содержание.
В статье описывается порядок выполнения токенизации и лемматизации текста или корпуса текстов, приемы для выделения наиболее частотных лемм, рассматриваются разные подходы к поиску в тексте частотных словосочетаний методом нахождения n-грамм. Техники для автоматического нахождения потенциальных узкоспециальных терминов проиллюстрированы примерами из научно-технического текста. На материале художественного текста показаны методы анализа содержания, например, подсчет частотности определенных лемм в корпусе. Все приведенные примеры кода можно скопировать и запустить в облачной среде Google Colab без установки каких-либо программ на компьютер. Надеемся, что эти приемы облегчат повседневную работу лексикографов, а может быть, и побудят лингвистов к изучению языка Python.
|
first_indexed | 2024-03-08T19:08:06Z |
format | Article |
id | doaj.art-d1bedd7a5d844453a6e5004db35700ae |
institution | Directory Open Access Journal |
issn | 2687-0215 |
language | English |
last_indexed | 2024-03-08T19:08:06Z |
publishDate | 2022-12-01 |
publisher | Herzen State Pedagogical University of Russia |
record_format | Article |
series | Journal of Applied Linguistics and Lexicography |
spelling | doaj.art-d1bedd7a5d844453a6e5004db35700ae2023-12-27T22:10:50ZengHerzen State Pedagogical University of RussiaJournal of Applied Linguistics and Lexicography2687-02152022-12-014210.33910/2687-0215-2022-4-2-107-121Как язык Python помогает лексикографамМария Игоревна Ладушина0Национальный исследовательский технологический университет Современные средства компьютерной обработки текста позволили автоматизировать многие рутинные задачи лексикографов и терминологов. Помимо привычных программных средств, применяемых для вспомогательных задач прикладной лексикографии специалистами по составлению терминологических и других словарей, в решении таких задач может помочь язык программирования Python и его библиотеки, такие как NLTK (Natural Language Toolkit), pymorphy2, mystem и др. Python — один из самых распространенных и доступных в изучении языков программирования, который все шире применяется в прикладной лингвистике. Статья продолжает цикл публикаций, знакомящих практикующих лингвистов и лексикографов с Python и его возможностями для обработки текстов на естественном языке (natural language processing). Описываются техники, которые можно использовать для предварительной обработки текстов с целью последующего извлечения из них терминологии и составления терминологических словарей, в том числе для нужд письменного перевода. В настоящее время эта задача пересекается с использованием систем машинного перевода, в ряде которых реализована функция приоритетного использования пользовательского терминологического двуязычного словаря. Кроме того, некоторые из описанных приемов помогут извлечь информацию из больших корпусов текстов и проанализировать их содержание. В статье описывается порядок выполнения токенизации и лемматизации текста или корпуса текстов, приемы для выделения наиболее частотных лемм, рассматриваются разные подходы к поиску в тексте частотных словосочетаний методом нахождения n-грамм. Техники для автоматического нахождения потенциальных узкоспециальных терминов проиллюстрированы примерами из научно-технического текста. На материале художественного текста показаны методы анализа содержания, например, подсчет частотности определенных лемм в корпусе. Все приведенные примеры кода можно скопировать и запустить в облачной среде Google Colab без установки каких-либо программ на компьютер. Надеемся, что эти приемы облегчат повседневную работу лексикографов, а может быть, и побудят лингвистов к изучению языка Python. https://www.journall.org/index.php/main/article/view/107компьютерная лингвистикалексикографиякомпьютерная лексикографияавтоматизированная лексикографиякомпьютерная терминографияавтоматическое извлечение терминологии |
spellingShingle | Мария Игоревна Ладушина Как язык Python помогает лексикографам Journal of Applied Linguistics and Lexicography компьютерная лингвистика лексикография компьютерная лексикография автоматизированная лексикография компьютерная терминография автоматическое извлечение терминологии |
title | Как язык Python помогает лексикографам |
title_full | Как язык Python помогает лексикографам |
title_fullStr | Как язык Python помогает лексикографам |
title_full_unstemmed | Как язык Python помогает лексикографам |
title_short | Как язык Python помогает лексикографам |
title_sort | как язык python помогает лексикографам |
topic | компьютерная лингвистика лексикография компьютерная лексикография автоматизированная лексикография компьютерная терминография автоматическое извлечение терминологии |
url | https://www.journall.org/index.php/main/article/view/107 |
work_keys_str_mv | AT mariâigorevnaladušina kakâzykpythonpomogaetleksikografam |