Аналитический обзор методов решения проблемы малых наборов данных при создании систем автоматического распознавания речи для малоресурсных языков
В статье рассматриваются основные методы решения проблемы малых наборов обучающих данных для создания автоматических систем распознавания речи для так называемых малоресурсных языков. Рассматривается понятие малоресурсных языков и формулируется рабочая дефиниция на основании ряда работ по этой темат...
Main Authors: | , |
---|---|
Format: | Article |
Language: | English |
Published: |
Russian Academy of Sciences, St. Petersburg Federal Research Center
2022-07-01
|
Series: | Информатика и автоматизация |
Subjects: | |
Online Access: | http://ia.spcras.ru/index.php/sp/article/view/15378 |
_version_ | 1797695291005075456 |
---|---|
author | Irina Kipyatkova Ildar Kagirov |
author_facet | Irina Kipyatkova Ildar Kagirov |
author_sort | Irina Kipyatkova |
collection | DOAJ |
description | В статье рассматриваются основные методы решения проблемы малых наборов обучающих данных для создания автоматических систем распознавания речи для так называемых малоресурсных языков. Рассматривается понятие малоресурсных языков и формулируется рабочая дефиниция на основании ряда работ по этой тематике. Определены основные трудности, связанные с применением классических схем автоматического распознавания речи к материалу малоресурсных языков, и очерчен круг основных методов, использующихся для решения обозначенных проблем. В статье подробно рассматриваются методы аугментации данных, переноса знаний и сбора речевого материала. В зависимости от конкретной задачи, выделяются методы аугментации аудиоматериала и текстовых данных, переноса знаний и мультизадачного обучения. Отдельный раздел статьи посвящен существующему информационному обеспечению, базам данных и основным принципам их организации с точки зрения работы с малоресурсными языками. Делаются выводы об оправданности методов аугментации данных и переноса знаний для языков с минимальным информационным обеспечением. В случае полного отсутствия данных для конкретного языка и родительских моделей структурно схожих языков предпочтительным вариантом является сбор новой базы данных, в том числе, при помощи краудсорсинга. Многозадачные модели переноса знаний оказываются эффективными в том случае, если исследователь располагает набольшими наборами данных. Если доступны данные по языку с достаточными ресурсами, предпочтительной является работа с языковой парой. Сделанные в результате данного обзора выводы в дальнейшем предполагается применить при работе с малоресурсным карельским языком, для которого авторы статьи создают систему автоматического распознавания речи. |
first_indexed | 2024-03-12T03:10:17Z |
format | Article |
id | doaj.art-7ac0b4474d85450784b6f1201f08d23e |
institution | Directory Open Access Journal |
issn | 2713-3192 2713-3206 |
language | English |
last_indexed | 2024-03-12T03:10:17Z |
publishDate | 2022-07-01 |
publisher | Russian Academy of Sciences, St. Petersburg Federal Research Center |
record_format | Article |
series | Информатика и автоматизация |
spelling | doaj.art-7ac0b4474d85450784b6f1201f08d23e2023-09-03T14:27:38ZengRussian Academy of Sciences, St. Petersburg Federal Research CenterИнформатика и автоматизация2713-31922713-32062022-07-0121467870910.15622/ia.21.4.215378Аналитический обзор методов решения проблемы малых наборов данных при создании систем автоматического распознавания речи для малоресурсных языковIrina Kipyatkova0Ildar Kagirov1St. Petersburg Federal Research Center of the Russian Academy of Sciences (SPC RAS)St. Petersburg Federal Research Center of the Russian Academy of Sciences (SPC RAS)В статье рассматриваются основные методы решения проблемы малых наборов обучающих данных для создания автоматических систем распознавания речи для так называемых малоресурсных языков. Рассматривается понятие малоресурсных языков и формулируется рабочая дефиниция на основании ряда работ по этой тематике. Определены основные трудности, связанные с применением классических схем автоматического распознавания речи к материалу малоресурсных языков, и очерчен круг основных методов, использующихся для решения обозначенных проблем. В статье подробно рассматриваются методы аугментации данных, переноса знаний и сбора речевого материала. В зависимости от конкретной задачи, выделяются методы аугментации аудиоматериала и текстовых данных, переноса знаний и мультизадачного обучения. Отдельный раздел статьи посвящен существующему информационному обеспечению, базам данных и основным принципам их организации с точки зрения работы с малоресурсными языками. Делаются выводы об оправданности методов аугментации данных и переноса знаний для языков с минимальным информационным обеспечением. В случае полного отсутствия данных для конкретного языка и родительских моделей структурно схожих языков предпочтительным вариантом является сбор новой базы данных, в том числе, при помощи краудсорсинга. Многозадачные модели переноса знаний оказываются эффективными в том случае, если исследователь располагает набольшими наборами данных. Если доступны данные по языку с достаточными ресурсами, предпочтительной является работа с языковой парой. Сделанные в результате данного обзора выводы в дальнейшем предполагается применить при работе с малоресурсным карельским языком, для которого авторы статьи создают систему автоматического распознавания речи.http://ia.spcras.ru/index.php/sp/article/view/15378малоресурсные языкиаугментация речевых данныхперенос знаниймашинное обучениеязыковые корпуса |
spellingShingle | Irina Kipyatkova Ildar Kagirov Аналитический обзор методов решения проблемы малых наборов данных при создании систем автоматического распознавания речи для малоресурсных языков Информатика и автоматизация малоресурсные языки аугментация речевых данных перенос знаний машинное обучение языковые корпуса |
title | Аналитический обзор методов решения проблемы малых наборов данных при создании систем автоматического распознавания речи для малоресурсных языков |
title_full | Аналитический обзор методов решения проблемы малых наборов данных при создании систем автоматического распознавания речи для малоресурсных языков |
title_fullStr | Аналитический обзор методов решения проблемы малых наборов данных при создании систем автоматического распознавания речи для малоресурсных языков |
title_full_unstemmed | Аналитический обзор методов решения проблемы малых наборов данных при создании систем автоматического распознавания речи для малоресурсных языков |
title_short | Аналитический обзор методов решения проблемы малых наборов данных при создании систем автоматического распознавания речи для малоресурсных языков |
title_sort | аналитический обзор методов решения проблемы малых наборов данных при создании систем автоматического распознавания речи для малоресурсных языков |
topic | малоресурсные языки аугментация речевых данных перенос знаний машинное обучение языковые корпуса |
url | http://ia.spcras.ru/index.php/sp/article/view/15378 |
work_keys_str_mv | AT irinakipyatkova analitičeskijobzormetodovrešeniâproblemymalyhnaborovdannyhprisozdaniisistemavtomatičeskogoraspoznavaniârečidlâmaloresursnyhâzykov AT ildarkagirov analitičeskijobzormetodovrešeniâproblemymalyhnaborovdannyhprisozdaniisistemavtomatičeskogoraspoznavaniârečidlâmaloresursnyhâzykov |