Аналитический обзор методов решения проблемы малых наборов данных при создании систем автоматического распознавания речи для малоресурсных языков

В статье рассматриваются основные методы решения проблемы малых наборов обучающих данных для создания автоматических систем распознавания речи для так называемых малоресурсных языков. Рассматривается понятие малоресурсных языков и формулируется рабочая дефиниция на основании ряда работ по этой темат...

Full description

Bibliographic Details
Main Authors: Irina Kipyatkova, Ildar Kagirov
Format: Article
Language:English
Published: Russian Academy of Sciences, St. Petersburg Federal Research Center 2022-07-01
Series:Информатика и автоматизация
Subjects:
Online Access:http://ia.spcras.ru/index.php/sp/article/view/15378
_version_ 1797695291005075456
author Irina Kipyatkova
Ildar Kagirov
author_facet Irina Kipyatkova
Ildar Kagirov
author_sort Irina Kipyatkova
collection DOAJ
description В статье рассматриваются основные методы решения проблемы малых наборов обучающих данных для создания автоматических систем распознавания речи для так называемых малоресурсных языков. Рассматривается понятие малоресурсных языков и формулируется рабочая дефиниция на основании ряда работ по этой тематике. Определены основные трудности, связанные с применением классических схем автоматического распознавания речи к материалу малоресурсных языков, и очерчен круг основных методов, использующихся для решения обозначенных проблем. В статье подробно рассматриваются методы аугментации данных, переноса знаний и сбора речевого материала. В зависимости от конкретной задачи, выделяются методы аугментации аудиоматериала и текстовых данных, переноса знаний и мультизадачного обучения. Отдельный раздел статьи посвящен существующему информационному обеспечению, базам данных и основным принципам их организации с точки зрения работы с малоресурсными языками. Делаются выводы об оправданности методов аугментации данных и переноса знаний для языков с минимальным информационным обеспечением. В случае полного отсутствия данных для конкретного языка и родительских моделей структурно схожих языков предпочтительным вариантом является сбор новой базы данных, в том числе, при помощи краудсорсинга. Многозадачные модели переноса знаний оказываются эффективными в том случае, если исследователь располагает набольшими наборами данных. Если доступны данные по языку с достаточными ресурсами, предпочтительной является работа с языковой парой. Сделанные в результате данного обзора выводы в дальнейшем предполагается применить при работе с малоресурсным карельским языком, для которого авторы статьи создают систему автоматического распознавания речи.
first_indexed 2024-03-12T03:10:17Z
format Article
id doaj.art-7ac0b4474d85450784b6f1201f08d23e
institution Directory Open Access Journal
issn 2713-3192
2713-3206
language English
last_indexed 2024-03-12T03:10:17Z
publishDate 2022-07-01
publisher Russian Academy of Sciences, St. Petersburg Federal Research Center
record_format Article
series Информатика и автоматизация
spelling doaj.art-7ac0b4474d85450784b6f1201f08d23e2023-09-03T14:27:38ZengRussian Academy of Sciences, St. Petersburg Federal Research CenterИнформатика и автоматизация2713-31922713-32062022-07-0121467870910.15622/ia.21.4.215378Аналитический обзор методов решения проблемы малых наборов данных при создании систем автоматического распознавания речи для малоресурсных языковIrina Kipyatkova0Ildar Kagirov1St. Petersburg Federal Research Center of the Russian Academy of Sciences (SPC RAS)St. Petersburg Federal Research Center of the Russian Academy of Sciences (SPC RAS)В статье рассматриваются основные методы решения проблемы малых наборов обучающих данных для создания автоматических систем распознавания речи для так называемых малоресурсных языков. Рассматривается понятие малоресурсных языков и формулируется рабочая дефиниция на основании ряда работ по этой тематике. Определены основные трудности, связанные с применением классических схем автоматического распознавания речи к материалу малоресурсных языков, и очерчен круг основных методов, использующихся для решения обозначенных проблем. В статье подробно рассматриваются методы аугментации данных, переноса знаний и сбора речевого материала. В зависимости от конкретной задачи, выделяются методы аугментации аудиоматериала и текстовых данных, переноса знаний и мультизадачного обучения. Отдельный раздел статьи посвящен существующему информационному обеспечению, базам данных и основным принципам их организации с точки зрения работы с малоресурсными языками. Делаются выводы об оправданности методов аугментации данных и переноса знаний для языков с минимальным информационным обеспечением. В случае полного отсутствия данных для конкретного языка и родительских моделей структурно схожих языков предпочтительным вариантом является сбор новой базы данных, в том числе, при помощи краудсорсинга. Многозадачные модели переноса знаний оказываются эффективными в том случае, если исследователь располагает набольшими наборами данных. Если доступны данные по языку с достаточными ресурсами, предпочтительной является работа с языковой парой. Сделанные в результате данного обзора выводы в дальнейшем предполагается применить при работе с малоресурсным карельским языком, для которого авторы статьи создают систему автоматического распознавания речи.http://ia.spcras.ru/index.php/sp/article/view/15378малоресурсные языкиаугментация речевых данныхперенос знаниймашинное обучениеязыковые корпуса
spellingShingle Irina Kipyatkova
Ildar Kagirov
Аналитический обзор методов решения проблемы малых наборов данных при создании систем автоматического распознавания речи для малоресурсных языков
Информатика и автоматизация
малоресурсные языки
аугментация речевых данных
перенос знаний
машинное обучение
языковые корпуса
title Аналитический обзор методов решения проблемы малых наборов данных при создании систем автоматического распознавания речи для малоресурсных языков
title_full Аналитический обзор методов решения проблемы малых наборов данных при создании систем автоматического распознавания речи для малоресурсных языков
title_fullStr Аналитический обзор методов решения проблемы малых наборов данных при создании систем автоматического распознавания речи для малоресурсных языков
title_full_unstemmed Аналитический обзор методов решения проблемы малых наборов данных при создании систем автоматического распознавания речи для малоресурсных языков
title_short Аналитический обзор методов решения проблемы малых наборов данных при создании систем автоматического распознавания речи для малоресурсных языков
title_sort аналитический обзор методов решения проблемы малых наборов данных при создании систем автоматического распознавания речи для малоресурсных языков
topic малоресурсные языки
аугментация речевых данных
перенос знаний
машинное обучение
языковые корпуса
url http://ia.spcras.ru/index.php/sp/article/view/15378
work_keys_str_mv AT irinakipyatkova analitičeskijobzormetodovrešeniâproblemymalyhnaborovdannyhprisozdaniisistemavtomatičeskogoraspoznavaniârečidlâmaloresursnyhâzykov
AT ildarkagirov analitičeskijobzormetodovrešeniâproblemymalyhnaborovdannyhprisozdaniisistemavtomatičeskogoraspoznavaniârečidlâmaloresursnyhâzykov