Аналитический обзор методов решения проблемы малых наборов данных при создании систем автоматического распознавания речи для малоресурсных языков

В статье рассматриваются основные методы решения проблемы малых наборов обучающих данных для создания автоматических систем распознавания речи для так называемых малоресурсных языков. Рассматривается понятие малоресурсных языков и формулируется рабочая дефиниция на основании ряда работ по этой темат...

Full description

Bibliographic Details
Main Authors:	Irina Kipyatkova, Ildar Kagirov
Format:	Article
Language:	English
Published:	Russian Academy of Sciences, St. Petersburg Federal Research Center 2022-07-01
Series:	Информатика и автоматизация
Subjects:	малоресурсные языки аугментация речевых данных перенос знаний машинное обучение языковые корпуса
Online Access:	http://ia.spcras.ru/index.php/sp/article/view/15378

_version_	1797695291005075456
author	Irina Kipyatkova Ildar Kagirov
author_facet	Irina Kipyatkova Ildar Kagirov
author_sort	Irina Kipyatkova
collection	DOAJ
description	В статье рассматриваются основные методы решения проблемы малых наборов обучающих данных для создания автоматических систем распознавания речи для так называемых малоресурсных языков. Рассматривается понятие малоресурсных языков и формулируется рабочая дефиниция на основании ряда работ по этой тематике. Определены основные трудности, связанные с применением классических схем автоматического распознавания речи к материалу малоресурсных языков, и очерчен круг основных методов, использующихся для решения обозначенных проблем. В статье подробно рассматриваются методы аугментации данных, переноса знаний и сбора речевого материала. В зависимости от конкретной задачи, выделяются методы аугментации аудиоматериала и текстовых данных, переноса знаний и мультизадачного обучения. Отдельный раздел статьи посвящен существующему информационному обеспечению, базам данных и основным принципам их организации с точки зрения работы с малоресурсными языками. Делаются выводы об оправданности методов аугментации данных и переноса знаний для языков с минимальным информационным обеспечением. В случае полного отсутствия данных для конкретного языка и родительских моделей структурно схожих языков предпочтительным вариантом является сбор новой базы данных, в том числе, при помощи краудсорсинга. Многозадачные модели переноса знаний оказываются эффективными в том случае, если исследователь располагает набольшими наборами данных. Если доступны данные по языку с достаточными ресурсами, предпочтительной является работа с языковой парой. Сделанные в результате данного обзора выводы в дальнейшем предполагается применить при работе с малоресурсным карельским языком, для которого авторы статьи создают систему автоматического распознавания речи.
first_indexed	2024-03-12T03:10:17Z
format	Article
id	doaj.art-7ac0b4474d85450784b6f1201f08d23e
institution	Directory Open Access Journal
issn	2713-3192 2713-3206
language	English
last_indexed	2024-03-12T03:10:17Z
publishDate	2022-07-01
publisher	Russian Academy of Sciences, St. Petersburg Federal Research Center
record_format	Article
series	Информатика и автоматизация
spelling	doaj.art-7ac0b4474d85450784b6f1201f08d23e2023-09-03T14:27:38ZengRussian Academy of Sciences, St. Petersburg Federal Research CenterИнформатика и автоматизация2713-31922713-32062022-07-0121467870910.15622/ia.21.4.215378Аналитический обзор методов решения проблемы малых наборов данных при создании систем автоматического распознавания речи для малоресурсных языковIrina Kipyatkova0Ildar Kagirov1St. Petersburg Federal Research Center of the Russian Academy of Sciences (SPC RAS)St. Petersburg Federal Research Center of the Russian Academy of Sciences (SPC RAS)В статье рассматриваются основные методы решения проблемы малых наборов обучающих данных для создания автоматических систем распознавания речи для так называемых малоресурсных языков. Рассматривается понятие малоресурсных языков и формулируется рабочая дефиниция на основании ряда работ по этой тематике. Определены основные трудности, связанные с применением классических схем автоматического распознавания речи к материалу малоресурсных языков, и очерчен круг основных методов, использующихся для решения обозначенных проблем. В статье подробно рассматриваются методы аугментации данных, переноса знаний и сбора речевого материала. В зависимости от конкретной задачи, выделяются методы аугментации аудиоматериала и текстовых данных, переноса знаний и мультизадачного обучения. Отдельный раздел статьи посвящен существующему информационному обеспечению, базам данных и основным принципам их организации с точки зрения работы с малоресурсными языками. Делаются выводы об оправданности методов аугментации данных и переноса знаний для языков с минимальным информационным обеспечением. В случае полного отсутствия данных для конкретного языка и родительских моделей структурно схожих языков предпочтительным вариантом является сбор новой базы данных, в том числе, при помощи краудсорсинга. Многозадачные модели переноса знаний оказываются эффективными в том случае, если исследователь располагает набольшими наборами данных. Если доступны данные по языку с достаточными ресурсами, предпочтительной является работа с языковой парой. Сделанные в результате данного обзора выводы в дальнейшем предполагается применить при работе с малоресурсным карельским языком, для которого авторы статьи создают систему автоматического распознавания речи.http://ia.spcras.ru/index.php/sp/article/view/15378малоресурсные языкиаугментация речевых данныхперенос знаниймашинное обучениеязыковые корпуса
spellingShingle	Irina Kipyatkova Ildar Kagirov Аналитический обзор методов решения проблемы малых наборов данных при создании систем автоматического распознавания речи для малоресурсных языков Информатика и автоматизация малоресурсные языки аугментация речевых данных перенос знаний машинное обучение языковые корпуса
title	Аналитический обзор методов решения проблемы малых наборов данных при создании систем автоматического распознавания речи для малоресурсных языков
title_full	Аналитический обзор методов решения проблемы малых наборов данных при создании систем автоматического распознавания речи для малоресурсных языков
title_fullStr	Аналитический обзор методов решения проблемы малых наборов данных при создании систем автоматического распознавания речи для малоресурсных языков
title_full_unstemmed	Аналитический обзор методов решения проблемы малых наборов данных при создании систем автоматического распознавания речи для малоресурсных языков
title_short	Аналитический обзор методов решения проблемы малых наборов данных при создании систем автоматического распознавания речи для малоресурсных языков
title_sort	аналитический обзор методов решения проблемы малых наборов данных при создании систем автоматического распознавания речи для малоресурсных языков
topic	малоресурсные языки аугментация речевых данных перенос знаний машинное обучение языковые корпуса
url	http://ia.spcras.ru/index.php/sp/article/view/15378
work_keys_str_mv	AT irinakipyatkova analitičeskijobzormetodovrešeniâproblemymalyhnaborovdannyhprisozdaniisistemavtomatičeskogoraspoznavaniârečidlâmaloresursnyhâzykov AT ildarkagirov analitičeskijobzormetodovrešeniâproblemymalyhnaborovdannyhprisozdaniisistemavtomatičeskogoraspoznavaniârečidlâmaloresursnyhâzykov

Аналитический обзор методов решения проблемы малых наборов данных при создании систем автоматического распознавания речи для малоресурсных языков

Similar Items