Automatic Segmentation of Spontaneous Speech / Segmentação automática da fala espontânea

Abstract: Most of the time, analyzing the phonetic entities of speech requires the alignment of the speech recording with its phonetic transcription. However, studies on automatic segmentation have predominantly been carried out on read speech or on prepared speech while spontaneous speech refers to...

Full description

Bibliographic Details
Main Authors:	Brigitte Bigi, Christine Meunier
Format:	Article
Language:	English
Published:	Universidade Federal de Minas Gerais 2018-10-01
Series:	Revista de Estudos da Linguagem
Subjects:	spontaneous speech forced-alignment paralinguistic events.
Online Access:	http://www.periodicos.letras.ufmg.br/index.php/relin/article/view/13026

_version_	1811201820076277760
author	Brigitte Bigi Christine Meunier
author_facet	Brigitte Bigi Christine Meunier
author_sort	Brigitte Bigi
collection	DOAJ
description	Abstract: Most of the time, analyzing the phonetic entities of speech requires the alignment of the speech recording with its phonetic transcription. However, studies on automatic segmentation have predominantly been carried out on read speech or on prepared speech while spontaneous speech refers to a more informal activity, without any preparation. As a consequence, in spontaneous speech numerous phenomena occur such as hesitations, repetitions, feedback, backchannels, non-standard elisions, reduction phenomena, truncated words, and more generally, non-standard pronunciations. Events like laughter, noises and filled pauses are also very frequent in spontaneous speech. This paper aims to compare read speech and spontaneous speech in order to evaluate the impact of speech style on a speech segmentation task. This paper describes the solution implemented into the SPPAS software tool to automatically perform speech segmentation of read and spontaneous speech. This solution consists mainly in two sorts of things: supporting an Enriched Orthographic Transcription for an optimization of the grapheme-to-phoneme conversion and allowing the forced-alignment of the following events: filled pauses, laughter and noises. Actually, these events represent less than 1 % of the tokens in read speech and about 6 % in spontaneous speech. They occur in a maximum of 3 % of the Inter-Pausal Units of a read speech corpus and from 20 % up to 36 % of the Inter-Pausal Units in the spontaneous speech corpora. The UBPA measure – Unit Boundary Positioning Accuracy, of the proposed forced-alignment system is 96.09 % accurate as regards read speech and 96.48 % for spontaneous speech with a delta range of 40 ms. Keywords: spontaneous speech; forced-alignment; paralinguistic events. Resumo: Na maior parte dos casos, a análise de entidades fonéticas da fala exige o alinhamento da gravação da fala com sua transcrição fonética. Entretanto, os estudos sobre segmentação automática têm sido predominantemente desenvolvidos com amostras de fala lida ou fala preparada, uma vez que a fala espontânea refere-se a uma atividade mais informal, sem qualquer preparação. Como consequência, na fala espontânea numerosos fenômenos ocorrem, tais como: hesitações, repetições, feedback, backchannels, elisões não-padrão, fenômenos de redução, palavras truncadas, e mais comumente, pronúncias não-padrão. Eventos como o riso, ruídos e pausas preenchidas também são muito comuns na fala espontânea. Este artigo objetiva comparar a fala lida e a fala espontânea a fim de avaliar o impacto do estilo de fala numa tarefa de segmentação da fala. O artigo descreve a solução implementada no programa SPPAS para a segmentação automática da fala lida e da fala espontânea. Essa solução consiste de principalmente dois aspectos: suporte para uma Transcrição Ortográfica Enriquecida para a otimização da conversão grafema-para-fonema e permissão para o alinhamento forçado (forced-alignment) dos seguintes eventos: pausas preenchidas, riso e ruídos. Tais eventos representam menos de 1% das ocorrências na fala lida e cerca de 6% na fala espontânea. Eles ocorrem com um máximo de 3% nas Unidades Entre-Pausas de um corpus de fala lida e de 20% a 36% nas Pausas Entre-Unidades de corpora de fala espontânea. As medidas APFU – Acurácia no Posicionamento de Fronteiras de Unidade, do sistema de alinhamento forçado (forced-alignment system) proposto são de 96% de acerto no que diz respeito à fala lida e 96,48% para a fala espontânea, com uma variação delta de 4 ms. Palavras-chave: fala espontânea; sistema de alinhamento forçado (forced alignment system); eventos paralinguísticos
first_indexed	2024-04-12T02:28:22Z
format	Article
id	doaj.art-e9041f6382134cf7a7f46ac5cb2340ca
institution	Directory Open Access Journal
issn	0104-0588 2237-2083
language	English
last_indexed	2024-04-12T02:28:22Z
publishDate	2018-10-01
publisher	Universidade Federal de Minas Gerais
record_format	Article
series	Revista de Estudos da Linguagem
spelling	doaj.art-e9041f6382134cf7a7f46ac5cb2340ca2022-12-22T03:51:55ZengUniversidade Federal de Minas GeraisRevista de Estudos da Linguagem0104-05882237-20832018-10-012641489153010.17851/2237-2083.26.4.1489-15309855Automatic Segmentation of Spontaneous Speech / Segmentação automática da fala espontâneaBrigitte Bigi0Christine Meunier1Laboratoire Parole et Langage, CNRS, Aix-Marseille Univ.Laboratoire Parole et Langage, CNRS, Aix-Marseille Univ.Abstract: Most of the time, analyzing the phonetic entities of speech requires the alignment of the speech recording with its phonetic transcription. However, studies on automatic segmentation have predominantly been carried out on read speech or on prepared speech while spontaneous speech refers to a more informal activity, without any preparation. As a consequence, in spontaneous speech numerous phenomena occur such as hesitations, repetitions, feedback, backchannels, non-standard elisions, reduction phenomena, truncated words, and more generally, non-standard pronunciations. Events like laughter, noises and filled pauses are also very frequent in spontaneous speech. This paper aims to compare read speech and spontaneous speech in order to evaluate the impact of speech style on a speech segmentation task. This paper describes the solution implemented into the SPPAS software tool to automatically perform speech segmentation of read and spontaneous speech. This solution consists mainly in two sorts of things: supporting an Enriched Orthographic Transcription for an optimization of the grapheme-to-phoneme conversion and allowing the forced-alignment of the following events: filled pauses, laughter and noises. Actually, these events represent less than 1 % of the tokens in read speech and about 6 % in spontaneous speech. They occur in a maximum of 3 % of the Inter-Pausal Units of a read speech corpus and from 20 % up to 36 % of the Inter-Pausal Units in the spontaneous speech corpora. The UBPA measure – Unit Boundary Positioning Accuracy, of the proposed forced-alignment system is 96.09 % accurate as regards read speech and 96.48 % for spontaneous speech with a delta range of 40 ms. Keywords: spontaneous speech; forced-alignment; paralinguistic events. Resumo: Na maior parte dos casos, a análise de entidades fonéticas da fala exige o alinhamento da gravação da fala com sua transcrição fonética. Entretanto, os estudos sobre segmentação automática têm sido predominantemente desenvolvidos com amostras de fala lida ou fala preparada, uma vez que a fala espontânea refere-se a uma atividade mais informal, sem qualquer preparação. Como consequência, na fala espontânea numerosos fenômenos ocorrem, tais como: hesitações, repetições, feedback, backchannels, elisões não-padrão, fenômenos de redução, palavras truncadas, e mais comumente, pronúncias não-padrão. Eventos como o riso, ruídos e pausas preenchidas também são muito comuns na fala espontânea. Este artigo objetiva comparar a fala lida e a fala espontânea a fim de avaliar o impacto do estilo de fala numa tarefa de segmentação da fala. O artigo descreve a solução implementada no programa SPPAS para a segmentação automática da fala lida e da fala espontânea. Essa solução consiste de principalmente dois aspectos: suporte para uma Transcrição Ortográfica Enriquecida para a otimização da conversão grafema-para-fonema e permissão para o alinhamento forçado (forced-alignment) dos seguintes eventos: pausas preenchidas, riso e ruídos. Tais eventos representam menos de 1% das ocorrências na fala lida e cerca de 6% na fala espontânea. Eles ocorrem com um máximo de 3% nas Unidades Entre-Pausas de um corpus de fala lida e de 20% a 36% nas Pausas Entre-Unidades de corpora de fala espontânea. As medidas APFU – Acurácia no Posicionamento de Fronteiras de Unidade, do sistema de alinhamento forçado (forced-alignment system) proposto são de 96% de acerto no que diz respeito à fala lida e 96,48% para a fala espontânea, com uma variação delta de 4 ms. Palavras-chave: fala espontânea; sistema de alinhamento forçado (forced alignment system); eventos paralinguísticoshttp://www.periodicos.letras.ufmg.br/index.php/relin/article/view/13026spontaneous speechforced-alignmentparalinguistic events.
spellingShingle	Brigitte Bigi Christine Meunier Automatic Segmentation of Spontaneous Speech / Segmentação automática da fala espontânea Revista de Estudos da Linguagem spontaneous speech forced-alignment paralinguistic events.
title	Automatic Segmentation of Spontaneous Speech / Segmentação automática da fala espontânea
title_full	Automatic Segmentation of Spontaneous Speech / Segmentação automática da fala espontânea
title_fullStr	Automatic Segmentation of Spontaneous Speech / Segmentação automática da fala espontânea
title_full_unstemmed	Automatic Segmentation of Spontaneous Speech / Segmentação automática da fala espontânea
title_short	Automatic Segmentation of Spontaneous Speech / Segmentação automática da fala espontânea
title_sort	automatic segmentation of spontaneous speech segmentacao automatica da fala espontanea
topic	spontaneous speech forced-alignment paralinguistic events.
url	http://www.periodicos.letras.ufmg.br/index.php/relin/article/view/13026
work_keys_str_mv	AT brigittebigi automaticsegmentationofspontaneousspeechsegmentacaoautomaticadafalaespontanea AT christinemeunier automaticsegmentationofspontaneousspeechsegmentacaoautomaticadafalaespontanea

Automatic Segmentation of Spontaneous Speech / Segmentação automática da fala espontânea

Similar Items