Speaker localization and speech separationin two echoic mixtures / Kalbėtojo aptikimas ir šnekos išskyrimas dviejų signalų mišiniuose su aidu

We are developing two crucial improvements on the time-frequency masking approach to the blind speech separation of underdetermined mixtures when processing anechoic and echoic mixtures. First, the proposed method copes with the usually large amount of delay estimation error that appears in a low fr...

Full description

Bibliographic Details
Main Authors:	Włodzimierz Kasprzak, Ning Ding, Nozomu Hamada
Format:	Article
Language:	English
Published:	Vilnius Gediminas Technical University 2011-08-01
Series:	Mokslas: Lietuvos Ateitis
Subjects:	blind source separation histogram clustering spectrogram analysis speech reconstruction time-frequency masking
Online Access:	https://www.jbem.vgtu.lt/index.php/MLA/article/view/4995

_version_	1818885900252217344
author	Włodzimierz Kasprzak Ning Ding Nozomu Hamada
author_facet	Włodzimierz Kasprzak Ning Ding Nozomu Hamada
author_sort	Włodzimierz Kasprzak
collection	DOAJ
description	We are developing two crucial improvements on the time-frequency masking approach to the blind speech separation of underdetermined mixtures when processing anechoic and echoic mixtures. First, the proposed method copes with the usually large amount of delay estimation error that appears in a low frequency band. This step generates a restrictive mask for phase delays on the basis of local and global energy distribution analysis. This mask allows the selected cells to contribute to the orientation histogram. Second, the strong WDO assumption (disjoint orthogonal frequency domain) is relaxed by allowing some frequency bins to be shared by both sources. By detecting fundamental frequencies of speakers at instantaneous time points, mask creation is supported by exploring their harmonic frequencies. The proposed method is proved to be effective and reliable in conducting experiments with both simulated and real-life mixtures. Santrauka Straipsnyje nagrinėjamas aklasis signalų šaltinių išskyrimas apdorojant signalų mišinius su aido efektu ar be jo. Detaliai pristatomi matematiškai bei eksperimentų su dirbtiniais ir realiais šnekos duomenimis rezultatais pagrindžiami du esminiai šio metodo patobulinimai. Pirmasis patobulinimas leidžia sumažinti vėlinimo žemuose dažniuose įtaką šnekos signalo išskyrimo klaidai. Antrasis patobulinimas, paremtas kalbėtojo pagrindinio dažnio sekimu, leidžia algoritmui išnaudoti tas pačias dažnių sritis skirtingiems signalų šaltiniams išskirti. Raktiniai žodžiai: šaltinių aklasis atskyrimas; histogramos klasterizavimas; spektrogramos analizė; kalbos rekonstravimas; maskavimas laiko ir dažnių skalėje
first_indexed	2024-12-19T16:12:47Z
format	Article
id	doaj.art-bdd363a24e5141dcbda01c220ed2ecb4
institution	Directory Open Access Journal
issn	2029-2341 2029-2252
language	English
last_indexed	2024-12-19T16:12:47Z
publishDate	2011-08-01
publisher	Vilnius Gediminas Technical University
record_format	Article
series	Mokslas: Lietuvos Ateitis
spelling	doaj.art-bdd363a24e5141dcbda01c220ed2ecb42022-12-21T20:14:42ZengVilnius Gediminas Technical UniversityMokslas: Lietuvos Ateitis2029-23412029-22522011-08-013110.3846/mla.2011.009310Speaker localization and speech separationin two echoic mixtures / Kalbėtojo aptikimas ir šnekos išskyrimas dviejų signalų mišiniuose su aiduWłodzimierz Kasprzak0Ning Ding1Nozomu Hamada2Warsaw University of Technology, PolandKeio University, JapanKeio University, JapanWe are developing two crucial improvements on the time-frequency masking approach to the blind speech separation of underdetermined mixtures when processing anechoic and echoic mixtures. First, the proposed method copes with the usually large amount of delay estimation error that appears in a low frequency band. This step generates a restrictive mask for phase delays on the basis of local and global energy distribution analysis. This mask allows the selected cells to contribute to the orientation histogram. Second, the strong WDO assumption (disjoint orthogonal frequency domain) is relaxed by allowing some frequency bins to be shared by both sources. By detecting fundamental frequencies of speakers at instantaneous time points, mask creation is supported by exploring their harmonic frequencies. The proposed method is proved to be effective and reliable in conducting experiments with both simulated and real-life mixtures. Santrauka Straipsnyje nagrinėjamas aklasis signalų šaltinių išskyrimas apdorojant signalų mišinius su aido efektu ar be jo. Detaliai pristatomi matematiškai bei eksperimentų su dirbtiniais ir realiais šnekos duomenimis rezultatais pagrindžiami du esminiai šio metodo patobulinimai. Pirmasis patobulinimas leidžia sumažinti vėlinimo žemuose dažniuose įtaką šnekos signalo išskyrimo klaidai. Antrasis patobulinimas, paremtas kalbėtojo pagrindinio dažnio sekimu, leidžia algoritmui išnaudoti tas pačias dažnių sritis skirtingiems signalų šaltiniams išskirti. Raktiniai žodžiai: šaltinių aklasis atskyrimas; histogramos klasterizavimas; spektrogramos analizė; kalbos rekonstravimas; maskavimas laiko ir dažnių skalėjehttps://www.jbem.vgtu.lt/index.php/MLA/article/view/4995blind source separationhistogram clusteringspectrogram analysisspeech reconstructiontime-frequency masking
spellingShingle	Włodzimierz Kasprzak Ning Ding Nozomu Hamada Speaker localization and speech separationin two echoic mixtures / Kalbėtojo aptikimas ir šnekos išskyrimas dviejų signalų mišiniuose su aidu Mokslas: Lietuvos Ateitis blind source separation histogram clustering spectrogram analysis speech reconstruction time-frequency masking
title	Speaker localization and speech separationin two echoic mixtures / Kalbėtojo aptikimas ir šnekos išskyrimas dviejų signalų mišiniuose su aidu
title_full	Speaker localization and speech separationin two echoic mixtures / Kalbėtojo aptikimas ir šnekos išskyrimas dviejų signalų mišiniuose su aidu
title_fullStr	Speaker localization and speech separationin two echoic mixtures / Kalbėtojo aptikimas ir šnekos išskyrimas dviejų signalų mišiniuose su aidu
title_full_unstemmed	Speaker localization and speech separationin two echoic mixtures / Kalbėtojo aptikimas ir šnekos išskyrimas dviejų signalų mišiniuose su aidu
title_short	Speaker localization and speech separationin two echoic mixtures / Kalbėtojo aptikimas ir šnekos išskyrimas dviejų signalų mišiniuose su aidu
title_sort	speaker localization and speech separationin two echoic mixtures kalbetojo aptikimas ir snekos isskyrimas dvieju signalu misiniuose su aidu
topic	blind source separation histogram clustering spectrogram analysis speech reconstruction time-frequency masking
url	https://www.jbem.vgtu.lt/index.php/MLA/article/view/4995
work_keys_str_mv	AT włodzimierzkasprzak speakerlocalizationandspeechseparationintwoechoicmixtureskalbetojoaptikimasirsnekosisskyrimasdviejusignalumisiniuosesuaidu AT ningding speakerlocalizationandspeechseparationintwoechoicmixtureskalbetojoaptikimasirsnekosisskyrimasdviejusignalumisiniuosesuaidu AT nozomuhamada speakerlocalizationandspeechseparationintwoechoicmixtureskalbetojoaptikimasirsnekosisskyrimasdviejusignalumisiniuosesuaidu

Speaker localization and speech separationin two echoic mixtures / Kalbėtojo aptikimas ir šnekos išskyrimas dviejų signalų mišiniuose su aidu

Similar Items