Task-specific speech enhancement and data augmentation for improved multimodal emotion recognition under noisy conditions

Task-specific speech enhancement and data augmentation for improved multimodal emotion recognition under noisy conditions

Automatic emotion recognition (AER) systems are burgeoning and systems based on either audio, video, text, or physiological signals have emerged. Multimodal systems, in turn, have shown to improve overall AER accuracy and to also provide some robustness against artifacts and missing data. Collecting...

وصف كامل

التفاصيل البيبلوغرافية
المؤلفون الرئيسيون:	Shruti Kshirsagar, Anurag Pendyala, Tiago H. Falk
التنسيق:	مقال
اللغة:	English
منشور في:	Frontiers Media S.A. 2023-03-01
سلاسل:	Frontiers in Computer Science
الموضوعات:	multimodal emotion recognition BERT based text features modulation spectrum features data augmentation speech enhancement context-awareness
الوصول للمادة أونلاين:	https://www.frontiersin.org/articles/10.3389/fcomp.2023.1039261/full

مواد مشابهة

Cross-Language Speech Emotion Recognition Using Bag-of-Word Representations, Domain Adaptation, and Data Augmentation
حسب: Shruti Kshirsagar, وآخرون
منشور في: (2022-08-01)

Multimodal Emotion Recognition Fusion Analysis Adapting BERT With Heterogeneous Feature Unification
حسب: Sanghyun Lee, وآخرون
منشور في: (2021-01-01)

Multimodal Emotion Detection via Attention-Based Fusion of Extracted Facial and Speech Features
حسب: Dilnoza Mamieva, وآخرون
منشور في: (2023-06-01)

Augmenting Multimodal Content Representation with Transformers for Misinformation Detection
حسب: Jenq-Haur Wang, وآخرون
منشور في: (2024-10-01)

Addressing Challenges in Hate Speech Detection using BERT-based Models: A Review
حسب: Jinan Aljawazeri, وآخرون
منشور في: (2024-03-01)

A Feature Fusion Model with Data Augmentation for Speech Emotion Recognition
حسب: Zhongwen Tu, وآخرون
منشور في: (2023-03-01)

TIMIT-TTS: A Text-to-Speech Dataset for Multimodal Synthetic Media Detection
حسب: Davide Salvi, وآخرون
منشور في: (2023-01-01)

Data Augmentation and Effective Feature Selection in Generative Adversarial Networks for Speech Emotion Recognition
حسب: Arash Shilandari, وآخرون
منشور في: (2023-03-01)

Environment-Aware Knowledge Distillation for Improved Resource-Constrained Edge Speech Recognition
حسب: Arthur Pimentel, وآخرون
منشور في: (2023-11-01)

Multimodal spatio-temporal framework for real-world affect recognition
حسب: Karishma Raut, وآخرون
منشور في: (2024-01-01)

An Analysis of Context of Culture and Context of Situation in Obama’s Speech Text
حسب: Samsudin, وآخرون
منشور في: (2020-10-01)

Using BiLSTM Networks for Context-Aware Deep Sensitivity Labelling on Conversational Data
حسب: Antreas Pogiatzis, وآخرون
منشور في: (2020-12-01)

The Reproducibility of Bio-Acoustic Features is Associated With Sample Duration, Speech Task, and Gender
حسب: Shaykhah A. Almaghrabi, وآخرون
منشور في: (2022-01-01)

Strong Generalized Speech Emotion Recognition Based on Effective Data Augmentation
حسب: Huawei Tao, وآخرون
منشور في: (2022-12-01)

Text Augmentation Using BERT for Image Captioning
حسب: Viktar Atliha, وآخرون
منشور في: (2020-08-01)

Internet bad information detection based on Bert model
حسب: Xin CAI
منشور في: (2020-11-01)

Internet bad information detection based on Bert model
حسب: Xin CAI
منشور في: (2020-11-01)

An Indoor Location-Based Augmented Reality Framework
حسب: Jehn-Ruey Jiang, وآخرون
منشور في: (2023-01-01)

Research on feature extraction of unstructured large power texts
حسب: WANG Jiakai, وآخرون
منشور في: (2024-06-01)

Iranian Speech-language Pathologists’ Awareness of Alternative and Augmentative Communication Methods
حسب: Talieh Zarifian, وآخرون
منشور في: (2021-03-01)

Design of the Speech Emotion Recognition Model
حسب: Hanping Ke, وآخرون
منشور في: (2023-07-01)

Using Data Augmentation and Time-Scale Modification to Improve ASR of Children’s Speech in Noisy Environments
حسب: Hemant Kumar Kathania, وآخرون
منشور في: (2021-09-01)

Text-to-speech system for low-resource language using cross-lingual transfer learning and data augmentation
حسب: Zolzaya Byambadorj, وآخرون
منشور في: (2021-12-01)

Multimodal transformer augmented fusion for speech emotion recognition
حسب: Yuanyuan Wang, وآخرون
منشور في: (2023-05-01)

A multimodal dialog approach to mental state characterization in clinically depressed, anxious, and suicidal populations
حسب: Joshua Cohen, وآخرون
منشور في: (2023-09-01)

Automatic Classification of Speech Dysarthric Intelligibility Levels Using Textual Feature
حسب: Ghadeer F. Alharbi, وآخرون
منشور في: (2025-01-01)

Attention-based speech feature transfer between speakers
حسب: Hangbok Lee, وآخرون
منشور في: (2024-02-01)

Intelligence Context Aware Mobile Navigation using Augmented Reality Technology
حسب: Ahmad Hoirul Basori, وآخرون
منشور في: (2018-04-01)

An improved data augmentation approach and its application in medical named entity recognition
حسب: Hongyu Chen, وآخرون
منشور في: (2024-08-01)

Comprehensive Context Recognizer Based on Multimodal Sensors in a Smartphone
حسب: Sungyoung Lee, وآخرون
منشور في: (2012-09-01)

Spoof speech detection based on context information and attention feature
حسب: Jia CHEN, وآخرون
منشور في: (2023-02-01)

Spoof speech detection based on context information and attention feature
حسب: Jia CHEN, وآخرون
منشور في: (2023-02-01)

Medical Named Entity Recognition Fusing Part-of-Speech and Stroke Features
حسب: Fen Yi, وآخرون
منشور في: (2023-08-01)

A Hybrid Deep Learning Emotion Classification System Using Multimodal Data
حسب: Dong-Hwi Kim, وآخرون
منشور في: (2023-11-01)

Emotional Text-To-Speech in Japanese Using Artificially Augmented Dataset
حسب: Mujahid Jamal A. Khalifah, وآخرون
منشور في: (2024-01-01)

Bidirectional Feature Fusion and Enhanced Alignment Based Multimodal Semantic Segmentation for Remote Sensing Images
حسب: Qianqian Liu, وآخرون
منشور في: (2024-06-01)

Disaster Image Classification by Fusing Multimodal Social Media Data
حسب: Zhiqiang Zou, وآخرون
منشور في: (2021-09-01)

Lip2Speech: Lightweight Multi-Speaker Speech Reconstruction with Gabor Features
حسب: Zhongping Dong, وآخرون
منشور في: (2024-01-01)

Large language models and speech genre systematicity
حسب: Devyatkin, Dmitry Alekseevich, وآخرون
منشور في: (2025-02-01)

Effect on speech emotion classification of a feature selection approach using a convolutional neural network
حسب: Ammar Amjad, وآخرون
منشور في: (2021-11-01)