MaxMViT-MLP: Multiaxis and Multiscale Vision Transformers Fusion Network for Speech Emotion Recognition

Vision Transformers, known for their innovative architectural design and modeling capabilities, have gained significant attention in computer vision. This paper presents a dual-path approach that leverages the strengths of the Multi-Axis Vision Transformer (MaxViT) and the Improved Multiscale Vision...

Full description

Bibliographic Details
Main Authors:	Kah Liang Ong, Chin Poo Lee, Heng Siong Lim, Kian Ming Lim, Ali Alqahtani
Format:	Article
Language:	English
Published:	IEEE 2024-01-01
Series:	IEEE Access
Subjects:	Speech emotion recognition ensemble learning spectrogram vision transformer Emo-DB RAVDESS
Online Access:	https://ieeexplore.ieee.org/document/10418124/

Internet

https://ieeexplore.ieee.org/document/10418124/

MaxMViT-MLP: Multiaxis and Multiscale Vision Transformers Fusion Network for Speech Emotion Recognition

Internet

Similar Items