Attention-Based Multimodal Deep Learning on Vision-Language Data: Models, Datasets, Tasks, Evaluation Metrics and Applications

Multimodal learning has gained immense popularity due to the explosive growth in the volume of image and textual data in various domains. Vision-language heterogeneous multimodal data has been utilized to solve a variety of tasks including classification, image segmentation, image captioning, questi...

Full description

Bibliographic Details
Main Authors:	Priyankar Bose, Pratip Rana, Preetam Ghosh
Format:	Article
Language:	English
Published:	IEEE 2023-01-01
Series:	IEEE Access
Subjects:	Attention mechanism data fusion multimodal learning vision-language classification vision-language question-answering vision-language segmentation
Online Access:	https://ieeexplore.ieee.org/document/10197152/

Internet

https://ieeexplore.ieee.org/document/10197152/

Attention-Based Multimodal Deep Learning on Vision-Language Data: Models, Datasets, Tasks, Evaluation Metrics and Applications

Internet

Similar Items