Vision-Text Cross-Modal Fusion for Accurate Video Captioning

In this paper, we introduce a novel end-to-end multimodal video captioning framework based on cross-modal fusion of visual and textual data. The proposed approach integrates a modality-attention module, which captures the visual-textual inter-model relationships using cross-correlation. Further, we...

Full description

Bibliographic Details
Main Authors:	Kaouther Ouenniche, Ruxandra Tapu, Titus Zaharia
Format:	Article
Language:	English
Published:	IEEE 2023-01-01
Series:	IEEE Access
Subjects:	Multimodal video captioning multimodal learning cross correlation transformers contrastive learning
Online Access:	https://ieeexplore.ieee.org/document/10283847/

Internet

https://ieeexplore.ieee.org/document/10283847/

Vision-Text Cross-Modal Fusion for Accurate Video Captioning

Internet

Similar Items