Self-Supervised Video Representation and Temporally Adaptive Attention for Audio-Visual Event Localization

Localizing the audio-visual events in video requires a combined judgment of visual and audio components. To integrate multimodal information, existing methods modeled the cross-modal relationships by feeding unimodal features into attention modules. However, these unimodal features are encoded in se...

Full description

Bibliographic Details
Main Authors:	Yue Ran, Hongying Tang, Baoqing Li, Guohui Wang
Format:	Article
Language:	English
Published:	MDPI AG 2022-12-01
Series:	Applied Sciences
Subjects:	audiovisual event temporal localization fusion representation learning self-supervised learning
Online Access:	https://www.mdpi.com/2076-3417/12/24/12622

Internet

https://www.mdpi.com/2076-3417/12/24/12622

Self-Supervised Video Representation and Temporally Adaptive Attention for Audio-Visual Event Localization

Internet

Similar Items