Separating the “chirp” from the “chat”: self-supervised visual grounding of sound and language
We present DenseAV, a novel dual encoder grounding architecture that learns high-resolution, semantically meaningful, and audio-visual aligned features solely through watching videos. We show that DenseAV can discover the “meaning” of words and the “location” of sounds without explicit localization...
প্রধান লেখক: | Hamilton, M, Zisserman, A, Hershey, JR, Freeman, WT |
---|---|
বিন্যাস: | Conference item |
ভাষা: | English |
প্রকাশিত: |
IEEE
2024
|
অনুরূপ উপাদানগুলি
-
Multi-task self-supervised visual learning
অনুযায়ী: Doersch, C, অন্যান্য
প্রকাশিত: (2017) -
Ambient Sound Provides Supervision for Visual Learning
অনুযায়ী: Owens, Andrew Hale, অন্যান্য
প্রকাশিত: (2017) -
Learning Sight from Sound: Ambient Sound Provides Supervision for Visual Learning
অনুযায়ী: Owens, Andrew, অন্যান্য
প্রকাশিত: (2021) -
Self-Supervised Learning for Audio-Visual Relationships of Videos With Stereo Sounds
অনুযায়ী: Tomoya Sato, অন্যান্য
প্রকাশিত: (2022-01-01) -
Self-supervised learning of audio-visual objects from video
অনুযায়ী: Afouras, T, অন্যান্য
প্রকাশিত: (2020)