Video understanding using multimodal deep learning
<p>Our experience of the world is multimodal, however deep learning networks have been traditionally designed for and trained on unimodal inputs such as images, audio segments or text. In this thesis we develop strategies to exploit multimodal information (in the form of vision, text, speech a...
Tác giả chính: | Nagrani, A |
---|---|
Tác giả khác: | Zisserman, A |
Định dạng: | Luận văn |
Ngôn ngữ: | English |
Được phát hành: |
2020
|
Những chủ đề: |
Những quyển sách tương tự
-
Sign language understanding using multimodal learning
Bằng: Momeni, L
Được phát hành: (2024) -
Understanding Multimodal Popularity Prediction of Social Media Videos With Self-Attention
Bằng: Adam Bielski, et al.
Được phát hành: (2018-01-01) -
End-to-end learning, and audio-visual human-centric video understanding
Bằng: Brown, A
Được phát hành: (2022) -
Holistic image understanding with deep learning and dense random fields
Bằng: Zheng, S
Được phát hành: (2016) -
Learning with multimodal self-supervision
Bằng: Chen, H
Được phát hành: (2021)