Video understanding using multimodal deep learning

<p>Our experience of the world is multimodal, however deep learning networks have been traditionally designed for and trained on unimodal inputs such as images, audio segments or text. In this thesis we develop strategies to exploit multimodal information (in the form of vision, text, speech a...

Πλήρης περιγραφή

Λεπτομέρειες βιβλιογραφικής εγγραφής
Κύριος συγγραφέας: Nagrani, A
Άλλοι συγγραφείς: Zisserman, A
Μορφή: Thesis
Γλώσσα:English
Έκδοση: 2020
Θέματα:

Παρόμοια τεκμήρια