أرسل هذا في رسالة قصيرة: Labelling unlabelled videos from scratch with multi-modal self-supervision