Everybody's talkin': let me talk as you want

We present a method to edit a target portrait footage by taking a sequence of audio as input to synthesize a photo-realistic video. This method is unique because it is highly dynamic. It does not assume a person-specific rendering network yet capable of translating one source audio into one random c...

Ամբողջական նկարագրություն

Մատենագիտական մանրամասներ
Հիմնական հեղինակներ: Song, Linsen, Wu, Wayne, Qian, Chen, He, Ran, Loy, Chen Change
Այլ հեղինակներ: School of Computer Science and Engineering
Ձևաչափ: Journal Article
Լեզու:English
Հրապարակվել է: 2022
Խորագրեր:
Առցանց հասանելիություն:https://hdl.handle.net/10356/162986