站長之家(ChinaZ.com)4月18日 消息:由微軟亞洲研究院開發(fā)的VASA-1項目,是一項前沿的人工智能技術,它能夠?qū)我混o態(tài)圖像和一段語音音頻轉(zhuǎn)換為逼真的對話面部動畫。這項技術不僅能夠?qū)崿F(xiàn)音頻與唇部動作的精確同步,還能夠捕捉并再現(xiàn)豐富的面部表情和自然的頭部動作,極大地增強了生成視頻的真實感和生動性。
主要功能與特點:
逼真的面部動畫: VASA-1可以根據(jù)一段語音音頻和單一靜態(tài)圖像生成逼真的對話面部視頻,包括精確的唇部運動同步和復雜的面部表情及頭部動作。
高度自然的頭部動作: VASA-1能夠生成包括點頭和轉(zhuǎn)頭在內(nèi)的自然頭部運動,這些都是人類交流中常見的非語言行為。
實時視頻生成: 利用NVIDIA RTX4090GPU,VASA-1能夠?qū)崿F(xiàn)高性能的視頻生成。它支持在離線模式下以45fps生成512×512分辨率的視頻,以及在線流模式下的40fps生成速度,前置延遲僅為170毫秒,適合實時應用。
泛化能力: 模型展現(xiàn)出強大的適應能力,即使面對與訓練數(shù)據(jù)不同的音頻或圖像,如不同的語言或非常規(guī)的藝術照片,也能夠有效工作。
支持多種語言: VASA-1不僅支持中文,還能處理多種語言的語音輸入,甚至能夠生成唱歌的動畫。
解耦能力: 模型能夠獨立處理和控制人臉的不同動態(tài)特征,如嘴唇運動、表情、眼睛注視方向等,提供了高度的解耦和可控性。
生成的可控性: 通過引入條件信號,如眼睛注視方向、頭部距離和情緒偏移,VASA-1增強了視頻生成的可控性,允許更精細的調(diào)整和個性化的動畫輸出。
技術原理:
VASA-1項目利用了一系列先進的計算機視覺和機器學習技術,包括面部潛在空間構建、數(shù)據(jù)集處理、3D輔助表征、整體面部動態(tài)和頭部動作生成、音頻條件化的生成控制、以及實時生成支持等。這些技術的應用使得VASA-1能夠生成與音頻高度同步的、具有豐富表情和動作的逼真面部動畫。
案例與資源:
微軟亞洲研究院提供了VASA-1的項目演示和相關論文,以供有興趣的研究人員和開發(fā)者進一步探索和學習。所有在演示中使用的肖像圖像,除了蒙娜麗莎外,都是由StyleGAN2或DALL-E-3生成的虛擬、不存在的身份圖像。
項目地址:https://top.aibase.com/tool/vasa-1
論文地址:https://arxiv.org/abs/2404.10667
(舉報)