劃重點(diǎn):
?? 谷歌發(fā)布新視頻框架 “Vlogger”,可以通過單張圖片和錄音生成本人演講視頻。
?? Vlogger 模型基于擴(kuò)散模型,包含音頻到人體動(dòng)作和文本到圖像模型。
?? Vlogger 具備多樣性和自然性,可應(yīng)用于視頻編輯和翻譯等領(lǐng)域。
站長(zhǎng)之家(ChinaZ.com)3月20日 消息:谷歌最近發(fā)布了一項(xiàng)名為 “Vlogger” 的新視頻框架,可以通過僅一張圖片和錄音即可生成一個(gè)本人演講視頻。
這一框架基于擴(kuò)散模型,包含音頻到人體動(dòng)作和文本到圖像模型兩部分。其中,音頻波形被用來生成人物的身體控制動(dòng)作,包括眼神、表情、手勢(shì)等,使生成的視頻看起來自然且生動(dòng)。該模型訓(xùn)練在一個(gè)包含80萬個(gè)人物視頻的大型數(shù)據(jù)集上完成。
Vlogger 的突出之處在于其多樣性和完整性。與其他方法相比,Vlogger 不需要對(duì)每個(gè)人進(jìn)行訓(xùn)練,也不依賴于面部檢測(cè)和裁剪,生成的視頻包括面部、唇部和肢體動(dòng)作等。此外,Vlogger 還具有視頻編輯和翻譯等應(yīng)用,能夠讓人物閉嘴、閉眼,甚至進(jìn)行視頻翻譯。
雖然谷歌尚未發(fā)布具體模型,但通過展示效果和論文,可以看到 Vlogger 在視頻生成領(lǐng)域的潛力和優(yōu)勢(shì)。然而,一些網(wǎng)友對(duì)其生成視頻的畫質(zhì)、口型對(duì)不上等問題提出了質(zhì)疑和吐槽。盡管如此,Vlogger 的發(fā)布仍引起了業(yè)界的廣泛關(guān)注和討論。
谷歌發(fā)布的 Vlogger 模型為視頻生成領(lǐng)域帶來了新的可能性,具備多樣性和自然性,為視頻編輯和翻譯等應(yīng)用提供了新的解決方案。隨著技術(shù)的不斷進(jìn)步和完善,相信 Vlogger 將在未來有更廣泛的應(yīng)用和發(fā)展。
產(chǎn)品入口:https://top.aibase.com/tool/vlogger
(舉報(bào))