劃重點(diǎn):
?鏡頭控制在視頻生成中起著至關(guān)重要的作用,CameraCtrl 可以實(shí)現(xiàn)準(zhǔn)確的鏡頭姿勢(shì)控制。
? 通過在已有的文本到視頻模型上訓(xùn)練鏡頭編碼器,CameraCtrl 實(shí)現(xiàn)了插拔式的鏡頭模塊,提高了視頻生成的控制精度。
? 研究發(fā)現(xiàn),采用不同數(shù)據(jù)集的視頻可以增強(qiáng)鏡頭控制的可控性和泛化性。
站長(zhǎng)之家(ChinaZ.com)4月7日 消息:近年來,隨著人工智能技術(shù)的發(fā)展,視頻生成領(lǐng)域取得了長(zhǎng)足的進(jìn)步。然而,在現(xiàn)有的文本到視頻生成模型中,對(duì)鏡頭姿勢(shì)的精確控制往往被忽視,而鏡頭姿勢(shì)在視頻生成中扮演著表達(dá)更深層敘事細(xì)微差別的影視語(yǔ)言角色。
為了解決這一問題,研究人員提出了 CameraCtrl,實(shí)現(xiàn)了對(duì)文本到視頻模型的鏡頭姿勢(shì)進(jìn)行精確控制。使用AnimateDiff生成視頻時(shí),結(jié)合CameraCtrl可以控制鏡頭的運(yùn)動(dòng)軌跡。
在 CameraCtrl 的框架中,他們首先通過準(zhǔn)確參數(shù)化鏡頭軌跡,然后在文本到視頻模型上訓(xùn)練鏡頭編碼器,實(shí)現(xiàn)了插拔式的鏡頭模塊。這個(gè)模塊能夠?qū)㈢R頭表示集成到 U-Net 的時(shí)間注意力層中,從而控制視頻生成的過程。實(shí)驗(yàn)結(jié)果表明,CameraCtrl 在實(shí)現(xiàn)精確的鏡頭控制和領(lǐng)域自適應(yīng)方面取得了顯著的效果。
研究人員還進(jìn)行了對(duì)各種數(shù)據(jù)集的影響的綜合研究,結(jié)果表明,具有不同鏡頭分布和類似外觀的視頻確實(shí)增強(qiáng)了鏡頭控制的可控性和泛化性。通過將不同領(lǐng)域視頻進(jìn)行鏡頭控制的實(shí)驗(yàn),進(jìn)一步證明了 CameraCtrl 的有效性。
CameraCtrl 為實(shí)現(xiàn)從文本和鏡頭姿勢(shì)輸入生成動(dòng)態(tài)、定制化視頻敘事邁出了重要一步。這一技術(shù)的應(yīng)用前景廣闊,有望在視頻生成領(lǐng)域發(fā)揮重要作用。
產(chǎn)品入口:https://hehao13.github.io/projects-CameraCtrl/
(舉報(bào))