CameraCtrl：讓文本生成視頻實(shí)現(xiàn)鏡頭控制支持AnimateDiff控制鏡頭

2024-04-07 10:57 · 稿源：站長(zhǎng)

劃重點(diǎn):
?鏡頭控制在視頻生成中起著至關(guān)重要的作用，CameraCtrl 可以實(shí)現(xiàn)準(zhǔn)確的鏡頭姿勢(shì)控制。
? 通過在已有的文本到視頻模型上訓(xùn)練鏡頭編碼器，CameraCtrl 實(shí)現(xiàn)了插拔式的鏡頭模塊，提高了視頻生成的控制精度。
? 研究發(fā)現(xiàn)，采用不同數(shù)據(jù)集的視頻可以增強(qiáng)鏡頭控制的可控性和泛化性。

站長(zhǎng)之家（ChinaZ.com）4月7日消息:近年來，隨著人工智能技術(shù)的發(fā)展，視頻生成領(lǐng)域取得了長(zhǎng)足的進(jìn)步。然而，在現(xiàn)有的文本到視頻生成模型中，對(duì)鏡頭姿勢(shì)的精確控制往往被忽視，而鏡頭姿勢(shì)在視頻生成中扮演著表達(dá)更深層敘事細(xì)微差別的影視語(yǔ)言角色。

為了解決這一問題，研究人員提出了 CameraCtrl，實(shí)現(xiàn)了對(duì)文本到視頻模型的鏡頭姿勢(shì)進(jìn)行精確控制。使用AnimateDiff生成視頻時(shí)，結(jié)合CameraCtrl可以控制鏡頭的運(yùn)動(dòng)軌跡。

在 CameraCtrl 的框架中，他們首先通過準(zhǔn)確參數(shù)化鏡頭軌跡，然后在文本到視頻模型上訓(xùn)練鏡頭編碼器，實(shí)現(xiàn)了插拔式的鏡頭模塊。這個(gè)模塊能夠?qū)㈢R頭表示集成到 U-Net 的時(shí)間注意力層中，從而控制視頻生成的過程。實(shí)驗(yàn)結(jié)果表明，CameraCtrl 在實(shí)現(xiàn)精確的鏡頭控制和領(lǐng)域自適應(yīng)方面取得了顯著的效果。

研究人員還進(jìn)行了對(duì)各種數(shù)據(jù)集的影響的綜合研究，結(jié)果表明，具有不同鏡頭分布和類似外觀的視頻確實(shí)增強(qiáng)了鏡頭控制的可控性和泛化性。通過將不同領(lǐng)域視頻進(jìn)行鏡頭控制的實(shí)驗(yàn)，進(jìn)一步證明了 CameraCtrl 的有效性。

CameraCtrl 為實(shí)現(xiàn)從文本和鏡頭姿勢(shì)輸入生成動(dòng)態(tài)、定制化視頻敘事邁出了重要一步。這一技術(shù)的應(yīng)用前景廣闊，有望在視頻生成領(lǐng)域發(fā)揮重要作用。

產(chǎn)品入口：https://hehao13.github.io/projects-CameraCtrl/

（舉報(bào)）

相關(guān)推薦

關(guān)鍵詞：

薦谷歌版Sora升級(jí)4K高清！一句話控制鏡頭運(yùn)動(dòng)，跑分叫板可靈海螺

OpenAI直播劃水的一天，谷歌版Sora迎來了它的2.0——Veo2，根據(jù)文本或圖像生成更為高質(zhì)量的視頻。從官方介紹中看，此次主要有三個(gè)方面的升級(jí)。感興趣的朋友可戳下方鏈接了解更多詳情。

?Veo2
迄今最大視頻開源模型！騰訊混元文生視頻上線：一句話生成視頻

今日，騰訊混元大模型宣布文生視頻功能上線，一句話就能生成視頻。此次開源的視頻生成大模型，參數(shù)量130億，是當(dāng)前最大的視頻開源模型。通過先進(jìn)的圖像視頻混合VAE，讓模型在細(xì)節(jié)表現(xiàn)有明顯提升，特別是小人臉、高速鏡頭等場(chǎng)景。

?騰訊 ?混元大模型 ?視頻生成
薦這才是真?開源模型！公開「后訓(xùn)練」一切，性能超越Llama 3.1 Instruct

在最近關(guān)于「ScalingLaw是否撞墻」的討論中，后訓(xùn)練被寄予厚望。近期發(fā)布的OpenAIo1在數(shù)學(xué)、代碼、長(zhǎng)程規(guī)劃等問題上取得了顯著提升背后的成功離不開后訓(xùn)練階段強(qiáng)化學(xué)習(xí)訓(xùn)練和推理階段思考計(jì)算量的增大。最后必須說明，長(zhǎng)達(dá)73頁(yè)的Tülu3技術(shù)報(bào)告中還包含大量本文并未提及的細(xì)節(jié)，感興趣的讀者千萬不要錯(cuò)過。

?Llama3.1Instruct ?開源模型 ?人工智能
AZZA推出DIAMOND機(jī)箱：外形似鉆石、支持ATX主板

AZZA推出DIAMOND機(jī)箱，采用了獨(dú)特金字塔外形設(shè)計(jì)。AZZA表示，長(zhǎng)期以來鉆石一直象征著一顆牢不可破的心和永恒的愛，新產(chǎn)品有著優(yōu)雅的外形，反映了用戶的真實(shí)內(nèi)心和不可征服的精神，采用了全景觀設(shè)計(jì)。更令人驚喜的是，機(jī)箱內(nèi)置一個(gè)多功能集線器，提供6個(gè)PWM風(fēng)扇接口與7個(gè)5VARGB燈光接口，用戶可根據(jù)個(gè)人喜好，通過磁吸或魔術(shù)貼方式自由固定集線器于機(jī)箱內(nèi)任意位置。

?AZZA ?DIAMOND機(jī)箱 ?金字塔外形設(shè)計(jì)
蘋果Vision Pro計(jì)劃增加對(duì)PlayStation VR2 手部控制器的支持

根據(jù)彭博社馬克·古爾曼的最新報(bào)道，蘋果正在尋求通過增加對(duì)PlayStationVR控制器的支持，來吸引更多的游戲玩家和開發(fā)者，以提升其VisionPro混合現(xiàn)實(shí)設(shè)備的市場(chǎng)吸引力。雖然VisionPro目前更多被視為生產(chǎn)力和媒體消費(fèi)工具非游戲設(shè)備，部分原因在于它依賴眼睛和手部控制非獨(dú)立控制器。通過這種方式，蘋果不僅能提升游戲控制的精度可能推動(dòng)更多軟件應(yīng)用，如FinalCutPro和AdobePhotoshop等，也能在VisionPro上順利運(yùn)行，為專業(yè)用戶提供更多功能。

?蘋果 ?Vision ?Pro
史上最強(qiáng)Mate！華為Mate 70系列今天發(fā)布：首發(fā)紅楓鏡頭全新麒麟芯片

今天14:30，華為將舉行發(fā)布會(huì)，屆時(shí)，史上最強(qiáng)Mate華為Mate70系列將正式發(fā)布。華為Mate70系列將帶來Mate70、Mate70Pro、Mate70Pro以及Mate70RS非凡大師版，前三款已開啟預(yù)約，非凡大師版預(yù)計(jì)在發(fā)布會(huì)上揭曉。值得期待的是，華為Mate70系列將支持全新AI手勢(shì)隔空傳送，一抓即能傳圖，除此以外，新機(jī)還將支持AI隱私安全和AI影像軌跡記錄等功能，可以倒推新處理器工藝進(jìn)步很大，包括低功耗AI算力。

?華為Mate ?70 ?Mate
華為年度機(jī)皇！Mate 70 RS非凡大師外觀曝光：采用八邊形鏡頭設(shè)計(jì)

博主定焦數(shù)碼暗示，華為Mate70RS非凡大師依然采用了經(jīng)典的八邊形鏡頭設(shè)計(jì)。公開資料顯示，八邊形鏡頭設(shè)計(jì)已經(jīng)成為了華為非凡大師系列的標(biāo)志性設(shè)計(jì)語(yǔ)言，此前上市的MateXT非凡大師也是采用類似的設(shè)計(jì)語(yǔ)言。作為華為最強(qiáng)悍的高端旗艦，Mate70系列看點(diǎn)多多，全新麒麟平臺(tái)、自研系統(tǒng)、豐富的AI功能等等，更多的驚喜需要等發(fā)布會(huì)揭曉了。

?華為Mate ?70 ?RS
開發(fā)者更方便！谷歌Chrome控制臺(tái)新增AI功能：可快速調(diào)試網(wǎng)頁(yè)

據(jù)報(bào)道，谷歌近日在Chrome瀏覽器的F12開發(fā)者工具中引入了一項(xiàng)新功能，即AI助手，可以幫助開發(fā)者更快速、更便捷地進(jìn)行網(wǎng)頁(yè)代碼調(diào)試。這項(xiàng)AI功能能夠讀取網(wǎng)頁(yè)的源代碼和特定代碼行，并在開發(fā)者提出問題時(shí)提供針對(duì)性的分析和回答，從讓開發(fā)者在不離開當(dāng)前窗口的情況下解決問題。在實(shí)際操作中，AI會(huì)自動(dòng)讀取源代碼，開發(fā)者也可以選擇特定代碼進(jìn)行AskAI”，AI會(huì)根據(jù)開發(fā)者的提問和上下文代碼給出相應(yīng)的回答，極大地提升了開發(fā)體驗(yàn)。

?Chrome瀏覽器 ?F12開發(fā)者工具 ?AI助手
重磅發(fā)布：全新CleanMyMac助力您的Mac維護(hù)和優(yōu)化

在不斷變化的數(shù)字環(huán)境中，保持計(jì)算機(jī)的高效運(yùn)作至關(guān)重要。MacPaw于2024年12月10日推出的全新CleanMyMac應(yīng)用程序，正是為此生。讓我們共同期待它為我們的Mac帶來的更高效、更流暢的使用體驗(yàn)。

?CleanMyMac ?電腦維護(hù) ?Mac優(yōu)化
薦AI日?qǐng)?bào)：智譜AI發(fā)布AutoGLM升級(jí)版；Kimi灰測(cè)AI視頻生成功能；SD3.5L新增三大ControlNet功能；ChatGPT誕生兩周年

歡迎來到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、震撼來襲!StabilityAI的SD3.5L新增三大ControlNet功能生圖能力再升級(jí)StabilityAI發(fā)布了新版StableDiffusion3.5Large，新增三種ControlNet功能，分別是Blur、Canny和Depth，顯著提升了圖像生成能力。?

?Stability ?AI ?Stable

熱文

3 天
7天

站長(zhǎng)商機(jī)

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

CameraCtrl：讓文本生成視頻實(shí)現(xiàn)鏡頭控制支持AnimateDiff控制鏡頭

薦谷歌版Sora升級(jí)4K高清！一句話控制鏡頭運(yùn)動(dòng)，跑分叫板可靈海螺

迄今最大視頻開源模型！騰訊混元文生視頻上線：一句話生成視頻

薦這才是真?開源模型！公開「后訓(xùn)練」一切，性能超越Llama 3.1 Instruct

AZZA推出DIAMOND機(jī)箱：外形似鉆石、支持ATX主板

蘋果Vision Pro計(jì)劃增加對(duì)PlayStation VR2 手部控制器的支持

史上最強(qiáng)Mate！華為Mate 70系列今天發(fā)布：首發(fā)紅楓鏡頭全新麒麟芯片

華為年度機(jī)皇！Mate 70 RS非凡大師外觀曝光：采用八邊形鏡頭設(shè)計(jì)

開發(fā)者更方便！谷歌Chrome控制臺(tái)新增AI功能：可快速調(diào)試網(wǎng)頁(yè)

重磅發(fā)布：全新CleanMyMac助力您的Mac維護(hù)和優(yōu)化

薦AI日?qǐng)?bào)：智譜AI發(fā)布AutoGLM升級(jí)版；Kimi灰測(cè)AI視頻生成功能；SD3.5L新增三大ControlNet功能；ChatGPT誕生兩周年

熱文

周鴻祎：AGI發(fā)展遇瓶頸智能體和專業(yè)大模型將扛大旗

雷軍：小米是北方車廠 SU7研發(fā)之初就要做冬季電車?yán)m(xù)航之王

沒網(wǎng)也能聯(lián)絡(luò)！小米15系列星辰無網(wǎng)通12月底升級(jí)6km級(jí)通話范圍

美團(tuán)：冬至期間將針對(duì)餃子等應(yīng)時(shí)食品訂單提供“超時(shí)保護(hù)”

不得使用惡俗惡趣味微短劇片名！廣電總局出手整治“霸總愛上我

消息稱OpenAI新模型GPT-5研發(fā)未達(dá)到預(yù)期：成本高昂效果欠佳

英偉達(dá)AI芯片最大買家揭曉！微軟力壓同行霸榜

微信朋友圈崩了上熱搜騰訊客服：請(qǐng)嘗試這幾種方法

極越員工萬字怒懟ceo：公關(guān)總監(jiān)徐繼業(yè)怒罵員工蒼蠅

馬斯克將推出X Mail電子郵箱服務(wù)

小紅書封號(hào)上熱搜：違規(guī)原因涉及發(fā)布引流、牟利等內(nèi)容

周鴻祎：AGI發(fā)展遇瓶頸智能體和專業(yè)大模型將扛大旗

極越員工善后方案已出爐：?jiǎn)T工獲“N+1”賠償由百度吉利出資

螞蟻集團(tuán)否認(rèn)借殼上市：目前沒有上市計(jì)劃

小紅書被吐槽無理由封號(hào) 客服回應(yīng)：未說明處罰時(shí)間就是永封

極越公關(guān)負(fù)責(zé)人被開除本人回應(yīng)：此前未接到任何通知

站長(zhǎng)商機(jī)

CameraCtrl：讓文本生成視頻實(shí)現(xiàn)鏡頭控制 支持AnimateDiff控制鏡頭

熱文

站長(zhǎng)商機(jī)

CameraCtrl：讓文本生成視頻實(shí)現(xiàn)鏡頭控制支持AnimateDiff控制鏡頭