幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

首頁(yè) > 業(yè)界 > 關(guān)鍵詞  > CameraCtrl最新資訊  > 正文

CameraCtrl:讓文本生成視頻實(shí)現(xiàn)鏡頭控制 支持AnimateDiff控制鏡頭

2024-04-07 10:57 · 稿源:站長(zhǎng)

劃重點(diǎn):

?鏡頭控制在視頻生成中起著至關(guān)重要的作用,CameraCtrl 可以實(shí)現(xiàn)準(zhǔn)確的鏡頭姿勢(shì)控制。

? 通過在已有的文本到視頻模型上訓(xùn)練鏡頭編碼器,CameraCtrl 實(shí)現(xiàn)了插拔式的鏡頭模塊,提高了視頻生成的控制精度。

? 研究發(fā)現(xiàn),采用不同數(shù)據(jù)集的視頻可以增強(qiáng)鏡頭控制的可控性和泛化性。

站長(zhǎng)之家(ChinaZ.com)4月7日 消息:近年來,隨著人工智能技術(shù)的發(fā)展,視頻生成領(lǐng)域取得了長(zhǎng)足的進(jìn)步。然而,在現(xiàn)有的文本到視頻生成模型中,對(duì)鏡頭姿勢(shì)的精確控制往往被忽視,而鏡頭姿勢(shì)在視頻生成中扮演著表達(dá)更深層敘事細(xì)微差別的影視語(yǔ)言角色。

為了解決這一問題,研究人員提出了 CameraCtrl,實(shí)現(xiàn)了對(duì)文本到視頻模型的鏡頭姿勢(shì)進(jìn)行精確控制。使用AnimateDiff生成視頻時(shí),結(jié)合CameraCtrl可以控制鏡頭的運(yùn)動(dòng)軌跡。

image.png

在 CameraCtrl 的框架中,他們首先通過準(zhǔn)確參數(shù)化鏡頭軌跡,然后在文本到視頻模型上訓(xùn)練鏡頭編碼器,實(shí)現(xiàn)了插拔式的鏡頭模塊。這個(gè)模塊能夠?qū)㈢R頭表示集成到 U-Net 的時(shí)間注意力層中,從而控制視頻生成的過程。實(shí)驗(yàn)結(jié)果表明,CameraCtrl 在實(shí)現(xiàn)精確的鏡頭控制和領(lǐng)域自適應(yīng)方面取得了顯著的效果。

研究人員還進(jìn)行了對(duì)各種數(shù)據(jù)集的影響的綜合研究,結(jié)果表明,具有不同鏡頭分布和類似外觀的視頻確實(shí)增強(qiáng)了鏡頭控制的可控性和泛化性。通過將不同領(lǐng)域視頻進(jìn)行鏡頭控制的實(shí)驗(yàn),進(jìn)一步證明了 CameraCtrl 的有效性。

CameraCtrl 為實(shí)現(xiàn)從文本和鏡頭姿勢(shì)輸入生成動(dòng)態(tài)、定制化視頻敘事邁出了重要一步。這一技術(shù)的應(yīng)用前景廣闊,有望在視頻生成領(lǐng)域發(fā)揮重要作用。

產(chǎn)品入口:https://hehao13.github.io/projects-CameraCtrl/

舉報(bào)

  • 相關(guān)推薦
  • 谷歌版Sora升級(jí)4K高清!一句話控制鏡頭運(yùn)動(dòng),跑分叫板可靈海螺

    OpenAI直播劃水的一天,谷歌版Sora迎來了它的2.0——Veo2,根據(jù)文本或圖像生成更為高質(zhì)量的視頻。從官方介紹中看,此次主要有三個(gè)方面的升級(jí)。感興趣的朋友可戳下方鏈接了解更多詳情。

  • 迄今最大視頻開源模型!騰訊混元文生視頻上線:一句話生成視頻

    今日,騰訊混元大模型宣布文生視頻功能上線,一句話就能生成視頻。此次開源的視頻生成大模型,參數(shù)量130億,是當(dāng)前最大的視頻開源模型。通過先進(jìn)的圖像視頻混合VAE,讓模型在細(xì)節(jié)表現(xiàn)有明顯提升,特別是小人臉、高速鏡頭等場(chǎng)景。

  • 這才是真?開源模型!公開「后訓(xùn)練」一切,性能超越Llama 3.1 Instruct

    在最近關(guān)于「ScalingLaw是否撞墻」的討論中,后訓(xùn)練被寄予厚望。近期發(fā)布的OpenAIo1在數(shù)學(xué)、代碼、長(zhǎng)程規(guī)劃等問題上取得了顯著提升背后的成功離不開后訓(xùn)練階段強(qiáng)化學(xué)習(xí)訓(xùn)練和推理階段思考計(jì)算量的增大。最后必須說明,長(zhǎng)達(dá)73頁(yè)的Tülu3技術(shù)報(bào)告中還包含大量本文并未提及的細(xì)節(jié),感興趣的讀者千萬不要錯(cuò)過。

  • AZZA推出DIAMOND機(jī)箱:外形似鉆石、支持ATX主板

    AZZA推出DIAMOND機(jī)箱,采用了獨(dú)特金字塔外形設(shè)計(jì)。AZZA表示,長(zhǎng)期以來鉆石一直象征著一顆牢不可破的心和永恒的愛,新產(chǎn)品有著優(yōu)雅的外形,反映了用戶的真實(shí)內(nèi)心和不可征服的精神,采用了全景觀設(shè)計(jì)。更令人驚喜的是,機(jī)箱內(nèi)置一個(gè)多功能集線器,提供6個(gè)PWM風(fēng)扇接口與7個(gè)5VARGB燈光接口,用戶可根據(jù)個(gè)人喜好,通過磁吸或魔術(shù)貼方式自由固定集線器于機(jī)箱內(nèi)任意位置。

  • 蘋果Vision Pro計(jì)劃增加對(duì)PlayStation VR2 手部控制器的支持

    根據(jù)彭博社馬克·古爾曼的最新報(bào)道,蘋果正在尋求通過增加對(duì)PlayStationVR控制器的支持,來吸引更多的游戲玩家和開發(fā)者,以提升其VisionPro混合現(xiàn)實(shí)設(shè)備的市場(chǎng)吸引力。雖然VisionPro目前更多被視為生產(chǎn)力和媒體消費(fèi)工具非游戲設(shè)備,部分原因在于它依賴眼睛和手部控制非獨(dú)立控制器。通過這種方式,蘋果不僅能提升游戲控制的精度可能推動(dòng)更多軟件應(yīng)用,如FinalCutPro和AdobePhotoshop等,也能在VisionPro上順利運(yùn)行,為專業(yè)用戶提供更多功能。

  • 史上最強(qiáng)Mate!華為Mate 70系列今天發(fā)布:首發(fā)紅楓鏡頭 全新麒麟芯片

    今天14:30,華為將舉行發(fā)布會(huì),屆時(shí),史上最強(qiáng)Mate華為Mate70系列將正式發(fā)布。華為Mate70系列將帶來Mate70、Mate70Pro、Mate70Pro以及Mate70RS非凡大師版,前三款已開啟預(yù)約,非凡大師版預(yù)計(jì)在發(fā)布會(huì)上揭曉。值得期待的是,華為Mate70系列將支持全新AI手勢(shì)隔空傳送,一抓即能傳圖,除此以外,新機(jī)還將支持AI隱私安全和AI影像軌跡記錄等功能,可以倒推新處理器工藝進(jìn)步很大,包括低功耗AI算力。

  • 華為年度機(jī)皇!Mate 70 RS非凡大師外觀曝光:采用八邊形鏡頭設(shè)計(jì)

    博主定焦數(shù)碼暗示,華為Mate70RS非凡大師依然采用了經(jīng)典的八邊形鏡頭設(shè)計(jì)。公開資料顯示,八邊形鏡頭設(shè)計(jì)已經(jīng)成為了華為非凡大師系列的標(biāo)志性設(shè)計(jì)語(yǔ)言,此前上市的MateXT非凡大師也是采用類似的設(shè)計(jì)語(yǔ)言。作為華為最強(qiáng)悍的高端旗艦,Mate70系列看點(diǎn)多多,全新麒麟平臺(tái)、自研系統(tǒng)、豐富的AI功能等等,更多的驚喜需要等發(fā)布會(huì)揭曉了。

  • 開發(fā)者更方便!谷歌Chrome控制臺(tái)新增AI功能:可快速調(diào)試網(wǎng)頁(yè)

    據(jù)報(bào)道,谷歌近日在Chrome瀏覽器的F12開發(fā)者工具中引入了一項(xiàng)新功能,即AI助手,可以幫助開發(fā)者更快速、更便捷地進(jìn)行網(wǎng)頁(yè)代碼調(diào)試。這項(xiàng)AI功能能夠讀取網(wǎng)頁(yè)的源代碼和特定代碼行,并在開發(fā)者提出問題時(shí)提供針對(duì)性的分析和回答,從讓開發(fā)者在不離開當(dāng)前窗口的情況下解決問題。在實(shí)際操作中,AI會(huì)自動(dòng)讀取源代碼,開發(fā)者也可以選擇特定代碼進(jìn)行AskAI”,AI會(huì)根據(jù)開發(fā)者的提問和上下文代碼給出相應(yīng)的回答,極大地提升了開發(fā)體驗(yàn)。

  • 重磅發(fā)布:全新CleanMyMac助力您的Mac維護(hù)和優(yōu)化

    在不斷變化的數(shù)字環(huán)境中,保持計(jì)算機(jī)的高效運(yùn)作至關(guān)重要。MacPaw于2024年12月10日推出的全新CleanMyMac應(yīng)用程序,正是為此生。讓我們共同期待它為我們的Mac帶來的更高效、更流暢的使用體驗(yàn)。

  • AI日?qǐng)?bào):智譜AI發(fā)布AutoGLM升級(jí)版;Kimi灰測(cè)AI視頻生成功能;SD3.5L新增三大ControlNet功能;ChatGPT誕生兩周年

    歡迎來到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、震撼來襲!StabilityAI的SD3.5L新增三大ControlNet功能生圖能力再升級(jí)StabilityAI發(fā)布了新版StableDiffusion3.5Large,新增三種ControlNet功能,分別是Blur、Canny和Depth,顯著提升了圖像生成能力。?