谷歌推多模態(tài)視頻模型VLOGGER，自動生成豐富動作視頻

2024-04-02 08:45 · 稿源：站長之家

劃重點:
?? 谷歌推出多模態(tài)視頻模型 VLOGGER，能夠自動生成帶語音、豐富動作的人物視頻。
?? VLOGGER 采用全新多階段擴散模型架構(gòu)，結(jié)合文本生成圖像模型和時空控制，提升視頻生成逼真效果。
?? VLOGGER 在多個數(shù)據(jù)集上進行綜合測試，表現(xiàn)出色，并不需要重新訓(xùn)練模型即可生成完整目標圖像。

站長之家(ChinaZ.com) 4月2日消息:谷歌的研究人員最近推出了一款名為 VLOGGER 的多模態(tài)擴散模型，能夠自動生成帶語音、豐富動作的人物視頻。用戶只需向 VLOGGER 輸入圖像和語音，就可以獲得逼真的視頻效果。

VLOGGER 的創(chuàng)新之處在于采用了全新的多階段擴散模型架構(gòu)，結(jié)合了文本生成圖像模型和時空控制，從而提升了視頻生成的逼真效果和豐富動作。研究人員在多個數(shù)據(jù)集上對 VLOGGER 進行了綜合測試，結(jié)果顯示 VLOGGER 在視頻質(zhì)量、物體還原性和時序一致性等方面表現(xiàn)出色，同時還能生成豐富的上半身和手勢動作。

要制作逼真的人物動畫視頻通常需要大量的人工調(diào)整和修補，以確保動作流暢自然。而 VLOGGER 的創(chuàng)新之處在于，其無需針對每個新人物重新訓(xùn)練模型，也不依賴于人臉檢測框選區(qū)域，直接生成完整目標圖像。此外，VLOGGER 還考慮到了現(xiàn)實中復(fù)雜的交流場景，如可見軀干、不同身份等因素，這對正確合成有效交流的人物動作至關(guān)重要。

在技術(shù)實現(xiàn)方面，VLOGGER 首先通過 Transformer 神經(jīng)網(wǎng)絡(luò)處理音頻波形輸入，生成一系列3D 面部表情和身體姿勢參數(shù)，用于控制虛擬人物在視頻中的動作。其次，在空間和時間上進行條件控制，生成高質(zhì)量、任意長度的視頻。VLOGGER 還引入了一種 "時序外推" 的技術(shù)，允許模型迭代生成任意長度的視頻片段，同時保持時序一致性。為了提高生成效果，VLOGGER 還采用了級聯(lián)擴散方法，對基礎(chǔ)分辨率的視頻進行超分辨重建，生成高質(zhì)量的影像。

VLOGGER 的推出為虛擬數(shù)字人的制作提供了更便捷、高效的解決方案，同時也在多模態(tài)視頻生成領(lǐng)域取得了重要的技術(shù)突破。

產(chǎn)品入口:https://top.aibase.com/tool/vlogger

技術(shù)報告:https://enriccorona.github.io/vlogger/paper.pdf

（舉報）

相關(guān)推薦

關(guān)鍵詞：

薦谷歌“狙擊”O(jiān)penAI，發(fā)布新一代大模型，主打Agent+多模態(tài)

繼量子芯片之后，谷歌又來搶“OpenAI雙12直播”的流量了!就在剛剛，谷歌新一代大模型Gemini2.0突然登場，再次由谷歌CEO皮猜親自官宣。新一代模型專為AIAgent打造，谷歌表示目前已經(jīng)將2.0版本提供給了一些開發(fā)者內(nèi)測，正在迅速將其集成在Gemini和搜索等產(chǎn)品線中。從OpenAI跳槽到谷歌的LoganKilpatrick表示，他們在GoogleAIStudio中創(chuàng)建了一個全新體驗，展示了Gemini2.0視頻理解、原生工具?

?谷歌 ?Gemini ?2.0
智象多模態(tài)生成大模型3.0發(fā)布離幻覺更遠與離落地更近

12月28日，智象未來科技有限公司在安徽人工智能產(chǎn)業(yè)先導(dǎo)區(qū)啟動儀式中，正式發(fā)布智象多模態(tài)生成大模型3.0版。啟動儀式上，智象未來創(chuàng)始人兼首席執(zhí)行官梅濤總結(jié)了2024年人工領(lǐng)域技術(shù)發(fā)展的五個標志性事件，分別是以Sora為代表的視覺生成物理世界模擬器、以ChatGPT4o為代表的多模態(tài)模型、以GPT-o1為代表的從預(yù)訓(xùn)練到后訓(xùn)練推理優(yōu)化、多模態(tài)大模型賦能具身智能實現(xiàn)軟硬件結(jié)合，以及人工智能學(xué)者榮獲諾貝爾化學(xué)獎表明AI賦能科研范式變革。本次活動現(xiàn)場，智象未來與人民網(wǎng)、上海電影集團、彩訊科技、捷成華視網(wǎng)聚、安徽聯(lián)通、中國移動咪咕音樂等12家生態(tài)伙伴企業(yè)代表簽約，共同打造集技術(shù)研發(fā)、產(chǎn)業(yè)化應(yīng)用、市場推廣于一體的生態(tài)體系。

?人工智能 ?多模態(tài)大模型 ?技術(shù)發(fā)展
成都匯陽投資關(guān)于Sora 正式上線，多模態(tài)模型的里程碑

事件12月10日，OpenAl正式上線Sora，并向包括美國在內(nèi)的多數(shù)國家用戶開放，用戶可在OpenAI官網(wǎng)上體驗Sora。Sora被包含在ChatGPTPlus和ChatGPTPro的會員訂閱方案中，用戶無需額外付費。股市有風(fēng)險，投資需謹慎。

?OpenAI ?Sora ?視頻生成
薦搶鮮實測騰訊最新AI視頻模型！超寫實質(zhì)感，還會自動切鏡頭

一只戴著紅色圍巾的企鵝闖進了火熱的AI視頻戰(zhàn)場。騰訊混元發(fā)布了AI視頻生成大模型。未來混元視頻還將上線圖生視頻模型、視頻配音模型、驅(qū)動2D照片數(shù)字人等新能力，讓未來AI內(nèi)容創(chuàng)作更加高效。

?AI視頻
中國電信發(fā)布全自研視頻生成大模型完成全模態(tài)體系構(gòu)建

12月3日，在中國電信“2024數(shù)字科技生態(tài)大會”期間，首屆“TeleAI開發(fā)者大會”在廣州舉辦。TeleAI發(fā)布視頻生成大模型、視覺大模型產(chǎn)用一體化平臺、具身智能、智傳網(wǎng)等一系列創(chuàng)新技術(shù)、產(chǎn)品及科研成果，并發(fā)布開發(fā)者產(chǎn)業(yè)聯(lián)盟計劃。展出了星辰軟件工廠、星辰慧記、星辰智能體產(chǎn)品、中國電信家庭小管家、星辰大模型一體機等一系列智能產(chǎn)品，讓現(xiàn)場觀眾真實感受未來以來，AI就在每個人的身邊。

?TeleAI大模型 ?數(shù)字科技生態(tài)大會 ?人工智能發(fā)展
迄今最大視頻開源模型！騰訊混元文生視頻上線：一句話生成視頻

今日，騰訊混元大模型宣布文生視頻功能上線，一句話就能生成視頻。此次開源的視頻生成大模型，參數(shù)量130億，是當(dāng)前最大的視頻開源模型。通過先進的圖像視頻混合VAE，讓模型在細節(jié)表現(xiàn)有明顯提升，特別是小人臉、高速鏡頭等場景。

?騰訊 ?混元大模型 ?視頻生成
Sora之后，視頻生成模型的中國牌局

Sora，自2月16日OpenAI發(fā)布后一直被吐槽是“技術(shù)期貨”，終于在12月10日，正式版Sora露面了，可以生成最高1080p分辨率、最長20秒的視頻。OpenAICEO奧特曼稱，Sora正式版是視頻生成領(lǐng)域的GPT-1時刻。大模型的牌局，國內(nèi)企業(yè)正在找到自己的節(jié)奏感。

?視頻生成 ?OpenAI ?AI技術(shù)
薦視頻生成大模型賽道，只是看上去擁擠

2024年最后一個月，國產(chǎn)大模型落地應(yīng)用突然加速。尤其視頻生成模型，就像密集射出子彈后的槍管，熱得發(fā)燙。AI一天，人間一年。

?國產(chǎn)大模型 ?視頻生成模型 ?AI導(dǎo)演
薦AI日報：阿里通義開源多模態(tài)推理模型QVQ-72B；OpenAI考慮自研人形機器人；QQ音樂上線首個AI大模型音效

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、阿里發(fā)布多模態(tài)推理模型QVQ-72B!視覺、語言能力雙提升阿里巴巴最近推出的QVQ-72B多模態(tài)推理模型在語言和視覺能力上實現(xiàn)了顯著提升，能夠處理復(fù)雜的推理和分析任務(wù)，尤其在多步推理和數(shù)學(xué)推理方面表現(xiàn)突出。盡管o1-preview在某些方面表現(xiàn)優(yōu)秀，但在實際應(yīng)用中仍面臨高成本和不切實際的測試建議等問題。

?人工智能 ?多模態(tài)推理 ?阿里巴巴
薦AI日報：OpenAI重磅上線Sora；智譜AI免費多模態(tài)模型GLM-4V-Flash；騰訊云打造AI代碼助手

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、OpenAI正式上線Sora，ChatGPTPro用戶可無限生成、最長20秒OpenAI在"ship-mas"系列活動中發(fā)布了SoraTurbo視頻生成AI，支持生成20秒1080p視頻，用戶可通過文本、圖片或視頻進行創(chuàng)作，具有多種風(fēng)格和剪輯功能。See3D已開源，支持多種3D創(chuàng)作應(yīng)用。

熱文

3 天
7天

站長商機

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

谷歌推多模態(tài)視頻模型VLOGGER，自動生成豐富動作視頻

薦谷歌“狙擊”O(jiān)penAI，發(fā)布新一代大模型，主打Agent+多模態(tài)

智象多模態(tài)生成大模型3.0發(fā)布離幻覺更遠與離落地更近

成都匯陽投資關(guān)于Sora 正式上線，多模態(tài)模型的里程碑

薦搶鮮實測騰訊最新AI視頻模型！超寫實質(zhì)感，還會自動切鏡頭

中國電信發(fā)布全自研視頻生成大模型完成全模態(tài)體系構(gòu)建

迄今最大視頻開源模型！騰訊混元文生視頻上線：一句話生成視頻

Sora之后，視頻生成模型的中國牌局

薦視頻生成大模型賽道，只是看上去擁擠

薦AI日報：阿里通義開源多模態(tài)推理模型QVQ-72B；OpenAI考慮自研人形機器人；QQ音樂上線首個AI大模型音效

薦AI日報：OpenAI重磅上線Sora；智譜AI免費多模態(tài)模型GLM-4V-Flash；騰訊云打造AI代碼助手

熱文

雷軍感謝網(wǎng)友祝他年入百萬：愿大家夢想成真今晚8點跨年直播

抖音副總裁回應(yīng)吳柳芳同名賬號被封：仿冒當(dāng)事人

雷軍辟謠只招聘35歲以下員工：僅針對未來之星項目

抖音李亮：字節(jié)70億美元購買英偉達芯片不實張一鳴從未參與算力

法拉第未來漲近80% 此前宣布再獲3000萬美元融資

阿里巴巴AI“生意管家”: 400萬商家的秘密武器

董明珠曾喊話雷軍給股民分多少錢！格力：擬分紅超55億

拼手氣分紅包！支付寶宣布2025年集五福1月20日開啟

網(wǎng)易游戲發(fā)布未成年元旦限玩通知：元旦假期當(dāng)天可玩1小時

雷軍：至今還有30%的車主沒試駕過就直接下單

3萬一只AI寵物：正成為日本富人的新玩具

曝雷軍挖了個95后天才少女“AI小蘿莉”：開出千萬年薪惡補大模

京東科技宣布落實20薪：計劃到2025年實現(xiàn)

AI 的暗面：永遠不要對人工智能聊天機器人說的 10 件事

Edge瀏覽器睡眠標簽頁立功：一年節(jié)省7萬億MB流量

免費寫真人人都能用！騰訊元寶AI跨年美照上線：大片一鍵生成

AI教父辛頓發(fā)聲：30年內(nèi)AI致人類滅亡幾率達10%-20%

李想談OpenAI：如果讓我當(dāng)CEO 我做的不會比Altman更好

出圈就好！盤點2024年國內(nèi)AI大模型產(chǎn)品的那些破圈姿勢

AI 智能體如何在教育領(lǐng)域崛起并塑造 2025 年

站長商機