幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

首頁 > 業(yè)界 > 關(guān)鍵詞  > VLOGGER最新資訊  > 正文

谷歌推多模態(tài)視頻模型VLOGGER,自動生成豐富動作視頻

2024-04-02 08:45 · 稿源:站長之家

劃重點:

?? 谷歌推出多模態(tài)視頻模型 VLOGGER,能夠自動生成帶語音、豐富動作的人物視頻。

?? VLOGGER 采用全新多階段擴散模型架構(gòu),結(jié)合文本生成圖像模型和時空控制,提升視頻生成逼真效果。

?? VLOGGER 在多個數(shù)據(jù)集上進行綜合測試,表現(xiàn)出色,并不需要重新訓(xùn)練模型即可生成完整目標圖像。

站長之家(ChinaZ.com) 4月2日 消息:谷歌的研究人員最近推出了一款名為 VLOGGER 的多模態(tài)擴散模型,能夠自動生成帶語音、豐富動作的人物視頻。用戶只需向 VLOGGER 輸入圖像和語音,就可以獲得逼真的視頻效果。

VLOGGER 的創(chuàng)新之處在于采用了全新的多階段擴散模型架構(gòu),結(jié)合了文本生成圖像模型和時空控制,從而提升了視頻生成的逼真效果和豐富動作。研究人員在多個數(shù)據(jù)集上對 VLOGGER 進行了綜合測試,結(jié)果顯示 VLOGGER 在視頻質(zhì)量、物體還原性和時序一致性等方面表現(xiàn)出色,同時還能生成豐富的上半身和手勢動作。

image.png

要制作逼真的人物動畫視頻通常需要大量的人工調(diào)整和修補,以確保動作流暢自然。而 VLOGGER 的創(chuàng)新之處在于,其無需針對每個新人物重新訓(xùn)練模型,也不依賴于人臉檢測框選區(qū)域,直接生成完整目標圖像。此外,VLOGGER 還考慮到了現(xiàn)實中復(fù)雜的交流場景,如可見軀干、不同身份等因素,這對正確合成有效交流的人物動作至關(guān)重要。

在技術(shù)實現(xiàn)方面,VLOGGER 首先通過 Transformer 神經(jīng)網(wǎng)絡(luò)處理音頻波形輸入,生成一系列3D 面部表情和身體姿勢參數(shù),用于控制虛擬人物在視頻中的動作。其次,在空間和時間上進行條件控制,生成高質(zhì)量、任意長度的視頻。VLOGGER 還引入了一種 "時序外推" 的技術(shù),允許模型迭代生成任意長度的視頻片段,同時保持時序一致性。為了提高生成效果,VLOGGER 還采用了級聯(lián)擴散方法,對基礎(chǔ)分辨率的視頻進行超分辨重建,生成高質(zhì)量的影像。

VLOGGER 的推出為虛擬數(shù)字人的制作提供了更便捷、高效的解決方案,同時也在多模態(tài)視頻生成領(lǐng)域取得了重要的技術(shù)突破。

產(chǎn)品入口:https://top.aibase.com/tool/vlogger

技術(shù)報告:https://enriccorona.github.io/vlogger/paper.pdf

舉報

  • 相關(guān)推薦
  • 谷歌“狙擊”O(jiān)penAI,發(fā)布新一代大模型,主打Agent+多模態(tài)

    繼量子芯片之后,谷歌又來搶“OpenAI雙12直播”的流量了!就在剛剛,谷歌新一代大模型Gemini2.0突然登場,再次由谷歌CEO皮猜親自官宣。新一代模型專為AIAgent打造,谷歌表示目前已經(jīng)將2.0版本提供給了一些開發(fā)者內(nèi)測,正在迅速將其集成在Gemini和搜索等產(chǎn)品線中。從OpenAI跳槽到谷歌的LoganKilpatrick表示,他們在GoogleAIStudio中創(chuàng)建了一個全新體驗,展示了Gemini2.0視頻理解、原生工具?

  • 智象多模態(tài)生成大模型3.0發(fā)布 離幻覺更遠與離落地更近

    12月28日,智象未來科技有限公司在安徽人工智能產(chǎn)業(yè)先導(dǎo)區(qū)啟動儀式中,正式發(fā)布智象多模態(tài)生成大模型3.0版。啟動儀式上,智象未來創(chuàng)始人兼首席執(zhí)行官梅濤總結(jié)了2024年人工領(lǐng)域技術(shù)發(fā)展的五個標志性事件,分別是以Sora為代表的視覺生成物理世界模擬器、以ChatGPT4o為代表的多模態(tài)模型、以GPT-o1為代表的從預(yù)訓(xùn)練到后訓(xùn)練推理優(yōu)化、多模態(tài)大模型賦能具身智能實現(xiàn)軟硬件結(jié)合,以及人工智能學(xué)者榮獲諾貝爾化學(xué)獎表明AI賦能科研范式變革。本次活動現(xiàn)場,智象未來與人民網(wǎng)、上海電影集團、彩訊科技、捷成華視網(wǎng)聚、安徽聯(lián)通、中國移動咪咕音樂等12家生態(tài)伙伴企業(yè)代表簽約,共同打造集技術(shù)研發(fā)、產(chǎn)業(yè)化應(yīng)用、市場推廣于一體的生態(tài)體系。

  • 成都匯陽投資關(guān)于Sora 正式上線,多模態(tài)模型的里程碑

    事件12月10日,OpenAl正式上線Sora,并向包括美國在內(nèi)的多數(shù)國家用戶開放,用戶可在OpenAI官網(wǎng)上體驗Sora。Sora被包含在ChatGPTPlus和ChatGPTPro的會員訂閱方案中,用戶無需額外付費。股市有風(fēng)險,投資需謹慎。

  • 搶鮮實測騰訊最新AI視頻模型!超寫實質(zhì)感,還會自動切鏡頭

    一只戴著紅色圍巾的企鵝闖進了火熱的AI視頻戰(zhàn)場。騰訊混元發(fā)布了AI視頻生成大模型。未來混元視頻還將上線圖生視頻模型、視頻配音模型、驅(qū)動2D照片數(shù)字人等新能力,讓未來AI內(nèi)容創(chuàng)作更加高效。

  • 中國電信發(fā)布全自研視頻生成大模型 完成全模態(tài)體系構(gòu)建

    12月3日,在中國電信“2024數(shù)字科技生態(tài)大會”期間,首屆“TeleAI開發(fā)者大會”在廣州舉辦。TeleAI發(fā)布視頻生成大模型、視覺大模型產(chǎn)用一體化平臺、具身智能、智傳網(wǎng)等一系列創(chuàng)新技術(shù)、產(chǎn)品及科研成果,并發(fā)布開發(fā)者產(chǎn)業(yè)聯(lián)盟計劃。展出了星辰軟件工廠、星辰慧記、星辰智能體產(chǎn)品、中國電信家庭小管家、星辰大模型一體機等一系列智能產(chǎn)品,讓現(xiàn)場觀眾真實感受未來以來,AI就在每個人的身邊。

  • 迄今最大視頻開源模型!騰訊混元文生視頻上線:一句話生成視頻

    今日,騰訊混元大模型宣布文生視頻功能上線,一句話就能生成視頻。此次開源的視頻生成大模型,參數(shù)量130億,是當(dāng)前最大的視頻開源模型。通過先進的圖像視頻混合VAE,讓模型在細節(jié)表現(xiàn)有明顯提升,特別是小人臉、高速鏡頭等場景。

  • Sora之后,視頻生成模型的中國牌局

    Sora,自2月16日OpenAI發(fā)布后一直被吐槽是“技術(shù)期貨”,終于在12月10日,正式版Sora露面了,可以生成最高1080p分辨率、最長20秒的視頻。OpenAICEO奧特曼稱,Sora正式版是視頻生成領(lǐng)域的GPT-1時刻。大模型的牌局,國內(nèi)企業(yè)正在找到自己的節(jié)奏感。

  • 視頻生成大模型賽道,只是看上去擁擠

    2024年最后一個月,國產(chǎn)大模型落地應(yīng)用突然加速。尤其視頻生成模型,就像密集射出子彈后的槍管,熱得發(fā)燙。AI一天,人間一年。

  • AI日報:阿里通義開源多模態(tài)推理模型QVQ-72B;OpenAI考慮自研人形機器人;QQ音樂上線首個AI大模型音效

    歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、阿里發(fā)布多模態(tài)推理模型QVQ-72B!視覺、語言能力雙提升阿里巴巴最近推出的QVQ-72B多模態(tài)推理模型在語言和視覺能力上實現(xiàn)了顯著提升,能夠處理復(fù)雜的推理和分析任務(wù),尤其在多步推理和數(shù)學(xué)推理方面表現(xiàn)突出。盡管o1-preview在某些方面表現(xiàn)優(yōu)秀,但在實際應(yīng)用中仍面臨高成本和不切實際的測試建議等問題。

  • AI日報:OpenAI重磅上線Sora;智譜AI免費多模態(tài)模型GLM-4V-Flash;騰訊云打造AI代碼助手

    歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、OpenAI正式上線Sora,ChatGPTPro用戶可無限生成、最長20秒OpenAI在"ship-mas"系列活動中發(fā)布了SoraTurbo視頻生成AI,支持生成20秒1080p視頻,用戶可通過文本、圖片或視頻進行創(chuàng)作,具有多種風(fēng)格和剪輯功能。See3D已開源,支持多種3D創(chuàng)作應(yīng)用。

熱文

  • 3 天
  • 7天