幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

首頁 > 業(yè)界 > 關(guān)鍵詞  > 通義萬相最新資訊  > 正文

通義萬相首創(chuàng)生成漢字視頻,全面進化稱霸VBench!AI視頻GPT-3時刻來臨

2025-01-10 13:45 · 稿源:新智元公眾號

聲明:本文來自于微信公眾號 新智元,作者:新智元,授權(quán)站長之家轉(zhuǎn)載發(fā)布。

【新智元導(dǎo)讀】通義萬相視頻模型,再度迎來史詩級升級!處理復(fù)雜運動、還原真實物理規(guī)律等方面令人驚嘆,甚至業(yè)界首創(chuàng)了漢字視頻生成?,F(xiàn)在,通義萬相直接以84.70%總分擊敗了一眾頂尖模型,登頂VBench榜首。

Sora、Veo2接連發(fā)布之后,AI視頻生成的戰(zhàn)場又熱鬧了起來。

就在昨天,通義萬相視頻生成模型迎來了重磅升級!

他們一口氣推出了兩個版本:注重高效的2.1極速版、追求卓越表現(xiàn)的2.1專業(yè)版。

圖片

剛一上線,就異?;鸨?,等待時間甚至一度達到了1小時

此次,全面升級的模型不僅在架構(gòu)上取得創(chuàng)新,更是以84.70%總分登頂權(quán)威評測榜單VBench榜首。

通義萬相2.1的性能一舉超越了Gen-3、CausVid等全球頂尖模型。

圖片

在實用性方面,通義萬相2.1也得到了顯著的提升,尤其是在處理復(fù)雜運動、還原真實物理規(guī)律、提升影視質(zhì)感、優(yōu)化指令遵循等方面。

以下都是我們實測出的Demos,就說夠不夠拍電影大片吧!

image.png

更令人驚嘆的是,它還在業(yè)界首次實現(xiàn)了中文文字視頻生成,讓AI視頻文字創(chuàng)作再無門檻。

以紅色新年宣紙為背景,出現(xiàn)一滴水墨,暈染墨汁緩緩暈染開來。文字的筆畫邊緣模糊且自然,隨著暈染的進行,水墨在紙上呈現(xiàn)「?!棺郑珡纳畹綔\過渡,呈現(xiàn)出獨特的東方韻味。背景高級簡潔,雜志攝影感。

從今天起,所有人皆可在通義萬相官網(wǎng)體驗新模型,開發(fā)者則可以通過阿里云百煉直接調(diào)用API,阿里云也成為了國內(nèi)第一家實現(xiàn)視頻生成模型商業(yè)化的云廠商。

那么,通義萬相2.1究竟給我們帶來了哪些驚喜?

我們經(jīng)過一番實測后,總結(jié)出了5大要點。

1. 首創(chuàng)中文文字生成

通常來說,文字生成是AI視頻模型進化的一大痛點。

我們已經(jīng)看到Sora、Gen-3等模型,已經(jīng)能夠生成很好的英文字母效果,不過截至目前,從未有一個模型能攻克漢字的生成難題。

圖片

為什么之前的AI視頻生成工具,都在「逃避」中文文字生成這個難題?

這是因為難點在于,中文文字的字體結(jié)構(gòu)比英文更復(fù)雜,而且需要考慮筆畫的層次感。在布局方面,中文字體更講究,做成動態(tài)效果時對美感要求更高。

而阿里通義萬相,便是首個中文文字視頻生成的模型。從此,AI視頻生成邁入「中文時代」!

這一切,只需要你動動手指,輸入簡單的文字提示就夠了。

圖片

天空中飄著云朵,云朵呈現(xiàn)「新年快樂」的字樣,微風(fēng)吹過,云朵隨著風(fēng)輕輕飄動。

圖片

水彩透疊插畫風(fēng)格,兩只不同顏色的可愛小貓咪手舉著一條超大的魚,從右邊走到左邊。它們分別穿著粉色和藍色的小背心,眼睛圓圓的,表情呆萌。充滿童趣,筆觸淡雅溫馨,簡筆畫風(fēng)格。純白背景上逐漸顯示出來幾個字體,寫著:「摸魚一天 快樂無邊」。

一只柯基坐在桌前冥想,背后一個「靜」字非常應(yīng)景。

圖片

一只柯基面前擺放著一只小巧的木魚,仿佛在進行冥想儀式,背景出現(xiàn)字樣「靜」。

2. 更穩(wěn)定的復(fù)雜運動生成

對于大多數(shù)AI視頻模型來說,無法逃脫「體操」魔咒。有人稱,這是AI視頻最新的「圖靈測試」。

你會經(jīng)常看到,AI體操視頻生成中,扭曲的肢體、不協(xié)調(diào)的動作滿屏皆是。

圖片

這僅是復(fù)雜肢體運動的一種,因為涉及到精細細節(jié)和高水平動作協(xié)調(diào),成為了AI視頻生成的一項重要評判標(biāo)準(zhǔn)。

生成一個人物復(fù)雜運動,對于AI來說就像是在解一道物理難題——

它不僅要做到身體各個部位精準(zhǔn)配合,讓四肢保持協(xié)調(diào),還要考慮重力、人體運動特點、平衡感等各種細節(jié)。

最新升級中,通義萬相在多種場景下展示了驚人的「運動天賦」。

滑冰、游泳、跳水這些極易出錯的名場面,萬相2.1也通通Hold住,沒有出現(xiàn)任何詭異的肢體動作,和不符合物理規(guī)律的場景。

圖片

平拍一位女性花樣滑冰運動員在冰場上進行表演的全景。她穿著紫色的滑冰服,腳踩白色的滑冰鞋,正在進行一個旋轉(zhuǎn)動作。她的手臂張開,身體向后傾斜,展現(xiàn)了她的技巧和優(yōu)雅。

圖片

在泳池中,一名男子正在奮力向前游動。近景俯拍鏡頭下,他穿著黑色泳衣,戴著白色泳帽和黑色泳鏡,正在水中劃動雙臂。他的頭部部分被泳帽和泳鏡遮擋,只露出嘴巴和鼻子。他的手臂在水中劃動,產(chǎn)生了一系列的水花和氣泡。隨著他的動作,水面上出現(xiàn)了漣漪,水花四濺。背景是藍色的泳池。

就看這個跳水動作,完全就是一個專業(yè)級選手的樣子。肌肉的精準(zhǔn)控制、濺起的水花,都非常符合自然規(guī)律。

圖片

一名男子在跳臺上做專業(yè)跳水動作。全景平拍鏡頭中,他穿著紅色泳褲,身體呈倒立狀態(tài),雙臂伸展,雙腿并攏。鏡頭下移,他跳入水中,濺起水花。背景中是藍色的泳池。

特寫鏡頭下,女孩以手指輕觸紅唇,然后開懷大笑。這么近的懟臉特寫,表情肌的走向和分布都十分自然,臉部紋路和嘴角笑起的弧線,也逼真似真人。

圖片

特寫鏡頭下,一位美女面容精致,她先是以手指輕觸紅唇,微微抿嘴,眼神中透露出一絲俏皮。緊接著,她毫無保留地開懷大笑,笑容如同綻放的花朵,美麗動人,眼角彎成了月牙狀,展現(xiàn)出無比的快樂與感染力。

3. 更靈活的運鏡控制

同一個場景下的視頻,為什么專業(yè)人士拍出來就是不一樣?某種程度上講,秘訣在于「運鏡」。

那么,對于AI來說,教它運鏡就相當(dāng)于在教機器人當(dāng)導(dǎo)演。

它需要理解跟隨拍攝節(jié)奏、快慢推進速度,還要保持協(xié)調(diào)性的問題,比如鏡頭移動時,主體不能丟失;運鏡速度變化要自然,不能忽快忽慢。

更重要的是,AI還得有藝術(shù)感,運鏡效果要符合視覺習(xí)慣,動態(tài)美感要恰到好處。

在通義萬相2.1版本中,AI展現(xiàn)出了專業(yè)級的運鏡效果。

穿著禪衣的小狐貍,在360度運鏡下歡快跳舞,這不,夢幻般的效果一下子就來了。

圖片

穿著禪意風(fēng)服飾的可愛狐貍在林間空地上歡快地跳舞,身上的衣物隨風(fēng)輕揚。狐貍有著蓬松的尾巴和靈動的眼神,嘴角帶著微笑,仿佛在享受自然的每一刻。背景是茂密的竹林,陽光透過竹葉灑下斑駁光影。畫面采用旋轉(zhuǎn)拍攝,營造出夢幻般的動感效果。整體風(fēng)格清新自然,充滿東方韻味。近景動態(tài)特寫。

此外,新模型還能自動根據(jù)場景需求,智能調(diào)整運鏡速度,完美把控了鏡頭的節(jié)奏。

海王在暴風(fēng)雨中駕馭巨浪前行,這種級別的運鏡絕對經(jīng)得起考驗,出現(xiàn)在大熒幕上也毫不違和。

圖片

暴風(fēng)雨中的海面,海王駕馭巨浪前行,肌肉線條,灰暗天空,戲劇性照明,動態(tài)鏡頭,粗獷,高清,動漫風(fēng)格

實驗室中女醫(yī)生精心設(shè)計的特寫鏡頭,細膩的表情刻畫,以及背后燈光、實驗器材等多種元素碰撞,讓整個角色立即具備了豐富的層次感。

圖片

富有電影感的鏡頭捕捉了一位身著暗黃色生化防護服的女醫(yī)生,實驗室慘白的熒光燈將她的身影籠罩其中。鏡頭緩緩?fù)七M她的面部特寫,細膩的橫向推移凸顯出她眉宇間深深刻畫的憂思與焦慮。她專注地俯身于實驗臺前,目不轉(zhuǎn)睛地透過顯微鏡觀察,手套包裹的雙手正謹慎地微調(diào)著焦距。整個場景籠罩在壓抑的色調(diào)之中,防護服呈現(xiàn)出令人不安的黃色,與實驗室冰冷的不銹鋼器械相互映襯,無聲地訴說著事態(tài)的嚴(yán)峻和未知的威脅。景深精確控制下,鏡頭對準(zhǔn)她眼中流露的恐懼,完美傳達出她肩負的重大壓力與責(zé)任。

下面這個鏡頭中,穿過一條兩盤種滿樹木的郊區(qū)住宅街道,給人一種實時拍攝的感覺。

圖片

A fast-tracking shot down an suburban residential street lined with trees. Daytime with a clear blue sky. Saturated colors, high contrast

4. 真實的物理規(guī)律模擬

AI視頻模型不理解物理世界,一直以來飽受詬病。

比如,Sora不僅會生成8條腿的螞蟻,而且眼瞧著手都要被切斷了,也切不開西紅柿, 而通義萬相2.1切西紅柿就像發(fā)生在現(xiàn)實生活中一樣自然真實。

圖片

這一次,通義萬相在物理規(guī)律理解上,得到顯著提升。通過對現(xiàn)實世界動態(tài)和細節(jié)深入認知,就能模擬出真實感十足的視頻,避免「一眼假」情況的出現(xiàn)。

就看這個經(jīng)典切牛排的視頻,刀刃沿著肉質(zhì)紋理緩緩切入,表面上一層薄薄的油脂,在陽光下散發(fā)著誘人的光澤,每一處細節(jié)都盡顯質(zhì)感與鮮美。

圖片

在餐廳里,一個人正在切一塊熱氣騰騰的牛排。在特寫俯拍下,這個人右手拿著一把鋒利的刀,將刀放在牛排上,然后沿著牛排中心切開。這個人手上涂著白色指甲油,背景是虛化的,有一個白色的盤子,里面放著黃色的食物,還有一張棕色的桌子。

它具備更強大的概念組合能力,能夠準(zhǔn)確理解和整合元素級的概念,使其在生成內(nèi)容時更加智能。

比如,柯基+拳擊,會碰撞出什么呢?

AI生成的柯基打斗的畫面,真給人一種人類拳擊的現(xiàn)場感。

圖片

兩只柯基狗在擂臺中央進行拳擊比賽。左邊的狗戴著黑色拳套,右邊的狗戴著紅色拳套。平拍鏡頭下,兩只狗都穿著拳擊短褲,身體肌肉線條明顯。它們互相揮動拳頭,進行攻防轉(zhuǎn)換。整個場景在固定視角下拍攝,沒有明顯的運鏡變化。

AI大牛Karpathy最愛考驗AI視頻的難題,就是「水獺在飛機上用wifi」。這道題,萬相2.1完美做出。

圖片

5. 高級質(zhì)感、多種風(fēng)格、多長寬比

更值得一提的是,萬相2.1能夠生成「電影級」畫質(zhì)的視頻。

同時,它還能支持各類藝術(shù)風(fēng)格,比如卡通、電影色、3D風(fēng)格、油畫、古典等等。

不論是哥特式電影風(fēng)格,還是中國古典宮廷風(fēng)格,AI將其特點呈現(xiàn)得淋漓盡致。

圖片

哥特式電影風(fēng)格,亞當(dāng)斯騎在一匹黑色駿馬上,馬蹄輕踏在古老的石板路上。她身穿黑色長裙,頭戴寬邊帽,眼神冷峻,嘴角微揚,透出一絲神秘。背景是陰暗的古堡和茂密的森林,天空中飄著烏云。鏡頭晃動,營造出一種不安與緊張的氛圍。近景動態(tài)騎馬場景。

這個中國古典宮廷風(fēng)格的畫面,鏡頭由群臣向前推進,聚焦在身披龍袍的皇帝身上,好像正在上映的一部古裝劇。

圖片

中國古典宮廷風(fēng)格,古代皇宮宮殿上正在進行皇帝的登基大典。群臣身著華麗朝服,表情肅穆,排列整齊。鏡頭從群臣視角出發(fā)快速向前推進,鎖定在身穿龍袍、頭戴皇冠的皇帝身影上。皇帝面容威嚴(yán),眼神堅定,緩緩步入大殿。背景是金碧輝煌的大殿,雕梁畫棟,氣勢恢宏。畫面帶有濃厚的皇家氛圍,近景特寫與中景結(jié)合,快速推進和跟隨拍攝。

養(yǎng)蜂人手中的蜂蜜罐在陽光中折射出溫暖的光暈,背后的向日葵與鄉(xiāng)村老宅相映成趣,構(gòu)筑出一幅充滿歲月與質(zhì)感的畫面。

圖片

The camera floats gently through rows of pastel-painted wooden beehives, buzzing honeybees gliding in and out of frame. The motion settles on the refined farmer standing at the center, his pristine white beekeeping suit gleaming in the golden afternoon light. He lifts a jar of honey, tilting it slightly to catch the light. Behind him, tall sunflowers sway rhythmically in the breeze, their petals glowing in the warm sunlight. The camera tilts upward to reveal a retro farmhouse.

大文豪李白的「舉頭望明月,低頭思故鄉(xiāng)」,AI直接把氛圍感拉滿。

圖片

古風(fēng)畫面,一位古人抬頭望著月亮,緩緩低頭,眼神中流露出深深的思鄉(xiāng)之情。

對于詞窮的創(chuàng)意者來說,通義萬相「智能體擴寫」功能非常友好。比如, 我想生成一個「超快放大蒲公英,展現(xiàn)宏觀夢幻般的抽象世界」。

若想要細節(jié)更豐富的描述,直接交給AI就好了。它會自動生成一段文案,可以直接復(fù)用,也可以二次編輯修改。

圖片

且看,AI視頻中展現(xiàn)了蒲公英種子的驚人細節(jié),鏡頭慢慢放大至每根絨毛纖毫畢現(xiàn),仿佛進入了一個夢幻般的世界。

圖片

此外,萬相2.1還能支持5種不同的長寬比——1:1,3:4,4:3,16:9,9:16,恰好可以匹配電視、電腦、手機等不同終端設(shè)備。

圖片

核心架構(gòu)創(chuàng)新

那么,到底是什么讓通義萬相,能在激烈AI視頻生成競爭中脫穎而出?

它又藏著哪些讓人眼前一亮的「黑科技」?

接下來,讓我們逐一分解此次2.1版本的技術(shù)創(chuàng)新突破點。

自研VAE與DiT雙重突破

通過采用自研的高效VAE和DiT架構(gòu),阿里團隊在時空上下文關(guān)系建模方面取得重大突破。

模型基于線性噪聲軌跡的Flow Matching方案展開了深度設(shè)計,同時驗證了Scaling Law在視頻生成任務(wù)中的有效性。

圖片

通義萬相2.1視頻生成架構(gòu)圖

在視頻VAE層面,通過結(jié)合緩存機制和因果卷積,團隊提出了一個極具創(chuàng)新性的視頻編碼解決方案。

通過將視頻拆分為多個若干塊(Chunk)并緩存中間特征,替代長視頻的E2E編端到端解碼過程。顯存的使用僅與Chunk大小相關(guān),與原始視頻長度無關(guān)。

由此,這一關(guān)鍵技術(shù)能夠支持無限長1080P視頻的高效編解碼,為任意時長視頻訓(xùn)練開辟新途徑。

如下圖所示,展示了不同VAE模型的計算效率和視頻壓縮重構(gòu)指標(biāo)的結(jié)果。

值得一提的是,通義萬相VAE在較小的模型參數(shù)規(guī)模下,取得了業(yè)內(nèi)領(lǐng)先的視頻壓縮重構(gòu)質(zhì)量。

圖片

通義萬相2.1視頻VAE和其他方法的結(jié)果對比

DiT架構(gòu)的設(shè)計圍繞兩個核心目標(biāo)展開:實現(xiàn)強大的時空建模能力,同時保持高效的訓(xùn)練過程。

具體創(chuàng)新包括:

· 時空全注意機制

為了提高時空關(guān)系建模能力,通義萬相團隊采用了「時空全注意機制」,讓模型能夠更準(zhǔn)確地模擬現(xiàn)實世界的復(fù)雜動態(tài)。

· 參數(shù)共享機制

團隊引入了「參數(shù)共享機制」,不僅提升了模型性能,還有效降低了訓(xùn)練成本。

· 優(yōu)化文本嵌入

針對文本嵌入進行了性能優(yōu)化,在提供更優(yōu)的文本可控性的同時,還降低了計算需求。

得益于這些創(chuàng)新,使得新模型在相同計算成本下,凸顯出收斂的優(yōu)越性,并更易實現(xiàn)Scaling Law的驗證。

超長序列訓(xùn)練和推理

通過結(jié)合全新通義萬相模型 Workload 的特點和訓(xùn)練集群的硬件性能,團隊制定了訓(xùn)練的分布式、顯存優(yōu)化的策略。

這一策略在保證模型迭代時間前提下,優(yōu)化訓(xùn)練性能,在業(yè)界率先實現(xiàn)了100萬Tokens的高效訓(xùn)練。

在分布式訓(xùn)練策略上,團隊開發(fā)了創(chuàng)新的4D并行策略,結(jié)合了DP、FSDP、RingAttention、Ulysses混合并行,顯著提升了訓(xùn)練性能和分布式擴展性。

圖片

通義萬相4D并行分布式訓(xùn)練策略

在顯存優(yōu)化上,采用了分層顯存優(yōu)化策略優(yōu)化Activation顯存,解決了顯存碎片問題。

在計算優(yōu)化上,使用FlashAttention3進行時空全注意力計算,并結(jié)合訓(xùn)練集群在不同尺寸上的計算性能,選擇合適的CP策略進行切分。

同時,針對一些關(guān)鍵模塊,去除計算冗余,使用高效Kernel實現(xiàn),降低訪存開銷,提升了計算效率。

在文件系統(tǒng)優(yōu)化上,結(jié)合了阿里云訓(xùn)練集群的高性能文件系統(tǒng),采用分片Save/Load方式,提升了讀寫性能。

在模型訓(xùn)練過程中,通過錯峰內(nèi)存使用方案,能夠解決多種OOM問題,比如由Dataloader Prefetch 、CPU Offloading 和 Save Checkpoint所引起的問題。

在訓(xùn)練穩(wěn)定性方面,借助于阿里云訓(xùn)練集群的智能化調(diào)度、慢機檢測,以及自愈能力,能在訓(xùn)練過程中實現(xiàn)自動識別故障節(jié)點并快速重啟任務(wù)。

規(guī)模化數(shù)據(jù)構(gòu)建管線與模型自動化評估機制

規(guī)?;母哔|(zhì)量數(shù)據(jù)是大型模型訓(xùn)練的基礎(chǔ),而有效的模型評估,則指引著大模型訓(xùn)練的方向。

為此,團隊建立了一套完整的自動化數(shù)據(jù)構(gòu)建系統(tǒng)。

該管線在視覺質(zhì)量、運動質(zhì)量等方面與人類偏好分布高度一致,能夠自動構(gòu)建高質(zhì)量的視頻數(shù)據(jù),同時還具備多樣化、分布均衡等特點。

針對模型評估,團隊還開發(fā)了覆蓋多維的自動化評估系統(tǒng),涵蓋美學(xué)評分、運動分析和指令遵循等20多個維度。

與此同時,訓(xùn)練出專業(yè)的打分器,以對齊人類偏好,通過評估反饋加速模型的迭代優(yōu)化。

AI視頻生成下一個里程碑

去年12月,OpenAI和谷歌相繼放出Sora、Veo2模型,讓視頻生成領(lǐng)域的熱度再一次升溫。

從創(chuàng)業(yè)新秀到科技巨頭,都希望在這場技術(shù)革新中尋找自己的位置。

但是相較于文本的生成,制作出令人信服的AI視頻,確實是一個更具挑戰(zhàn)性的命題。

Sora正式上線那天,奧特曼曾表示,「它就像視頻領(lǐng)域的GPT-1,現(xiàn)在還處于初期階段」。

圖片

若要從GPT-1通往GPT-3時刻,還需要在角色一致性、物理規(guī)律理解、文本指令精準(zhǔn)控制等方面取得技術(shù)突破。

當(dāng)AI真正打破現(xiàn)實創(chuàng)作的局限,賦予創(chuàng)意工作者前所未有的想象,新一輪的行業(yè)變革必將隨之而來。

此次,通義萬相2.1取得重大突破,讓我們有理由相信,AI視頻的GPT-3時刻正加速到來。

參考資料:

https://tongyi.aliyun.com/wanxiang/videoCreation

舉報

  • 相關(guān)推薦

熱文

  • 3 天
  • 7天