剛拿下NeurIPS論文，字節(jié)就開源VAR文生圖版本，拿下SOTA擊敗擴(kuò)散模型

2025-01-03 16:18 · 稿源：量子位公眾號(hào)

聲明:本文來自于微信公眾號(hào)量子位 | 公眾號(hào) QbitAI，作者:允中，授權(quán)站長之家轉(zhuǎn)載發(fā)布。

新開源模型Infinity，字節(jié)商業(yè)化技術(shù)團(tuán)隊(duì)出品，超越Diffusion Model。

值得一提的是，這其實(shí)是從前段時(shí)間斬獲NeurIPS最佳論文VAR衍生而來的文生圖版本。

在預(yù)測(cè)下一級(jí)分辨率的基礎(chǔ)上，Infinity用更加細(xì)粒度的bitwise tokenizer建模圖像空間。同時(shí)他們將詞表擴(kuò)展到無窮大，增大了Image tokenizer的表示空間，大大提高了自回歸文生圖的上限。他們還將模型大小擴(kuò)展到20B。

結(jié)果，不僅在圖像生成質(zhì)量上直接擊敗了Stabel Diffusion3，在推理速度上，它完全繼承了VAR的速度優(yōu)勢(shì)，2B模型上比同尺寸SD3快了3倍，比Flux dev快14倍，8B模型上比同尺寸的SD3.5快了7倍。

目前模型和代碼都已開源，也提供了體驗(yàn)網(wǎng)站。

來看看具體細(xì)節(jié)。

自回歸文生圖新王者

在過去自回歸模型和擴(kuò)散模型的對(duì)比中，自回歸模型廣受詬病的問題是生成圖像的畫質(zhì)不高，缺乏高頻細(xì)節(jié)。

在這一背景下，Infinity生成的圖像細(xì)節(jié)非常豐富，還能夠生成各種長寬比圖像，解掉了大家過去一直疑慮的VAR不支持動(dòng)態(tài)分辨率的問題。

具體性能上面，作為純粹的離散自回歸文生圖模型，Infinity在一眾自回歸方法中一鳴驚人，遠(yuǎn)遠(yuǎn)超過了HART、LlamaGen、Emu3等方法。

與此同時(shí)，Infinity也超過了SDXL，Stable diffusion3等Diffusion路線的SOTA方法。

人類評(píng)測(cè)上，用戶從畫面整體、指令遵循、美感三個(gè)方面對(duì)于Infinity生成圖像和HART、PixArt-Sigma、SD-XL、SD3-Meidum生成圖像進(jìn)行了雙盲對(duì)比。

其中HART是一個(gè)同樣基于VAR架構(gòu)，融合了diffusion和自回歸的方法。PixArt-Sigma、SD-XL、SD3-Meidum是SOTA的擴(kuò)散模型。

Infinity以接近90%的beat rate擊敗了HART模型。顯示了Infinity在自回歸模型中的強(qiáng)勢(shì)地位。

此外，Inifnity以75%、80%、65%的beat rate擊敗了SOTA的擴(kuò)散模型如PixArt-Sigma、SD-XL、SD3-Meidum等，證明了Infinity能夠超過同尺寸的擴(kuò)散模型。

那么，這背后具體是如何實(shí)現(xiàn)的?

Bitwise Token自回歸建模提升了模型的高頻表示

大道至簡，Infinity的核心創(chuàng)新，就是提出了一個(gè)Bitwise Token的自回歸框架——

拋棄原有的“Index-wise Token”，用+1或-1構(gòu)成的細(xì)粒度的“Bitwise Token”預(yù)測(cè)下一級(jí)分辨率。

在這個(gè)框架下，Infinity表現(xiàn)出很強(qiáng)的scaling特性，通過不斷地scaling視覺編碼器（Visual Tokenizer）和transformer，獲得更好的表現(xiàn)。

在Bitwise Token自回歸框架中，關(guān)鍵技術(shù)是一個(gè)多尺度的比特粒度視覺編碼器（Visual Tokenizer）。

它將H×W×3大小的圖像編碼、量化為多尺度的特征:1×1×d，2×2×d，…，h×w×d。其中d是視覺編碼器的維度，每一維是+1或-1。詞表的大小是2^d。過去的方法中，會(huì)繼續(xù)將d維的特征組合成一個(gè)Index-wise Token（索引的范圍是0~2^d-1，用這個(gè)Index-wise Token作為標(biāo)簽進(jìn)行多分類預(yù)測(cè)，總共類別是詞表大小，即2^d。

Index-wise Token存在模糊監(jiān)督的問題。如下圖所示，當(dāng)量化前的連續(xù)特征發(fā)生微小擾動(dòng)后（0.01變成-0.1），Index-wise Token的標(biāo)簽會(huì)發(fā)生劇烈變化(9變成1)，使得模型優(yōu)化困難。

而Bitwise Token僅有一個(gè)比特標(biāo)簽發(fā)生翻轉(zhuǎn)，其他比特標(biāo)簽仍能提供穩(wěn)定監(jiān)督。相比于Index-wise Token，Bitwise Token更容易優(yōu)化。

研究人員在相同的實(shí)驗(yàn)設(shè)置下對(duì)比了Index-wise Token和Bitwise Token。

結(jié)果顯示，預(yù)測(cè)Bitwise Token能夠讓模型學(xué)到更細(xì)粒度的高頻信號(hào)，生成圖像的細(xì)節(jié)更加豐富。

無窮大詞表擴(kuò)展了Tokenizer表示空間

從信息論的角度來看，擴(kuò)散模型采用的連續(xù)Visual Tokenizer表示空間無窮大，而自回歸模型采用的離散Visual Tokenizer表示空間有限。

這就導(dǎo)致了自回歸采用的Tokenizer對(duì)于圖像的壓縮程度更高，對(duì)于高頻細(xì)節(jié)的還原能力差。為了提升自回歸文生圖的上限，研究人員嘗試擴(kuò)大詞表以提升Visual Tokenizer的效果。

但是基于Index-wise Token的自回歸框架非常不適合擴(kuò)大詞表?；贗ndex-wise Token的自回歸模型預(yù)測(cè)Token的方式如下圖左邊所示，模型參數(shù)量和詞表大小正相關(guān)。

當(dāng)d=32的時(shí)候，詞表大小為2³²，預(yù)測(cè)Index-wise Token的transformer分類器需要有2048×2³²=8.8×10¹²=8.8T的參數(shù)量!

光一個(gè)分類器的參數(shù)量就達(dá)到了50個(gè)GPT3的參數(shù)量，這種情況下擴(kuò)充詞表到無窮大顯然是不可能的。

研究人員的解決方法簡單粗暴，如上圖右邊所示，丟掉索引，直接預(yù)測(cè)比特!有了Bitwise Token自回歸建模后，研究人員采用d個(gè)+1或-1的二分類器，并行地預(yù)測(cè)下一級(jí)分辨率+1或-1的比特標(biāo)簽。做出這樣的改變后，參數(shù)量一下從8.8T降到了0.13M。所以說，采用Bitwise Token建模自回歸后，詞表可以無限大了。

有了無限大詞表，離散化的Visual Tokenizer落后于連續(xù)的問題似乎沒有這么嚴(yán)重了:

如上表所示，當(dāng)詞表大小放大到后，離散的視覺編碼器在ImageNet上重建的FID居然超過了Stable Diffusion提出的連續(xù)的VAE。

從可視化效果來看，無限大詞表（V_d=2³²），相比于小詞表，對(duì)于高頻細(xì)節(jié)（如上圖中的人物眼睛、手指)重建效果有質(zhì)的提升

Model Scaling穩(wěn)步提升效果

解決了制約生成效果天花板的視覺編碼器的問題后，研究人員開始了縮放詞表和縮放模型的一系列實(shí)驗(yàn)。

研究發(fā)現(xiàn)，對(duì)于125M的小模型，使用V_d=2¹⁶的小詞表，相比于V_d=2³²的大詞表，收斂的更快更好。

但是隨著模型的增大，大詞表的優(yōu)勢(shì)逐漸體現(xiàn)出來。當(dāng)模型增大到2B并且訓(xùn)練迭代超過50K以后，大詞表取得了更好的效果。最終Infinity采取V_d=2³²的大詞表，考慮到2³²已經(jīng)超過了int32的數(shù)值范圍，可以認(rèn)為是無窮大的數(shù)，這也是Infinity的命名由來。

總結(jié)來看，（無窮）大詞表加大模型，加上充分的訓(xùn)練后，效果要明顯好于小詞表加大模型。

除了scaling詞表以外，研究人員還做了對(duì)Infinity模型大小的scaling實(shí)驗(yàn)。

他們?cè)谕耆嗤膶?shí)驗(yàn)設(shè)定下比較了125M、361M、940M、2.2B、4.7B五個(gè)不同尺寸大小的模型。

可以看到，隨著模型的增大和訓(xùn)練資源的增加，驗(yàn)證集損失穩(wěn)步下降，驗(yàn)證集準(zhǔn)確率穩(wěn)定提升。另外，研究人員發(fā)現(xiàn)驗(yàn)證集Loss和各項(xiàng)測(cè)試指標(biāo)存在很強(qiáng)的線性關(guān)系，線性相關(guān)系數(shù)高達(dá)0.98。

下圖每個(gè)九宮格對(duì)應(yīng)同一個(gè)提示詞在不同模型大小、不同訓(xùn)練步數(shù)的生成圖像。

從上往下分別是:逐漸增大模型規(guī)模，對(duì)應(yīng)125M、1B、5B模型生成的圖像。
從左往右分別是模型訓(xùn)練的步數(shù)逐漸增多后生成的圖像。

我們能明顯看出:Infinity有著良好的scaling特性，更大的模型、更多的訓(xùn)練，能夠生成語義結(jié)構(gòu)、高頻細(xì)節(jié)更好的圖像。

另外Infinity還提出了比特自我矯正技術(shù)，讓視覺自回歸文生圖模型具有了自我矯正的能力，緩解了自回歸推理時(shí)的累計(jì)誤差問題。

Infinity還能夠生成各種長寬比圖像，解決了VAR不支持動(dòng)態(tài)分辨率的問題。

下圖列出了Infinity和其他文生圖模型對(duì)比的例子。

可以看到，Infinity在指令遵循，文本渲染、畫面美感等方面都具有更好的表現(xiàn)。

除了效果以外，Infinity完全繼承了VAR預(yù)測(cè)下一級(jí)分辨率的速度優(yōu)勢(shì)，相比于擴(kuò)散模型在推理速度上具有顯著的優(yōu)勢(shì)。

2B模型生成1024x1024的圖像用時(shí)僅為0.8s，相比于同尺寸的SD3-Medium提升了3倍，相比于12B的Flux Dev提升了14倍。8B模型比同尺寸的SD3.5快了7倍。20B 模型生成1024x1024的圖像用時(shí)3s，比12B的Flux Dev還是要快將近4倍。

目前，在GitHub倉庫中，Infinity的訓(xùn)練和推理代碼、demo、模型權(quán)重均已上線。

Infinity2B和20B的模型都已經(jīng)開放了網(wǎng)站體驗(yàn)，感興趣的同學(xué)可以試一試效果。

開源地址:https://github.com/FoundationVision/Infinity

項(xiàng)目頁面:https://foundationvision.github.io/infinity.project/

體驗(yàn)網(wǎng)站:https://opensource.bytedance.com/gmpt/t2i/invite

—完—

（舉報(bào)）

相關(guān)推薦

關(guān)鍵詞：

昇騰AI平臺(tái)訓(xùn)練推理！中國聯(lián)通元景文生圖大模型開源：真正懂中文

中國聯(lián)通宣布，聯(lián)通數(shù)據(jù)智能公司打造、首個(gè)完全在國產(chǎn)昇騰AI軟硬件平臺(tái)上實(shí)現(xiàn)訓(xùn)練和推理的中文原生文生圖模型聯(lián)通元景文生圖模型”，正式開源。該模型實(shí)現(xiàn)了多項(xiàng)自主創(chuàng)新突破：首先是在架構(gòu)上，通過在SDXL架構(gòu)中融合復(fù)合語言編碼模塊，實(shí)現(xiàn)了對(duì)中文長文本、多屬性對(duì)應(yīng)和中文特色詞匯的精確語義理解，對(duì)應(yīng)圖像的生成效果得到了極大提升。該模型已在聯(lián)通的多個(gè)內(nèi)?

?中國聯(lián)通 ?昇騰AI ?文生圖模型
薦你還說這是AI？我們體驗(yàn)了一波生成亞洲人最好看的文生圖大模型

打開社交媒體平臺(tái)，很多人正在熱烈討論一個(gè)叫做「AI模特」的玩法。點(diǎn)開幾個(gè)Demo，確實(shí)驚艷。在即將到來的2025年，你對(duì)國產(chǎn)AI以及可靈AI有怎樣的期許呢?歡迎在評(píng)論區(qū)討論。

?可靈
小米SU7最新版本OTA推送：正式接入VLM視覺語言大模型

小米汽車官方宣布，小米SU7汽車已接收到XiaomiHyperOS1.4.5版本的OTA更新，此次更新帶來了13項(xiàng)新功能和26項(xiàng)體驗(yàn)優(yōu)化。更新亮點(diǎn)包括VLM視覺語言大模型的接入，使系統(tǒng)能夠識(shí)別復(fù)雜道路環(huán)境和特殊交通規(guī)則區(qū)域，并通過文字和語音提示駕駛員。還優(yōu)化了胎壓報(bào)警觸發(fā)時(shí)的報(bào)警彈窗、制動(dòng)系統(tǒng)熱衰后報(bào)警提示、電動(dòng)尾翼功能和電動(dòng)尾翼與后備箱之間的邏輯。

?小米汽車 ?Xiaomi ?HyperOS
香港《CEO資本才俊x Entrepreneur資本企業(yè)家》創(chuàng)刊20周年志慶

香港《資本雜志》旗下的《CEO資本才俊xEntrepreneur資本企業(yè)家》創(chuàng)刊20周年志慶于12月9日晚在港島香格里拉大酒店隆重舉行周年晚宴。約有200余名政商界友好人士盛情參與，共同見證了這一盛大的慶典時(shí)刻。正如吳旭洋先生所說，展望未來，《CEO資本才俊×Entrepreneur資本企業(yè)家》將繼續(xù)發(fā)揮橋梁作用，為大中華區(qū)的企業(yè)家與CEO搭建溝通平臺(tái)，并致力于講好香港經(jīng)濟(jì)與創(chuàng)新的故事，持續(xù)精勤邁向下一個(gè)嶄新征程！

?資本雜志 ?CEO資本 ?企業(yè)家盛典
薦突破算力限制！Meta開源“記憶層”，重塑Transformer架構(gòu)大模型

今天凌晨3點(diǎn)，全球社交巨頭Meta分享了一個(gè)創(chuàng)新研究——Memorylayers。Transformer架構(gòu)的預(yù)訓(xùn)練大模型在存儲(chǔ)、查詢數(shù)據(jù)時(shí)，隨著參數(shù)的變大對(duì)算力的需求呈指數(shù)級(jí)增長。這樣的設(shè)計(jì)既簡化了維護(hù)流程，又提高了系統(tǒng)的靈活性和適應(yīng)性。

?Meta
領(lǐng)克07EM-P迎來大版本OTA，冬季體驗(yàn)全面升級(jí)，全國NOA提前加推

整車OTA逐漸成為了用戶“常用常新”的法寶，而在智能座艙領(lǐng)域具有優(yōu)勢(shì)的車企也逐漸在這個(gè)新賽道拉開和競(jìng)爭對(duì)手的差距。12月20日，領(lǐng)克07EM-P、08EM-P迎來1.7.0版本OTA升級(jí)。領(lǐng)克超電雙子星此次OTA力度可以說非常大，總結(jié)來看具有兩大亮點(diǎn)。第一，在冬季來臨前，大幅解決了用戶冬季用車的痛點(diǎn)，例如:為提升東北地區(qū)用戶體驗(yàn)，領(lǐng)克07EM-P優(yōu)化低溫充電策略，對(duì)電池小電流放電?

?整車OTA ?智能座艙 ?用戶體驗(yàn)
薦“另類”生圖產(chǎn)品，上線4個(gè)月拿下420萬流量

編輯部用來做文章配圖的一款產(chǎn)品，訪問量在快速上漲。然后我們發(fā)現(xiàn)，這款產(chǎn)品在即刻上的討論度也不低。當(dāng)用戶需要掏出真金白銀來使用Napkin時(shí)，它能否靠這樣差異化的定位與功能留住用戶呢，可能還要打上個(gè)大問號(hào)。

?Napkin ?AI ?信息圖生成
格局大了！小米官方開源Home Assistant米家集成：更開放地使用IoT設(shè)備

小米公司在GitHub上正式開源了名為HomeAssistant米家集成”的項(xiàng)目。這是由小米官方提供支持的HomeAssistant集成組件，允許用戶在HomeAssistant這一開源家庭自動(dòng)化平臺(tái)中無縫使用小米的IoT智能設(shè)備。更多具體詳細(xì)信息可以查看官方文檔。

?小米 ?Home ?Assistant
男子半夜守著門框捉老鼠一把拿下：被吵的睡不著忍無可忍

浙江溫州發(fā)生了一起因老鼠引發(fā)的不尋常事件。一名男子因夜間被老鼠的噪音干擾無法入睡，決定采取行動(dòng)捕捉這些惱人的嚙齒動(dòng)物。當(dāng)?shù)鼐用裣Ｍ@一事件能夠提醒更多人關(guān)注家庭衛(wèi)生和害蟲控制，以減少類似的困擾。

?老鼠捕捉 ?夜間噪音 ?浙江溫州事件
理想汽車回應(yīng)OTA機(jī)制：行駛中肯定不會(huì)OTA

快科技12月16日消息，針對(duì)汽車行駛中是否會(huì)OTA的疑問，理想汽車官方今天進(jìn)行了回應(yīng)。理想汽車表示，車輛在行駛中不會(huì)OTA升級(jí)，即便達(dá)到預(yù)約OTA升級(jí)時(shí)間，如果此時(shí)車輛正在行駛狀態(tài)，OTA也不會(huì)升級(jí)，只是會(huì)提醒車輛不滿足升級(jí)條件，需要重新預(yù)約升級(jí)時(shí)間。官方強(qiáng)調(diào)，若車輛到達(dá)預(yù)設(shè)的升級(jí)時(shí)間，需要同時(shí)滿足以下五大條件才會(huì)自動(dòng)更新：1、必須到達(dá)用戶主動(dòng)預(yù)約的升級(jí)

?理想汽車 ?汽車OTA升級(jí) ?行駛安全

熱文

3 天
7天

站長商機(jī)

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

剛拿下NeurIPS論文，字節(jié)就開源VAR文生圖版本，拿下SOTA擊敗擴(kuò)散模型

自回歸文生圖新王者

Bitwise Token自回歸建模提升了模型的高頻表示

無窮大詞表擴(kuò)展了Tokenizer表示空間

Model Scaling穩(wěn)步提升效果

昇騰AI平臺(tái)訓(xùn)練推理！中國聯(lián)通元景文生圖大模型開源：真正懂中文

薦你還說這是AI？我們體驗(yàn)了一波生成亞洲人最好看的文生圖大模型

小米SU7最新版本OTA推送：正式接入VLM視覺語言大模型

香港《CEO資本才俊x Entrepreneur資本企業(yè)家》創(chuàng)刊20周年志慶

薦突破算力限制！Meta開源“記憶層”，重塑Transformer架構(gòu)大模型

領(lǐng)克07EM-P迎來大版本OTA，冬季體驗(yàn)全面升級(jí)，全國NOA提前加推

薦“另類”生圖產(chǎn)品，上線4個(gè)月拿下420萬流量

格局大了！小米官方開源Home Assistant米家集成：更開放地使用IoT設(shè)備

男子半夜守著門框捉老鼠一把拿下：被吵的睡不著忍無可忍

理想汽車回應(yīng)OTA機(jī)制：行駛中肯定不會(huì)OTA

熱文

蘋果市值一夜蒸發(fā)7248億此前官網(wǎng)已開啟降價(jià)活動(dòng)

雷軍親自出面海底撈正式入駐小米科技園全體員工88折

辛巴要花15億開超市：號(hào)稱將改變大家消費(fèi)習(xí)慣

周鴻祎：打工不可能賺大錢創(chuàng)業(yè)才能財(cái)富自由

法拉第未來股價(jià)一夜暴漲超50% 第二品牌FX原型車即將亮相

胖東來正式規(guī)定員工不得收付彩禮、依靠父母買房買車

1999元全球首款媽祖平安智能手表發(fā)布：搭載華為智能機(jī)芯

抖音宣布將加強(qiáng)內(nèi)容推薦多樣性破除“信息繭房”

周鴻祎：我也要送車什么車大家算了算

格力申請(qǐng)董瓷、明珠瓷和格力好老公等商標(biāo)

雷軍辟謠只招聘35歲以下員工：僅針對(duì)未來之星項(xiàng)目

雷軍曬健身房照片：此前設(shè)定100次健身打卡目標(biāo)

雷軍感謝網(wǎng)友祝他年入百萬：愿大家夢(mèng)想成真今晚8點(diǎn)跨年直播

阿里巴巴AI“生意管家”: 400萬商家的秘密武器

蘋果市值一夜蒸發(fā)7248億此前官網(wǎng)已開啟降價(jià)活動(dòng)

拼手氣分紅包！支付寶宣布2025年集五福1月20日開啟

抖音副總裁回應(yīng)吳柳芳同名賬號(hào)被封：仿冒當(dāng)事人

董明珠曾喊話雷軍給股民分多少錢！格力：擬分紅超55億

蘋果官網(wǎng)突然降價(jià) 客服回應(yīng)能否退差價(jià)

俞敏洪稱東方甄選是火藥桶：未來一定會(huì)更加美好

站長商機(jī)

剛拿下NeurIPS論文，字節(jié)就開源VAR文生圖版本，拿下SOTA擊敗擴(kuò)散模型

自回歸文生圖新王者

Bitwise Token自回歸建模提升了模型的高頻表示

無窮大詞表擴(kuò)展了Tokenizer表示空間

Model Scaling穩(wěn)步提升效果

熱文

站長商機(jī)

剛拿下NeurIPS論文，字節(jié)就開源VAR文生圖版本，拿下SOTA擊敗擴(kuò)散模型