聲明:本文來自于微信公眾號(hào)量子位 | 公眾號(hào) QbitAI,作者:允中,授權(quán)站長之家轉(zhuǎn)載發(fā)布。
自回歸文生圖,迎來新王者——
新開源模型Infinity,字節(jié)商業(yè)化技術(shù)團(tuán)隊(duì)出品,超越Diffusion Model。
值得一提的是,這其實(shí)是從前段時(shí)間斬獲NeurIPS最佳論文VAR衍生而來的文生圖版本。
在預(yù)測(cè)下一級(jí)分辨率的基礎(chǔ)上,Infinity用更加細(xì)粒度的bitwise tokenizer建模圖像空間。同時(shí)他們將詞表擴(kuò)展到無窮大,增大了Image tokenizer的表示空間,大大提高了自回歸文生圖的上限。他們還將模型大小擴(kuò)展到20B。
結(jié)果,不僅在圖像生成質(zhì)量上直接擊敗了Stabel Diffusion3,在推理速度上,它完全繼承了VAR的速度優(yōu)勢(shì),2B模型上比同尺寸SD3快了3倍,比Flux dev快14倍,8B模型上比同尺寸的SD3.5快了7倍。
目前模型和代碼都已開源,也提供了體驗(yàn)網(wǎng)站。
來看看具體細(xì)節(jié)。
自回歸文生圖新王者
在過去自回歸模型和擴(kuò)散模型的對(duì)比中,自回歸模型廣受詬病的問題是生成圖像的畫質(zhì)不高,缺乏高頻細(xì)節(jié)。
在這一背景下,Infinity生成的圖像細(xì)節(jié)非常豐富,還能夠生成各種長寬比圖像,解掉了大家過去一直疑慮的VAR不支持動(dòng)態(tài)分辨率的問題。
具體性能上面,作為純粹的離散自回歸文生圖模型,Infinity在一眾自回歸方法中一鳴驚人,遠(yuǎn)遠(yuǎn)超過了HART、LlamaGen、Emu3等方法。
與此同時(shí),Infinity也超過了SDXL,Stable diffusion3等Diffusion路線的SOTA方法。
人類評(píng)測(cè)上,用戶從畫面整體、指令遵循、美感三個(gè)方面對(duì)于Infinity生成圖像和HART、PixArt-Sigma、SD-XL、SD3-Meidum生成圖像進(jìn)行了雙盲對(duì)比。
其中HART是一個(gè)同樣基于VAR架構(gòu),融合了diffusion和自回歸的方法。PixArt-Sigma、SD-XL、SD3-Meidum是SOTA的擴(kuò)散模型。
Infinity以接近90%的beat rate擊敗了HART模型。顯示了Infinity在自回歸模型中的強(qiáng)勢(shì)地位。
此外,Inifnity以75%、80%、65%的beat rate擊敗了SOTA的擴(kuò)散模型如PixArt-Sigma、SD-XL、SD3-Meidum等,證明了Infinity能夠超過同尺寸的擴(kuò)散模型。
那么,這背后具體是如何實(shí)現(xiàn)的?
Bitwise Token自回歸建模提升了模型的高頻表示
大道至簡,Infinity的核心創(chuàng)新,就是提出了一個(gè)Bitwise Token的自回歸框架——
拋棄原有的“Index-wise Token”,用+1或-1構(gòu)成的細(xì)粒度的“Bitwise Token”預(yù)測(cè)下一級(jí)分辨率。
在這個(gè)框架下,Infinity表現(xiàn)出很強(qiáng)的scaling特性,通過不斷地scaling視覺編碼器(Visual Tokenizer)和transformer,獲得更好的表現(xiàn)。
在Bitwise Token自回歸框架中,關(guān)鍵技術(shù)是一個(gè)多尺度的比特粒度視覺編碼器(Visual Tokenizer)。
它將H×W×3大小的圖像編碼、量化為多尺度的特征:1×1×d,2×2×d,…,h×w×d。其中d是視覺編碼器的維度,每一維是+1或-1。詞表的大小是2d。過去的方法中,會(huì)繼續(xù)將d維的特征組合成一個(gè)Index-wise Token(索引的范圍是0~2d-1,用這個(gè)Index-wise Token作為標(biāo)簽進(jìn)行多分類預(yù)測(cè),總共類別是詞表大小,即2d。
Index-wise Token存在模糊監(jiān)督的問題。如下圖所示,當(dāng)量化前的連續(xù)特征發(fā)生微小擾動(dòng)后(0.01變成-0.1),Index-wise Token的標(biāo)簽會(huì)發(fā)生劇烈變化(9變成1),使得模型優(yōu)化困難。
而Bitwise Token僅有一個(gè)比特標(biāo)簽發(fā)生翻轉(zhuǎn),其他比特標(biāo)簽仍能提供穩(wěn)定監(jiān)督。相比于Index-wise Token,Bitwise Token更容易優(yōu)化。
研究人員在相同的實(shí)驗(yàn)設(shè)置下對(duì)比了Index-wise Token和Bitwise Token。
結(jié)果顯示,預(yù)測(cè)Bitwise Token能夠讓模型學(xué)到更細(xì)粒度的高頻信號(hào),生成圖像的細(xì)節(jié)更加豐富。
無窮大詞表擴(kuò)展了Tokenizer表示空間
從信息論的角度來看,擴(kuò)散模型采用的連續(xù)Visual Tokenizer表示空間無窮大,而自回歸模型采用的離散Visual Tokenizer表示空間有限。
這就導(dǎo)致了自回歸采用的Tokenizer對(duì)于圖像的壓縮程度更高,對(duì)于高頻細(xì)節(jié)的還原能力差。為了提升自回歸文生圖的上限,研究人員嘗試擴(kuò)大詞表以提升Visual Tokenizer的效果。
但是基于Index-wise Token的自回歸框架非常不適合擴(kuò)大詞表?;贗ndex-wise Token的自回歸模型預(yù)測(cè)Token的方式如下圖左邊所示,模型參數(shù)量和詞表大小正相關(guān)。
當(dāng)d=32的時(shí)候,詞表大小為232,預(yù)測(cè)Index-wise Token的transformer分類器需要有2048×232=8.8×1012=8.8T的參數(shù)量!
光一個(gè)分類器的參數(shù)量就達(dá)到了50個(gè)GPT3的參數(shù)量,這種情況下擴(kuò)充詞表到無窮大顯然是不可能的。
研究人員的解決方法簡單粗暴,如上圖右邊所示,丟掉索引,直接預(yù)測(cè)比特!有了Bitwise Token自回歸建模后,研究人員采用d個(gè)+1或-1的二分類器,并行地預(yù)測(cè)下一級(jí)分辨率+1或-1的比特標(biāo)簽。做出這樣的改變后,參數(shù)量一下從8.8T降到了0.13M。所以說,采用Bitwise Token建模自回歸后,詞表可以無限大了。
有了無限大詞表,離散化的Visual Tokenizer落后于連續(xù)的問題似乎沒有這么嚴(yán)重了:
如上表所示,當(dāng)詞表大小放大到后,離散的視覺編碼器在ImageNet上重建的FID居然超過了Stable Diffusion提出的連續(xù)的VAE。
從可視化效果來看,無限大詞表(Vd=232),相比于小詞表,對(duì)于高頻細(xì)節(jié)(如上圖中的人物眼睛、手指)重建效果有質(zhì)的提升
Model Scaling穩(wěn)步提升效果
解決了制約生成效果天花板的視覺編碼器的問題后,研究人員開始了縮放詞表和縮放模型的一系列實(shí)驗(yàn)。
研究發(fā)現(xiàn),對(duì)于125M的小模型,使用Vd=216的小詞表,相比于Vd=232的大詞表,收斂的更快更好。
但是隨著模型的增大,大詞表的優(yōu)勢(shì)逐漸體現(xiàn)出來。當(dāng)模型增大到2B并且訓(xùn)練迭代超過50K以后,大詞表取得了更好的效果。最終Infinity采取Vd=232的大詞表,考慮到232已經(jīng)超過了int32的數(shù)值范圍,可以認(rèn)為是無窮大的數(shù),這也是Infinity的命名由來。
總結(jié)來看,(無窮)大詞表加大模型,加上充分的訓(xùn)練后,效果要明顯好于小詞表加大模型。
除了scaling詞表以外,研究人員還做了對(duì)Infinity模型大小的scaling實(shí)驗(yàn)。
他們?cè)谕耆嗤膶?shí)驗(yàn)設(shè)定下比較了125M、361M、940M、2.2B、4.7B五個(gè)不同尺寸大小的模型。
可以看到,隨著模型的增大和訓(xùn)練資源的增加,驗(yàn)證集損失穩(wěn)步下降,驗(yàn)證集準(zhǔn)確率穩(wěn)定提升。另外,研究人員發(fā)現(xiàn)驗(yàn)證集Loss和各項(xiàng)測(cè)試指標(biāo)存在很強(qiáng)的線性關(guān)系,線性相關(guān)系數(shù)高達(dá)0.98。
下圖每個(gè)九宮格對(duì)應(yīng)同一個(gè)提示詞在不同模型大小、不同訓(xùn)練步數(shù)的生成圖像。
從上往下分別是:逐漸增大模型規(guī)模,對(duì)應(yīng)125M、1B、5B模型生成的圖像。
從左往右分別是模型訓(xùn)練的步數(shù)逐漸增多后生成的圖像。
我們能明顯看出:Infinity有著良好的scaling特性,更大的模型、更多的訓(xùn)練,能夠生成語義結(jié)構(gòu)、高頻細(xì)節(jié)更好的圖像。
另外Infinity還提出了比特自我矯正技術(shù),讓視覺自回歸文生圖模型具有了自我矯正的能力,緩解了自回歸推理時(shí)的累計(jì)誤差問題。
Infinity還能夠生成各種長寬比圖像,解決了VAR不支持動(dòng)態(tài)分辨率的問題。
下圖列出了Infinity和其他文生圖模型對(duì)比的例子。
可以看到,Infinity在指令遵循,文本渲染、畫面美感等方面都具有更好的表現(xiàn)。
除了效果以外,Infinity完全繼承了VAR預(yù)測(cè)下一級(jí)分辨率的速度優(yōu)勢(shì),相比于擴(kuò)散模型在推理速度上具有顯著的優(yōu)勢(shì)。
2B模型生成1024x1024的圖像用時(shí)僅為0.8s,相比于同尺寸的SD3-Medium提升了3倍,相比于12B的Flux Dev提升了14倍。8B模型比同尺寸的SD3.5快了7倍。20B 模型生成1024x1024的圖像用時(shí)3s,比12B的Flux Dev還是要快將近4倍。
目前,在GitHub倉庫中,Infinity的訓(xùn)練和推理代碼、demo、模型權(quán)重均已上線。
Infinity2B和20B的模型都已經(jīng)開放了網(wǎng)站體驗(yàn),感興趣的同學(xué)可以試一試效果。
開源地址:https://github.com/FoundationVision/Infinity
項(xiàng)目頁面:https://foundationvision.github.io/infinity.project/
體驗(yàn)網(wǎng)站:https://opensource.bytedance.com/gmpt/t2i/invite
—完—
(舉報(bào))