幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

首頁 > 業(yè)界 > 關(guān)鍵詞  > 自回歸文生圖最新資訊  > 正文

剛拿下NeurIPS論文,字節(jié)就開源VAR文生圖版本,拿下SOTA擊敗擴(kuò)散模型

2025-01-03 16:18 · 稿源:量子位公眾號(hào)

聲明:本文來自于微信公眾號(hào)量子位 | 公眾號(hào) QbitAI,作者:允中,授權(quán)站長之家轉(zhuǎn)載發(fā)布。

自回歸文生圖,迎來新王者——

新開源模型Infinity,字節(jié)商業(yè)化技術(shù)團(tuán)隊(duì)出品,超越Diffusion Model。

圖片

值得一提的是,這其實(shí)是從前段時(shí)間斬獲NeurIPS最佳論文VAR衍生而來的文生圖版本。

圖片

在預(yù)測(cè)下一級(jí)分辨率的基礎(chǔ)上,Infinity用更加細(xì)粒度的bitwise tokenizer建模圖像空間。同時(shí)他們將詞表擴(kuò)展到無窮大,增大了Image tokenizer的表示空間,大大提高了自回歸文生圖的上限。他們還將模型大小擴(kuò)展到20B。

結(jié)果,不僅在圖像生成質(zhì)量上直接擊敗了Stabel Diffusion3,在推理速度上,它完全繼承了VAR的速度優(yōu)勢(shì),2B模型上比同尺寸SD3快了3倍,比Flux dev快14倍,8B模型上比同尺寸的SD3.5快了7倍。

圖片

目前模型和代碼都已開源,也提供了體驗(yàn)網(wǎng)站。

來看看具體細(xì)節(jié)。

自回歸文生圖新王者

在過去自回歸模型和擴(kuò)散模型的對(duì)比中,自回歸模型廣受詬病的問題是生成圖像的畫質(zhì)不高,缺乏高頻細(xì)節(jié)。

在這一背景下,Infinity生成的圖像細(xì)節(jié)非常豐富,還能夠生成各種長寬比圖像,解掉了大家過去一直疑慮的VAR不支持動(dòng)態(tài)分辨率的問題。

具體性能上面,作為純粹的離散自回歸文生圖模型,Infinity在一眾自回歸方法中一鳴驚人,遠(yuǎn)遠(yuǎn)超過了HART、LlamaGen、Emu3等方法。

圖片

圖片

與此同時(shí),Infinity也超過了SDXL,Stable diffusion3等Diffusion路線的SOTA方法。

人類評(píng)測(cè)上,用戶從畫面整體、指令遵循、美感三個(gè)方面對(duì)于Infinity生成圖像和HART、PixArt-Sigma、SD-XL、SD3-Meidum生成圖像進(jìn)行了雙盲對(duì)比。

其中HART是一個(gè)同樣基于VAR架構(gòu),融合了diffusion和自回歸的方法。PixArt-Sigma、SD-XL、SD3-Meidum是SOTA的擴(kuò)散模型。

Infinity以接近90%的beat rate擊敗了HART模型。顯示了Infinity在自回歸模型中的強(qiáng)勢(shì)地位。

此外,Inifnity以75%、80%、65%的beat rate擊敗了SOTA的擴(kuò)散模型如PixArt-Sigma、SD-XL、SD3-Meidum等,證明了Infinity能夠超過同尺寸的擴(kuò)散模型。

圖片

那么,這背后具體是如何實(shí)現(xiàn)的?

Bitwise Token自回歸建模提升了模型的高頻表示

大道至簡,Infinity的核心創(chuàng)新,就是提出了一個(gè)Bitwise Token的自回歸框架——

拋棄原有的“Index-wise Token”,用+1或-1構(gòu)成的細(xì)粒度的“Bitwise Token”預(yù)測(cè)下一級(jí)分辨率。

在這個(gè)框架下,Infinity表現(xiàn)出很強(qiáng)的scaling特性,通過不斷地scaling視覺編碼器(Visual Tokenizer)和transformer,獲得更好的表現(xiàn)。

圖片

在Bitwise Token自回歸框架中,關(guān)鍵技術(shù)是一個(gè)多尺度的比特粒度視覺編碼器(Visual Tokenizer)。

它將H×W×3大小的圖像編碼、量化為多尺度的特征:1×1×d,2×2×d,…,h×w×d。其中d是視覺編碼器的維度,每一維是+1或-1。詞表的大小是2d。過去的方法中,會(huì)繼續(xù)將d維的特征組合成一個(gè)Index-wise Token(索引的范圍是0~2d-1,用這個(gè)Index-wise Token作為標(biāo)簽進(jìn)行多分類預(yù)測(cè),總共類別是詞表大小,即2d。

Index-wise Token存在模糊監(jiān)督的問題。如下圖所示,當(dāng)量化前的連續(xù)特征發(fā)生微小擾動(dòng)后(0.01變成-0.1),Index-wise Token的標(biāo)簽會(huì)發(fā)生劇烈變化(9變成1),使得模型優(yōu)化困難。

而Bitwise Token僅有一個(gè)比特標(biāo)簽發(fā)生翻轉(zhuǎn),其他比特標(biāo)簽仍能提供穩(wěn)定監(jiān)督。相比于Index-wise Token,Bitwise Token更容易優(yōu)化。

圖片

研究人員在相同的實(shí)驗(yàn)設(shè)置下對(duì)比了Index-wise Token和Bitwise Token。

結(jié)果顯示,預(yù)測(cè)Bitwise Token能夠讓模型學(xué)到更細(xì)粒度的高頻信號(hào),生成圖像的細(xì)節(jié)更加豐富。

圖片

無窮大詞表擴(kuò)展了Tokenizer表示空間

從信息論的角度來看,擴(kuò)散模型采用的連續(xù)Visual Tokenizer表示空間無窮大,而自回歸模型采用的離散Visual Tokenizer表示空間有限。

這就導(dǎo)致了自回歸采用的Tokenizer對(duì)于圖像的壓縮程度更高,對(duì)于高頻細(xì)節(jié)的還原能力差。為了提升自回歸文生圖的上限,研究人員嘗試擴(kuò)大詞表以提升Visual Tokenizer的效果。

但是基于Index-wise Token的自回歸框架非常不適合擴(kuò)大詞表?;贗ndex-wise Token的自回歸模型預(yù)測(cè)Token的方式如下圖左邊所示,模型參數(shù)量和詞表大小正相關(guān)。

當(dāng)d=32的時(shí)候,詞表大小為232,預(yù)測(cè)Index-wise Token的transformer分類器需要有2048×232=8.8×1012=8.8T的參數(shù)量!

光一個(gè)分類器的參數(shù)量就達(dá)到了50個(gè)GPT3的參數(shù)量,這種情況下擴(kuò)充詞表到無窮大顯然是不可能的。

圖片

研究人員的解決方法簡單粗暴,如上圖右邊所示,丟掉索引,直接預(yù)測(cè)比特!有了Bitwise Token自回歸建模后,研究人員采用d個(gè)+1或-1的二分類器,并行地預(yù)測(cè)下一級(jí)分辨率+1或-1的比特標(biāo)簽。做出這樣的改變后,參數(shù)量一下從8.8T降到了0.13M。所以說,采用Bitwise Token建模自回歸后,詞表可以無限大了。

有了無限大詞表,離散化的Visual Tokenizer落后于連續(xù)的問題似乎沒有這么嚴(yán)重了:

圖片

如上表所示,當(dāng)詞表大小放大到后,離散的視覺編碼器在ImageNet上重建的FID居然超過了Stable Diffusion提出的連續(xù)的VAE。

從可視化效果來看,無限大詞表(Vd=232),相比于小詞表,對(duì)于高頻細(xì)節(jié)(如上圖中的人物眼睛、手指)重建效果有質(zhì)的提升

Model Scaling穩(wěn)步提升效果

解決了制約生成效果天花板的視覺編碼器的問題后,研究人員開始了縮放詞表和縮放模型的一系列實(shí)驗(yàn)。

研究發(fā)現(xiàn),對(duì)于125M的小模型,使用Vd=216的小詞表,相比于Vd=232的大詞表,收斂的更快更好。

但是隨著模型的增大,大詞表的優(yōu)勢(shì)逐漸體現(xiàn)出來。當(dāng)模型增大到2B并且訓(xùn)練迭代超過50K以后,大詞表取得了更好的效果。最終Infinity采取Vd=232的大詞表,考慮到232已經(jīng)超過了int32的數(shù)值范圍,可以認(rèn)為是無窮大的數(shù),這也是Infinity的命名由來。

總結(jié)來看,(無窮)大詞表加大模型,加上充分的訓(xùn)練后,效果要明顯好于小詞表加大模型。

圖片

除了scaling詞表以外,研究人員還做了對(duì)Infinity模型大小的scaling實(shí)驗(yàn)。

他們?cè)谕耆嗤膶?shí)驗(yàn)設(shè)定下比較了125M、361M、940M、2.2B、4.7B五個(gè)不同尺寸大小的模型。

可以看到,隨著模型的增大和訓(xùn)練資源的增加,驗(yàn)證集損失穩(wěn)步下降,驗(yàn)證集準(zhǔn)確率穩(wěn)定提升。另外,研究人員發(fā)現(xiàn)驗(yàn)證集Loss和各項(xiàng)測(cè)試指標(biāo)存在很強(qiáng)的線性關(guān)系,線性相關(guān)系數(shù)高達(dá)0.98。

圖片

下圖每個(gè)九宮格對(duì)應(yīng)同一個(gè)提示詞在不同模型大小、不同訓(xùn)練步數(shù)的生成圖像。

  • 從上往下分別是:逐漸增大模型規(guī)模,對(duì)應(yīng)125M、1B、5B模型生成的圖像。

  • 從左往右分別是模型訓(xùn)練的步數(shù)逐漸增多后生成的圖像。

我們能明顯看出:Infinity有著良好的scaling特性,更大的模型、更多的訓(xùn)練,能夠生成語義結(jié)構(gòu)、高頻細(xì)節(jié)更好的圖像。

圖片

另外Infinity還提出了比特自我矯正技術(shù),讓視覺自回歸文生圖模型具有了自我矯正的能力,緩解了自回歸推理時(shí)的累計(jì)誤差問題。

圖片

Infinity還能夠生成各種長寬比圖像,解決了VAR不支持動(dòng)態(tài)分辨率的問題。

下圖列出了Infinity和其他文生圖模型對(duì)比的例子。

可以看到,Infinity在指令遵循,文本渲染、畫面美感等方面都具有更好的表現(xiàn)。

圖片

除了效果以外,Infinity完全繼承了VAR預(yù)測(cè)下一級(jí)分辨率的速度優(yōu)勢(shì),相比于擴(kuò)散模型在推理速度上具有顯著的優(yōu)勢(shì)。

2B模型生成1024x1024的圖像用時(shí)僅為0.8s,相比于同尺寸的SD3-Medium提升了3倍,相比于12B的Flux Dev提升了14倍。8B模型比同尺寸的SD3.5快了7倍。20B 模型生成1024x1024的圖像用時(shí)3s,比12B的Flux Dev還是要快將近4倍。

目前,在GitHub倉庫中,Infinity的訓(xùn)練和推理代碼、demo、模型權(quán)重均已上線。

Infinity2B和20B的模型都已經(jīng)開放了網(wǎng)站體驗(yàn),感興趣的同學(xué)可以試一試效果。

開源地址:https://github.com/FoundationVision/Infinity

項(xiàng)目頁面:https://foundationvision.github.io/infinity.project/

體驗(yàn)網(wǎng)站:https://opensource.bytedance.com/gmpt/t2i/invite

舉報(bào)

  • 相關(guān)推薦
  • 昇騰AI平臺(tái)訓(xùn)練推理!中國聯(lián)通元景文生圖大模型開源:真正懂中文

    中國聯(lián)通宣布,聯(lián)通數(shù)據(jù)智能公司打造、首個(gè)完全在國產(chǎn)昇騰AI軟硬件平臺(tái)上實(shí)現(xiàn)訓(xùn)練和推理的中文原生文生圖模型聯(lián)通元景文生圖模型”,正式開源。該模型實(shí)現(xiàn)了多項(xiàng)自主創(chuàng)新突破:首先是在架構(gòu)上,通過在SDXL架構(gòu)中融合復(fù)合語言編碼模塊,實(shí)現(xiàn)了對(duì)中文長文本、多屬性對(duì)應(yīng)和中文特色詞匯的精確語義理解,對(duì)應(yīng)圖像的生成效果得到了極大提升。該模型已在聯(lián)通的多個(gè)內(nèi)?

  • 你還說這是AI?我們體驗(yàn)了一波生成亞洲人最好看的文生圖大模型

    打開社交媒體平臺(tái),很多人正在熱烈討論一個(gè)叫做「AI模特」的玩法。點(diǎn)開幾個(gè)Demo,確實(shí)驚艷。在即將到來的2025年,你對(duì)國產(chǎn)AI以及可靈AI有怎樣的期許呢?歡迎在評(píng)論區(qū)討論。

  • 小米SU7最新版本OTA推送:正式接入VLM視覺語言大模型

    小米汽車官方宣布,小米SU7汽車已接收到XiaomiHyperOS1.4.5版本的OTA更新,此次更新帶來了13項(xiàng)新功能和26項(xiàng)體驗(yàn)優(yōu)化。更新亮點(diǎn)包括VLM視覺語言大模型的接入,使系統(tǒng)能夠識(shí)別復(fù)雜道路環(huán)境和特殊交通規(guī)則區(qū)域,并通過文字和語音提示駕駛員。還優(yōu)化了胎壓報(bào)警觸發(fā)時(shí)的報(bào)警彈窗、制動(dòng)系統(tǒng)熱衰后報(bào)警提示、電動(dòng)尾翼功能和電動(dòng)尾翼與后備箱之間的邏輯。

  • 香港《CEO資本才俊x Entrepreneur資本企業(yè)家》創(chuàng)刊20周年志慶

    香港《資本雜志》旗下的《CEO資本才俊xEntrepreneur資本企業(yè)家》創(chuàng)刊20周年志慶于12月9日晚在港島香格里拉大酒店隆重舉行周年晚宴。約有200余名政商界友好人士盛情參與,共同見證了這一盛大的慶典時(shí)刻。正如吳旭洋先生所說,展望未來,《CEO資本才俊×Entrepreneur資本企業(yè)家》將繼續(xù)發(fā)揮橋梁作用,為大中華區(qū)的企業(yè)家與CEO搭建溝通平臺(tái),并致力于講好香港經(jīng)濟(jì)與創(chuàng)新的故事,持續(xù)精勤邁向下一個(gè)嶄新征程!

  • 突破算力限制!Meta開源“記憶層”,重塑Transformer架構(gòu)大模型

    今天凌晨3點(diǎn),全球社交巨頭Meta分享了一個(gè)創(chuàng)新研究——Memorylayers。Transformer架構(gòu)的預(yù)訓(xùn)練大模型在存儲(chǔ)、查詢數(shù)據(jù)時(shí),隨著參數(shù)的變大對(duì)算力的需求呈指數(shù)級(jí)增長。這樣的設(shè)計(jì)既簡化了維護(hù)流程,又提高了系統(tǒng)的靈活性和適應(yīng)性。

  • 領(lǐng)克07EM-P迎來大版本OTA,冬季體驗(yàn)全面升級(jí),全國NOA提前加推

    整車OTA逐漸成為了用戶“常用常新”的法寶,而在智能座艙領(lǐng)域具有優(yōu)勢(shì)的車企也逐漸在這個(gè)新賽道拉開和競(jìng)爭對(duì)手的差距。12月20日,領(lǐng)克07EM-P、08EM-P迎來1.7.0版本OTA升級(jí)。領(lǐng)克超電雙子星此次OTA力度可以說非常大,總結(jié)來看具有兩大亮點(diǎn)。第一,在冬季來臨前,大幅解決了用戶冬季用車的痛點(diǎn),例如:為提升東北地區(qū)用戶體驗(yàn),領(lǐng)克07EM-P優(yōu)化低溫充電策略,對(duì)電池小電流放電?

  • “另類”生產(chǎn)品,上線4個(gè)月拿下420萬流量

    編輯部用來做文章配圖的一款產(chǎn)品,訪問量在快速上漲。然后我們發(fā)現(xiàn),這款產(chǎn)品在即刻上的討論度也不低。當(dāng)用戶需要掏出真金白銀來使用Napkin時(shí),它能否靠這樣差異化的定位與功能留住用戶呢,可能還要打上個(gè)大問號(hào)。

  • 格局大了!小米官方開源Home Assistant米家集成:更開放地使用IoT設(shè)備

    小米公司在GitHub上正式開源了名為HomeAssistant米家集成”的項(xiàng)目。這是由小米官方提供支持的HomeAssistant集成組件,允許用戶在HomeAssistant這一開源家庭自動(dòng)化平臺(tái)中無縫使用小米的IoT智能設(shè)備。更多具體詳細(xì)信息可以查看官方文檔。

  • 男子半夜守著門框捉老鼠 一把拿下:被吵的睡不著 忍無可忍

    浙江溫州發(fā)生了一起因老鼠引發(fā)的不尋常事件。一名男子因夜間被老鼠的噪音干擾無法入睡,決定采取行動(dòng)捕捉這些惱人的嚙齒動(dòng)物。當(dāng)?shù)鼐用裣M@一事件能夠提醒更多人關(guān)注家庭衛(wèi)生和害蟲控制,以減少類似的困擾。

  • 理想汽車回應(yīng)OTA機(jī)制:行駛中肯定不會(huì)OTA

    快科技12月16日消息,針對(duì)汽車行駛中是否會(huì)OTA的疑問,理想汽車官方今天進(jìn)行了回應(yīng)。理想汽車表示,車輛在行駛中不會(huì)OTA升級(jí),即便達(dá)到預(yù)約OTA升級(jí)時(shí)間,如果此時(shí)車輛正在行駛狀態(tài),OTA也不會(huì)升級(jí),只是會(huì)提醒車輛不滿足升級(jí)條件,需要重新預(yù)約升級(jí)時(shí)間。官方強(qiáng)調(diào),若車輛到達(dá)預(yù)設(shè)的升級(jí)時(shí)間,需要同時(shí)滿足以下五大條件才會(huì)自動(dòng)更新:1、必須到達(dá)用戶主動(dòng)預(yù)約的升級(jí)

熱文

  • 3 天
  • 7天