**劃重點(diǎn):**
1. ?? Adobe Research和澳大利亞國(guó)立大學(xué)(ANU)聯(lián)合宣布,他們研發(fā)出首個(gè)能夠從單一2D圖像生成3D圖像的人工智能模型。
2. ?? 新算法基于大規(guī)模圖像樣本訓(xùn)練,能夠在幾秒鐘內(nèi)生成高質(zhì)量的3D圖像,該算法采用了名為LRM(Large Reconstruction Model)的高度可擴(kuò)展神經(jīng)網(wǎng)絡(luò),包含一百萬(wàn)數(shù)據(jù)集和五億參數(shù)。
3. ?? LRM的成功在于其能夠利用數(shù)百萬(wàn)圖像參數(shù)的數(shù)據(jù)庫(kù),并預(yù)測(cè)神經(jīng)輻射場(chǎng)(NeRF),從而僅基于2D圖像生成逼真的3D圖像,即使這些圖像是低分辨率的。
站長(zhǎng)之家(ChinaZ.com)11月14日 消息:由Adobe Research和澳大利亞國(guó)立大學(xué)(ANU)聯(lián)合研發(fā)的人工智能模型宣布了一項(xiàng)突破性的成果,能夠從單一的2D圖像中生成3D圖像。
研究人員表示,他們的新算法在大規(guī)模圖像樣本上進(jìn)行訓(xùn)練,可以在幾秒鐘內(nèi)生成這樣的3D圖像。該算法采用了名為L(zhǎng)RM(Large Reconstruction Model)的高度可擴(kuò)展神經(jīng)網(wǎng)絡(luò),包含一百萬(wàn)數(shù)據(jù)集和五億參數(shù),涵蓋圖像、3D形狀和視頻等多種數(shù)據(jù)。
該項(xiàng)目的領(lǐng)導(dǎo)作者、澳大利亞國(guó)立大學(xué)工程、計(jì)算和控制學(xué)院的畢業(yè)生、Adobe實(shí)習(xí)生Yicong Hong表示:“這種高容量模型和大規(guī)模訓(xùn)練數(shù)據(jù)的結(jié)合使得我們的模型具有很強(qiáng)的泛化能力,能夠從各種測(cè)試輸入中產(chǎn)生高質(zhì)量的3D重建。”
據(jù)Hong介紹,早期的3D成像軟件只在特定主題類別中表現(xiàn)良好,后來(lái)的圖像生成進(jìn)展是通過(guò)程序如DALL-E和Stable Diffusion實(shí)現(xiàn)的,它們利用了2D擴(kuò)散模型的卓越泛化能力以實(shí)現(xiàn)多視圖。然而,這些程序的結(jié)果僅限于預(yù)訓(xùn)練的2D生成模型。
其他系統(tǒng)利用每形狀優(yōu)化來(lái)取得令人印象深刻的結(jié)果,但根據(jù)Hong的說(shuō)法,它們“通常緩慢且不切實(shí)際”。他指出,利用大規(guī)模數(shù)據(jù)的巨大變壓器網(wǎng)絡(luò)內(nèi)的自然語(yǔ)言模型的發(fā)展激發(fā)了他的團(tuán)隊(duì)提出一個(gè)問(wèn)題:“是否可能學(xué)習(xí)從單一圖像重建對(duì)象的通用3D先驗(yàn)?”他們的答案是“是”。
“LRM可以從現(xiàn)實(shí)世界中捕獲的各種圖像以及由生成模型創(chuàng)建的圖像中重建高保真度的3D形狀?!?Hong說(shuō)道,“LRM也是下游應(yīng)用的高度實(shí)用解決方案,因?yàn)樗梢栽趦H五秒鐘內(nèi)生成一個(gè)3D形狀,無(wú)需后期優(yōu)化。”
該程序的成功在于其能夠利用數(shù)百萬(wàn)圖像參數(shù)的數(shù)據(jù)庫(kù),并預(yù)測(cè)神經(jīng)輻射場(chǎng)(NeRF)。這意味著它能夠僅基于2D圖像生成逼真的3D圖像,即使這些圖像是低分辨率的。與之前的3D軟件相比,該模型的突破性在于其快速、高效地生成高質(zhì)量的3D圖像,為增強(qiáng)現(xiàn)實(shí)、虛擬現(xiàn)實(shí)系統(tǒng)、游戲、影視動(dòng)畫和工業(yè)設(shè)計(jì)等領(lǐng)域帶來(lái)了轉(zhuǎn)變。
總的來(lái)說(shuō),LRM(Large Reconstruction Model)是一種用于從單張圖像生成高保真度3D物體模型的模型。LRM通過(guò)采用大規(guī)模數(shù)據(jù)和高容量模型的組合,實(shí)現(xiàn)了從單張圖像到3D模型的快速而準(zhǔn)確的重建。以下是LRM的主要功能特色:
1. 快速生成:LRM能夠在短短5秒內(nèi),從單張輸入圖像中生成高保真度的3D物體模型。
2. 大規(guī)模訓(xùn)練:與許多先前的方法不同,LRM采用了高度可擴(kuò)展的基于transformer的架構(gòu),具有5億個(gè)可學(xué)習(xí)參數(shù),用于直接預(yù)測(cè)神經(jīng)輻射場(chǎng)(NeRF)。
3. 數(shù)據(jù)多樣性:模型以端到端的方式在包含大約100萬(wàn)個(gè)對(duì)象的大規(guī)模多視圖數(shù)據(jù)上進(jìn)行訓(xùn)練,包括Objaverse的合成渲染和MVImgNet的實(shí)際捕捉數(shù)據(jù)。
4.高通用性: 由于高容量模型和大規(guī)模訓(xùn)練數(shù)據(jù)的結(jié)合,LRM具有很強(qiáng)的通用性,能夠從各種測(cè)試輸入中生成高質(zhì)量的3D重建,包括真實(shí)世界中的野外捕捉和生成模型的圖像。
5. Transformer-Based架構(gòu):LRM采用了完全可微分的transformer-based編碼器-解碼器框架,通過(guò)預(yù)訓(xùn)練的視覺(jué)模型(DINO)對(duì)輸入圖像進(jìn)行編碼,使用大型transformer解碼器通過(guò)交叉注意力將圖像特征投影到3D三平面表示,然后通過(guò)多層感知器預(yù)測(cè)體積渲染的點(diǎn)顏色和密度。
項(xiàng)目頁(yè)面:https://yiconghong.me/LRM/
(舉報(bào))