**劃重點:**
- 通過大規(guī)模訓練的AI模型,Adobe研究人員成功將單一2D圖像轉(zhuǎn)化為高質(zhì)量3D模型,僅需5秒。
- 這一突破性技術(shù)在游戲、動畫、工業(yè)設(shè)計、增強現(xiàn)實和虛擬現(xiàn)實等領(lǐng)域具有廣泛應(yīng)用前景。
- 該模型的能力有望改變工業(yè)設(shè)計、娛樂和用戶生成內(nèi)容領(lǐng)域,為3D建模帶來革命性變化。
站長之家(ChinaZ.com)11月10日 消息:Adobe研究人員與澳大利亞國立大學的團隊合作,成功開發(fā)了一種突破性的人工智能(AI)模型,能夠在短短5秒內(nèi)將單一2D圖像轉(zhuǎn)化為高質(zhì)量的3D模型。
這一突破性技術(shù)在他們的研究論文《LRM:單一圖像到3D的大型重建模型》中有詳細介紹,有望徹底改變游戲、動畫、工業(yè)設(shè)計、增強現(xiàn)實(AR)和虛擬現(xiàn)實(VR)等領(lǐng)域。
研究人員表示,他們的目標是從一張任意對象的2D圖像中迅速創(chuàng)建一個3D形狀。這一技術(shù)有著廣泛的應(yīng)用前景,對于工業(yè)設(shè)計、動畫、游戲以及AR/VR等領(lǐng)域都具有巨大的潛力。此前的方法通常是針對特定類別的小型數(shù)據(jù)集進行訓練,而這一模型采用了高度可擴展的基于變壓器的神經(jīng)網(wǎng)絡(luò)架構(gòu),擁有超過5億個參數(shù),并在端到端的方式上訓練,從輸入圖像直接預測神經(jīng)輻射場(NeRF)。
研究人員強調(diào),這一高容量模型和大規(guī)模訓練數(shù)據(jù)的結(jié)合使他們的模型具有高度通用性,可以從各種測試輸入中生成高質(zhì)量的3D重建,包括從真實世界野外捕捉的圖像以及來自生成模型的圖像。
研究中的主要作者Yicong Hong表示,LRM代表了單一圖像3D重建的一項突破。他指出,LRM是首個大規(guī)模3D重建模型,包含超過5億個可學習參數(shù),經(jīng)過訓練的數(shù)據(jù)包括各種類別的約100萬個3D形狀和視頻數(shù)據(jù)。實驗結(jié)果顯示,LRM可以從真實世界的圖像以及由AI生成模型(如DALL-E和Stable Diffusion)創(chuàng)建的圖像中重建高保真的3D模型,同時保留復雜的紋理,如木紋。
這一技術(shù)有望在多個領(lǐng)域產(chǎn)生深遠影響,從工業(yè)設(shè)計到娛樂和游戲。在視頻游戲或動畫制作中,它可以簡化創(chuàng)建3D模型的流程,降低時間和資源開支。在工業(yè)設(shè)計領(lǐng)域,該模型可以通過從2D草圖中創(chuàng)建準確的3D模型,加快原型制作的過程。在AR/VR領(lǐng)域,LRM可以通過實時生成詳細的3D環(huán)境,提升用戶體驗。
此外,LRM的能力在處理野外捕捉的圖像方面具有潛力,為用戶生成內(nèi)容和3D建模的民主化開辟了新的可能性。用戶有望從使用智能手機拍攝的照片中創(chuàng)建高質(zhì)量的3D模型,從而開辟了創(chuàng)意和商業(yè)機會。
盡管有著令人興奮的前景,研究人員也承認LRM存在一些限制,如處理遮擋區(qū)域的模糊紋理生成。但他們表示,這項工作展示了基于大規(guī)模數(shù)據(jù)集訓練的大型變壓器模型具有學習通用的3D重建能力的潛力。
項目網(wǎng)址:https://yiconghong.me/LRM/
(舉報)