要點(diǎn):
1. Adobe研究院和斯坦福大學(xué)的研究者提出了一種基于Transformer的3D生成方法DMV3D,利用單個A100GPU僅需30秒即可生成各種高保真3D圖像。
2. DMV3D是一種全新的單階段全類別擴(kuò)散模型,通過2D多視圖圖像擴(kuò)散、3D NeRF重建和渲染的集成,實(shí)現(xiàn)端到端的訓(xùn)練,避免了傳統(tǒng)3D生成方法中的問題。
3. 通過使用稀疏的多視圖投影作為訓(xùn)練數(shù)據(jù),DMV3D能夠在單個圖像或文本輸入的情況下實(shí)現(xiàn)3D生成,取得了在單圖像3D重建方面的State-of-the-Art(SOTA)結(jié)果,超越了先前方法。
站長之家(ChinaZ.com)11月27日 消息:近期,Adobe研究院和斯坦福大學(xué)的研究者推出了一項(xiàng)創(chuàng)新的3D生成方法,命名為DMV3D。通過基于Transformer的新型單階段全類別擴(kuò)散模型,該方法能在單個A100GPU上僅需30秒的時間內(nèi)生成高保真3D圖像。DMV3D通過將2D多視圖圖像擴(kuò)散、3D NeRF重建和渲染集成到一個端到端的訓(xùn)練過程中,成功避免了傳統(tǒng)方法中的問題。
論文地址:https://arxiv.org/pdf/2311.09217.pdf
官網(wǎng)地址:https://justimyhxu.github.io/projects/dmv3d/
這項(xiàng)研究的關(guān)鍵在于使用稀疏的多視圖投影作為訓(xùn)練數(shù)據(jù),以解決傳統(tǒng)3D生成方法中存在的模糊和難以去噪的問題。相比之下,DMV3D展示了在單個圖像或文本輸入的情況下實(shí)現(xiàn)3D生成的能力。通過固定一個稀疏視圖作為無噪聲輸入,并對其他視圖進(jìn)行類似于2D圖像修復(fù)的降噪,DMV3D能夠在30秒內(nèi)生成各種高保真3D圖像,這一成果超越了先前基于SDS的方法和3D擴(kuò)散模型。
研究者還介紹了DMV3D的訓(xùn)練和推理過程,包括基于重建的多視圖降噪器的構(gòu)建、多視圖擴(kuò)散和去噪的方法以及模型的時間和相機(jī)調(diào)節(jié)。此外,通過引入文本或圖像的條件降噪器,DMV3D實(shí)現(xiàn)了可控的3D生成,為無條件生成模型提供了更多可能性。
這一創(chuàng)新方法的提出對于AI視覺領(lǐng)域的3D生成研究具有重要意義,不僅在技術(shù)上解決了傳統(tǒng)方法的問題,而且在性能上取得了SOTA的成果。該研究為未來的VR、AR、機(jī)器人技術(shù)和游戲等應(yīng)用領(lǐng)域提供了新的可能性。
(舉報)