劃重點(diǎn):
- 無(wú)需標(biāo)注數(shù)據(jù),3DHM框架即可讓照片動(dòng)起來(lái),模仿目標(biāo)視頻動(dòng)作,衣服動(dòng)起來(lái)也真實(shí)!
- 研究人員提出了一個(gè)兩階段的、基于擴(kuò)散模型的框架3DHM,通過(guò)從單個(gè)圖像完成紋理圖來(lái)合成3D人體運(yùn)動(dòng),然后渲染3D人體以模仿視頻中actor的動(dòng)作。
- 該方法在生成長(zhǎng)時(shí)間運(yùn)動(dòng)和各種高難度的姿勢(shì)上更有彈性,對(duì)視頻圖像渲染更加逼真。
站長(zhǎng)之家(ChinaZ.com)1月29日 消息:加州大學(xué)伯克利分校的研究人員最近發(fā)布了一個(gè)名為3DHM的框架,能夠讓一張圖片動(dòng)起來(lái),模仿任意視頻動(dòng)作,即使是視頻中的衣服也能夠運(yùn)動(dòng)得非常真實(shí)。
這一框架無(wú)需標(biāo)注數(shù)據(jù),通過(guò)從單個(gè)圖像完成紋理圖來(lái)合成3D人體運(yùn)動(dòng),然后渲染3D人體以模仿視頻中actor的動(dòng)作。通過(guò)這種方法,研究人員能夠在生成長(zhǎng)時(shí)間運(yùn)動(dòng)和各種高難度的姿勢(shì)上更有彈性,對(duì)視頻圖像渲染更加逼真。
為了解決這個(gè)問(wèn)題,研究人員使用填充擴(kuò)散模型,在給定的單張圖像中想象出不可見(jiàn)部分,然后在紋理圖空間上訓(xùn)練該模型,在姿勢(shì)和視點(diǎn)不變的條件下提升采樣效率。
他們還開(kāi)發(fā)了一個(gè)基于擴(kuò)散模型的渲染pipeline,由3D人體姿勢(shì)控制,從而可以生成目標(biāo)人物在不同姿勢(shì)下的逼真渲染,包括衣服、頭發(fā)和看不見(jiàn)區(qū)域下的合理填充。實(shí)驗(yàn)結(jié)果表明,相比以前的方法,該方法在生成長(zhǎng)時(shí)間運(yùn)動(dòng)和各種高難度的姿勢(shì)上更有彈性。
在具體實(shí)現(xiàn)上,研究人員首先利用一種常用的方法來(lái)推斷像素到表面的對(duì)應(yīng)關(guān)系,從而建立一個(gè)不完整的UV紋理圖,用于從單張RGB圖像中提取三維網(wǎng)格紋理。同時(shí)計(jì)算可見(jiàn)性掩碼,以顯示哪些像素在3D中可見(jiàn),哪些不可見(jiàn)。接著,通過(guò)生成偽完整紋理貼圖來(lái)渲染人物。
在第二階段,他們通過(guò)收集大量的配對(duì)數(shù)據(jù)訓(xùn)練第二階段擴(kuò)散模型,以獲得一個(gè)模仿actor動(dòng)作的人的逼真渲染效果。
這種方法使得他們能夠在生成具有生動(dòng)紋理的真人圖像上取得良好的效果。
論文網(wǎng)址:https://arxiv.org/abs/2401.10889
(舉報(bào))