站長(zhǎng)之家(ChinaZ.com)1月2日 消息:近年來(lái),計(jì)算機(jī)視覺(jué)領(lǐng)域的關(guān)鍵突破之一是MagicDance框架的問(wèn)世,這是一種基于擴(kuò)散的模型,旨在徹底改變?nèi)梭w運(yùn)動(dòng)傳遞。MagicDance框架通過(guò)兩階段訓(xùn)練策略,聚焦于人體動(dòng)作解纏和外觀因素,為特定目標(biāo)身份生成逼真的人類舞蹈視頻,成為計(jì)算機(jī)視覺(jué)和人工智能領(lǐng)域的新秀。
在計(jì)算機(jī)視覺(jué)領(lǐng)域,人體運(yùn)動(dòng)轉(zhuǎn)移一直是一個(gè)極具挑戰(zhàn)性的任務(wù)。雖然現(xiàn)代模型在分析實(shí)時(shí)場(chǎng)景中的面部特征和物體方面已經(jīng)取得了顯著進(jìn)展,但人體運(yùn)動(dòng)轉(zhuǎn)移依然是一個(gè)巨大的挑戰(zhàn)。這一任務(wù)要求將面部和身體運(yùn)動(dòng)從源圖像或視頻重新定位到目標(biāo)圖像或視頻,涉及到復(fù)雜的姿勢(shì)序列和面部表情。
MagicDance框架的獨(dú)特之處在于其專注于舞蹈視頻生成,通過(guò)將2D人類面部表情和動(dòng)作轉(zhuǎn)移到具有挑戰(zhàn)性的人類舞蹈視頻中,實(shí)現(xiàn)了高度逼真的效果。MagicDance采用了穩(wěn)定擴(kuò)散模型,結(jié)合外觀控制和姿勢(shì)控制,以實(shí)現(xiàn)精準(zhǔn)而有效的圖像到運(yùn)動(dòng)傳遞。該框架在兩階段訓(xùn)練過(guò)程中關(guān)注外觀解纏和膚色、面部表情、服裝等外觀因素,使其能夠生成既逼真又具有原始身份信息的舞蹈視頻。
通過(guò)在TikTok數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,MagicDance框架展現(xiàn)了卓越的泛化能力和高質(zhì)量的生成結(jié)果。在外觀和運(yùn)動(dòng)方面的泛化性表現(xiàn)使得MagicDance框架不僅在復(fù)雜的運(yùn)動(dòng)序列中表現(xiàn)出色,而且在不同人類身份和面部表情下也能夠保持高水準(zhǔn)的逼真性。與現(xiàn)有框架相比,MagicDance框架在Face-Cos得分等指標(biāo)上實(shí)現(xiàn)了明顯的提升,表明其在保存身份信息和生成逼真舞蹈視頻方面具有顯著的優(yōu)越性。
然而,MagicDance框架也面臨一些挑戰(zhàn),如在復(fù)雜場(chǎng)景中面部標(biāo)志和姿勢(shì)骨架檢測(cè)方面的困難,可能導(dǎo)致生成圖像中的偽影。盡管存在一些局限性,MagicDance框架仍然在人體運(yùn)動(dòng)傳遞和舞蹈視頻生成領(lǐng)域取得了顯著進(jìn)展,為計(jì)算機(jī)視覺(jué)和人工智能領(lǐng)域帶來(lái)了新的可能性。
項(xiàng)目地址:https://top.aibase.com/tool/magicdance
(舉報(bào))