站長(zhǎng)之家(ChinaZ.com)1月16日 消息:過(guò)去一年擴(kuò)散模型風(fēng)頭正勁,徹底改變了文生圖領(lǐng)域!那么,擴(kuò)散模型能否處理視覺(jué)感知任務(wù)?字節(jié)跳動(dòng)和復(fù)旦大學(xué)技術(shù)團(tuán)隊(duì)在最新研究中提出了一個(gè)簡(jiǎn)單有效的方案。擴(kuò)散模型在生成高清晰度圖像方面顯示出了卓越的能力,這一成就得益于其在大規(guī)模圖像-文本對(duì)上的預(yù)訓(xùn)練。團(tuán)隊(duì)提出了一種利用擴(kuò)散模型處理視覺(jué)感知任務(wù)的方案,通過(guò)引入可學(xué)習(xí)的元提示到預(yù)訓(xùn)練的擴(kuò)散模型中,以提取適合特定感知任務(wù)的特征。
項(xiàng)目地址:https://github.com/fudan-zvg/meta-prompts
視覺(jué)感知任務(wù)的多樣性超出了文本驅(qū)動(dòng)方法的范疇,因此技術(shù)團(tuán)隊(duì)提出了一種內(nèi)部的可學(xué)習(xí)元提示,稱為meta prompts,這些meta prompts被集成到擴(kuò)散模型中,以適應(yīng)感知任務(wù)。Meta prompts可以根據(jù)目標(biāo)任務(wù)和數(shù)據(jù)集進(jìn)行端到端的訓(xùn)練,從而為去噪U(xiǎn)Net建立特別定制的適應(yīng)條件。這些meta prompts包含豐富的、適應(yīng)于特定任務(wù)的語(yǔ)義信息,有效展示了對(duì)類別的識(shí)別能力、對(duì)深度的感知能力以及關(guān)鍵點(diǎn)的感知。
擴(kuò)散模型通過(guò)其固有的設(shè)計(jì),在去噪U(xiǎn)Net中生成多尺度特征,但視覺(jué)感知任務(wù)通常需要理解既包括低級(jí)細(xì)節(jié)的又包括高級(jí)語(yǔ)義解釋的內(nèi)容。為了解決這一問(wèn)題,技術(shù)團(tuán)隊(duì)引入了meta prompts作為特征重組的過(guò)濾器,將UNet的多尺度特征與meta prompts的任務(wù)適應(yīng)性結(jié)合起來(lái),并將經(jīng)過(guò)meta prompts過(guò)濾的特征輸入到特定任務(wù)的解碼器中,從而提高模型在視覺(jué)識(shí)別任務(wù)中的性能。
技術(shù)團(tuán)隊(duì)還為視覺(jué)感知任務(wù)設(shè)計(jì)了一個(gè)簡(jiǎn)單的recurrent refinement過(guò)程,通過(guò)將UNet的輸出特征循環(huán)輸入到UNet中,并引入可學(xué)習(xí)的獨(dú)特的timestep embeddings,以調(diào)制UNet的參數(shù),從而優(yōu)化特征提取過(guò)程,增強(qiáng)模型在視覺(jué)感知任務(wù)中的性能。實(shí)驗(yàn)結(jié)果顯示,該方法在多個(gè)感知任務(wù)數(shù)據(jù)集上都取得了最優(yōu)。
該研究提出的方法和技術(shù)有廣泛的應(yīng)用前景,可以在自動(dòng)駕駛、醫(yī)學(xué)影像分析、機(jī)器人視覺(jué)系統(tǒng)等領(lǐng)域中提升視覺(jué)感知任務(wù)的性能。此外,該方法還可以在藝術(shù)創(chuàng)作、虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)等領(lǐng)域中用于提高圖像和視頻的質(zhì)量和互動(dòng)性。隨著技術(shù)的進(jìn)步,這些方法可能會(huì)進(jìn)一步完善。
(舉報(bào))