站長(zhǎng)之家(ChinaZ.com)3月19日 消息:騰訊近日推出了一項(xiàng)名為OMG的新研究,這項(xiàng)研究支持在一張圖片中生成多角色多概念。這是一個(gè)突破性的進(jìn)展,因?yàn)橐郧暗腎D或概念保持項(xiàng)目只能將一個(gè)人還原在圖片里面,而有了這個(gè)項(xiàng)目以后,就可以實(shí)現(xiàn)多人合照了。
項(xiàng)目地址:https://top.aibase.com/tool/omg
該項(xiàng)目還支持與原有的ID保持項(xiàng)目一起使用,比如Lora以及InstantID。這意味著,用戶可以在一個(gè)項(xiàng)目中同時(shí)使用多個(gè)模型,無(wú)需進(jìn)行額外的調(diào)整。這對(duì)于需要處理大量圖像的研究人員和開發(fā)者來(lái)說(shuō),無(wú)疑是一個(gè)巨大的便利。
OMG的代碼已經(jīng)開源,這意味著所有的開發(fā)者都可以查看其插件實(shí)現(xiàn)。這無(wú)疑將進(jìn)一步推動(dòng)該領(lǐng)域的研究和發(fā)展。
OMG是一個(gè)為個(gè)性化生成設(shè)計(jì)的框架,它能友好地處理遮擋問(wèn)題,能在一幅圖像中無(wú)縫集成多種概念。這個(gè)框架包含兩個(gè)階段:第一階段專注于圖像布局的生成和為處理遮擋而收集視覺(jué)理解信息;第二階段則利用這些視覺(jué)理解信息,并結(jié)合精心設(shè)計(jì)的噪聲混合技術(shù),將多個(gè)概念融合在一起,同時(shí)考慮遮擋因素。
在噪聲混合過(guò)程中,選擇合適的開始去噪時(shí)間點(diǎn)對(duì)于保持人物身份和圖像布局至關(guān)重要。這一點(diǎn)的發(fā)現(xiàn),無(wú)疑將為未來(lái)的研究提供重要的參考。
此外,OMG還能與多種單概念生成模型兼容,如LoRA和InstantID。尤其值得一提的是,LoRA模型可以直接從這個(gè)網(wǎng)址獲取并使用。這無(wú)疑將進(jìn)一步推動(dòng)該領(lǐng)域的研究和發(fā)展。
總的來(lái)說(shuō),騰訊的這項(xiàng)新研究,不僅為我們提供了一個(gè)全新的視角來(lái)處理圖像生成問(wèn)題,也為未來(lái)的研究提供了重要的參考。我們期待看到更多的研究成果在這個(gè)領(lǐng)域出現(xiàn)。
(舉報(bào))