站長(zhǎng)之家(ChinaZ.com)7月12日 消息:谷歌最近發(fā)布了 MediaPipe Diffusion 插件,這是一個(gè)可在移動(dòng)設(shè)備上運(yùn)行的低成本可控文本到圖像生成解決方案。該插件可以提取條件圖像中的特征,并將其注入到擴(kuò)散模型的編碼器中,以實(shí)現(xiàn)對(duì)圖像生成過程的控制。
與 ControlNet 相比,MediaPipe Diffusion 插件的推理效率提高了20+ 倍,在 v100上運(yùn)行甚至可以提速高達(dá)100倍。
擴(kuò)散模型是一種在文本到圖像生成中取得成功的方法,它通過迭代去噪的方式逐步生成目標(biāo)概念的圖像。通過將文本提示作為條件,可以大大提高圖像生成的效果。然而,僅憑文本來控制圖像的生成往往難以獲得理想的結(jié)果,例如具體的人物姿勢(shì)和面部表情。
為了解決這個(gè)問題,谷歌研究人員設(shè)計(jì)了 MediaPipe Diffusion 插件,該插件是一個(gè)輕量級(jí)的模型,具有600萬參數(shù),使用 MobileNetv2中的深度卷積和反向瓶頸實(shí)現(xiàn)快速推理。
插件可以連接到預(yù)訓(xùn)練的文本到圖像生成模型中,并提供額外的條件信號(hào),從而實(shí)現(xiàn)對(duì)圖像生成過程的控制。
研究人員還開發(fā)了基于擴(kuò)散的文本到圖像生成模型與不同插件的應(yīng)用示例,包括人臉標(biāo)記、全身標(biāo)記、深度圖和 Canny 邊緣。通過調(diào)節(jié)插件的參數(shù),可以生成不同風(fēng)格和特征的圖像。
對(duì)于 face landmark 插件,研究人員進(jìn)行了定量評(píng)估,并與 ControlNet 進(jìn)行了比較。實(shí)驗(yàn)結(jié)果表明,插件生成的樣本質(zhì)量比基礎(chǔ)模型好得多,而推理時(shí)間只增加了2.6%。此外,在移動(dòng)設(shè)備上的性能測(cè)試中,MediaPipe 插件表現(xiàn)出明顯的優(yōu)勢(shì)。
總之,谷歌的 MediaPipe Diffusion 插件是一個(gè)可在移動(dòng)設(shè)備上運(yùn)行的圖像生成控制模型,可以提高推理效率并實(shí)現(xiàn)對(duì)圖像生成過程的精確控制。這將為移動(dòng)端應(yīng)用提供更靈活和定制化的生成式 AI 能力。
(舉報(bào))