谷歌發(fā)布 MediaPipe Diffusion 插件推理效率比ControlNet高20倍以上

2023-07-12 17:27 · 稿源：站長(zhǎng)之家

站長(zhǎng)之家（ChinaZ.com）7月12日消息:谷歌最近發(fā)布了 MediaPipe Diffusion 插件，這是一個(gè)可在移動(dòng)設(shè)備上運(yùn)行的低成本可控文本到圖像生成解決方案。該插件可以提取條件圖像中的特征，并將其注入到擴(kuò)散模型的編碼器中，以實(shí)現(xiàn)對(duì)圖像生成過程的控制。

與 ControlNet 相比，MediaPipe Diffusion 插件的推理效率提高了20+ 倍，在 v100上運(yùn)行甚至可以提速高達(dá)100倍。

擴(kuò)散模型是一種在文本到圖像生成中取得成功的方法，它通過迭代去噪的方式逐步生成目標(biāo)概念的圖像。通過將文本提示作為條件，可以大大提高圖像生成的效果。然而，僅憑文本來控制圖像的生成往往難以獲得理想的結(jié)果，例如具體的人物姿勢(shì)和面部表情。

QQ截圖20230712172639.jpg

為了解決這個(gè)問題，谷歌研究人員設(shè)計(jì)了 MediaPipe Diffusion 插件，該插件是一個(gè)輕量級(jí)的模型，具有600萬參數(shù)，使用 MobileNetv2中的深度卷積和反向瓶頸實(shí)現(xiàn)快速推理。

插件可以連接到預(yù)訓(xùn)練的文本到圖像生成模型中，并提供額外的條件信號(hào)，從而實(shí)現(xiàn)對(duì)圖像生成過程的控制。

QQ截圖20230712172658.jpg

研究人員還開發(fā)了基于擴(kuò)散的文本到圖像生成模型與不同插件的應(yīng)用示例，包括人臉標(biāo)記、全身標(biāo)記、深度圖和 Canny 邊緣。通過調(diào)節(jié)插件的參數(shù)，可以生成不同風(fēng)格和特征的圖像。

對(duì)于 face landmark 插件，研究人員進(jìn)行了定量評(píng)估，并與 ControlNet 進(jìn)行了比較。實(shí)驗(yàn)結(jié)果表明，插件生成的樣本質(zhì)量比基礎(chǔ)模型好得多，而推理時(shí)間只增加了2.6%。此外，在移動(dòng)設(shè)備上的性能測(cè)試中，MediaPipe 插件表現(xiàn)出明顯的優(yōu)勢(shì)。

總之，谷歌的 MediaPipe Diffusion 插件是一個(gè)可在移動(dòng)設(shè)備上運(yùn)行的圖像生成控制模型，可以提高推理效率并實(shí)現(xiàn)對(duì)圖像生成過程的精確控制。這將為移動(dòng)端應(yīng)用提供更靈活和定制化的生成式 AI 能力。

（舉報(bào)）

相關(guān)推薦

關(guān)鍵詞：

薦谷歌發(fā)布雙思維AI Agent：像人類一樣思考，重大技術(shù)突破！

今年10月，OpenAI高級(jí)研究科學(xué)家、德?lián)銩I之父NoamBrown，曾在美國(guó)舊金山舉辦的TEDAI大會(huì)上提出了一個(gè)驚人的理論——讓AI模型思考20秒所帶來的性能提升，相當(dāng)于將模型擴(kuò)大100，000倍并訓(xùn)練100，000倍的時(shí)間。Noam所指的技術(shù)便是System1/2thinking，也是OpenAI最新模型o1正在使用的技術(shù)。這種分工執(zhí)行使得AIAgent能夠同時(shí)處理快速的對(duì)話和復(fù)雜的規(guī)劃，極大提高了用戶體驗(yàn)。

?谷歌
薦AI日?qǐng)?bào)：智譜AI發(fā)布AutoGLM升級(jí)版；Kimi灰測(cè)AI視頻生成功能；SD3.5L新增三大ControlNet功能；ChatGPT誕生兩周年

歡迎來到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、震撼來襲!StabilityAI的SD3.5L新增三大ControlNet功能生圖能力再升級(jí)StabilityAI發(fā)布了新版StableDiffusion3.5Large，新增三種ControlNet功能，分別是Blur、Canny和Depth，顯著提升了圖像生成能力。?

?Stability ?AI ?Stable
蘋果Vision Pro計(jì)劃增加對(duì)PlayStation VR2 手部控制器的支持

根據(jù)彭博社馬克·古爾曼的最新報(bào)道，蘋果正在尋求通過增加對(duì)PlayStationVR控制器的支持，來吸引更多的游戲玩家和開發(fā)者，以提升其VisionPro混合現(xiàn)實(shí)設(shè)備的市場(chǎng)吸引力。雖然VisionPro目前更多被視為生產(chǎn)力和媒體消費(fèi)工具非游戲設(shè)備，部分原因在于它依賴眼睛和手部控制非獨(dú)立控制器。通過這種方式，蘋果不僅能提升游戲控制的精度可能推動(dòng)更多軟件應(yīng)用，如FinalCutPro和AdobePhotoshop等，也能在VisionPro上順利運(yùn)行，為專業(yè)用戶提供更多功能。

?蘋果 ?Vision ?Pro
聯(lián)想Legion Go 2配置曝光：AMD銳龍Z2 Extreme APU+OLED面板加持

聯(lián)想即將推出的新一代LegionGo2掌機(jī)的核心配置近日曝光，該設(shè)備預(yù)計(jì)將搭載AMD銳龍Z2ExtremeAPU，并配備OLED面板。LegionGo2將保留前代產(chǎn)品的可拆卸控制器設(shè)計(jì)，并在配置和顯示上進(jìn)行升級(jí)。隨著發(fā)布日期的臨近，更多關(guān)于LegionGo2的細(xì)節(jié)將逐步揭曉。

?聯(lián)想 ?Legion ?Go
薦AI日?qǐng)?bào)：OpenAI推出每月200美元ChatGPT Pro;京東發(fā)布10大AI營(yíng)銷工具;ComfyUI插件被植入挖礦病毒

歡迎來到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、谷歌發(fā)布PaliGemma2:AI能讀懂情緒?專家質(zhì)疑其科學(xué)性和倫理風(fēng)險(xiǎn)谷歌推出的PaliGemma2AI模型聲稱能通過圖像分析識(shí)別人類情緒，引發(fā)了學(xué)術(shù)界和技術(shù)倫理專家的廣泛討論。雖然目前部?

?谷歌 ?PaliGemma2 ?情緒識(shí)別
新加坡泰益豐建筑有限公司（Thai Yee Hong Contractor Pte ltd）納斯達(dá)克上市啟動(dòng)儀式圓滿落幕

12月8日上午，一場(chǎng)備受矚目的盛會(huì)在深圳福田區(qū)大中華希爾頓酒店舉行，新加坡泰益豐建筑有限公司在此隆重舉行了赴美國(guó)納斯達(dá)克上市啟動(dòng)儀式暨與世界上市聯(lián)合會(huì)簽約儀式。此次活動(dòng)標(biāo)志著泰益豐公司在資本市場(chǎng)上的新征程，也預(yù)示著公司將開啟全球化發(fā)展的新篇章。泰益豐將繼續(xù)秉承創(chuàng)新、務(wù)實(shí)、高效的企業(yè)精神，不斷追求卓越，為全球的建筑行業(yè)做出更大的貢獻(xiàn)。

?泰益豐建筑 ?美國(guó)納斯達(dá)克 ?全球化發(fā)展
史上最貴！首個(gè)AI Agent程序員商業(yè)化，比ChatGPT Pro貴2倍

今天凌晨1點(diǎn)，全球首個(gè)AIAgent程序員Devin宣布全面開放使用，實(shí)現(xiàn)商業(yè)化。只是價(jià)格不是一般的貴，前幾天OpenAI發(fā)布的ChatGPTPro可以無限使用滿血o1、新版本Sora等功能，一個(gè)月才200美元。因?yàn)樗菦]有任何用戶數(shù)量限制的，無論多少人都能無限制的使用Devin。

?AI ?Agent ?程序員
專業(yè)攝影新伴侶：雷克沙Professional Go PSSD，速度與安全并重

在當(dāng)今手機(jī)攝影日益普及的時(shí)代，一款高性能、便攜的存儲(chǔ)設(shè)備成為了眾多攝影愛好者的必備之選。雷克沙推出的ProfessionalGoPSSD，正是為了滿足這一需求設(shè)計(jì)的。它不僅能夠幫助用戶快速高效地處理大量照片和視頻能為用戶的數(shù)據(jù)安全提供有力保障。

?手機(jī)攝影 ?固態(tài)硬盤 ?存儲(chǔ)設(shè)備
Check Point XDR XPR 2024 年再攀新高，榮膺 Frost Radar XDR 增長(zhǎng)和創(chuàng)新領(lǐng)導(dǎo)者

CheckPointXDR/XPR：2024年再攀新高，榮膺FrostRadar?XDR增長(zhǎng)和創(chuàng)新領(lǐng)導(dǎo)者CheckPointInfinityXDR/XPR在《2024年FrostRadar?擴(kuò)展檢測(cè)和響應(yīng)報(bào)告》中再次被評(píng)為增長(zhǎng)和創(chuàng)新領(lǐng)導(dǎo)者。CheckPoint在頂級(jí)解決方案中的排名攀升，鞏固了其在網(wǎng)絡(luò)安全行業(yè)中作為XDR創(chuàng)新者的地位。在不斷發(fā)展和增強(qiáng)產(chǎn)品的過程中，CheckPoint將始終致力于幫助企業(yè)有效抵御新興威脅，確保其數(shù)字環(huán)境安全無虞。

?Check ?Point ?XDR
時(shí)隔1620天：Redis創(chuàng)始人antirez回歸！

在離開Redis項(xiàng)目約1620天后，創(chuàng)始人antirez決定重返Redis。antirez在博客中提到，自己并沒有對(duì)Redis項(xiàng)目產(chǎn)生強(qiáng)烈的依戀，在離開后的時(shí)間里，他偶爾會(huì)進(jìn)行一些編程項(xiàng)目，如嵌入式項(xiàng)目、神經(jīng)網(wǎng)絡(luò)等。協(xié)議變更后，Linux基金會(huì)3月28日宣布建立Redis開源分支Valkey”，并稱這是Redis數(shù)據(jù)存儲(chǔ)的開源替代方案。

?Redis ?antirez ?開源社區(qū)

熱文

3 天
7天

站長(zhǎng)商機(jī)

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

谷歌發(fā)布 MediaPipe Diffusion 插件推理效率比ControlNet高20倍以上

薦谷歌發(fā)布雙思維AI Agent：像人類一樣思考，重大技術(shù)突破！

薦AI日?qǐng)?bào)：智譜AI發(fā)布AutoGLM升級(jí)版；Kimi灰測(cè)AI視頻生成功能；SD3.5L新增三大ControlNet功能；ChatGPT誕生兩周年

蘋果Vision Pro計(jì)劃增加對(duì)PlayStation VR2 手部控制器的支持

聯(lián)想Legion Go 2配置曝光：AMD銳龍Z2 Extreme APU+OLED面板加持

薦AI日?qǐng)?bào)：OpenAI推出每月200美元ChatGPT Pro;京東發(fā)布10大AI營(yíng)銷工具;ComfyUI插件被植入挖礦病毒

新加坡泰益豐建筑有限公司（Thai Yee Hong Contractor Pte ltd）納斯達(dá)克上市啟動(dòng)儀式圓滿落幕

史上最貴！首個(gè)AI Agent程序員商業(yè)化，比ChatGPT Pro貴2倍

專業(yè)攝影新伴侶：雷克沙Professional Go PSSD，速度與安全并重

Check Point XDR XPR 2024 年再攀新高，榮膺 Frost Radar XDR 增長(zhǎng)和創(chuàng)新領(lǐng)導(dǎo)者

時(shí)隔1620天：Redis創(chuàng)始人antirez回歸！

熱文

周鴻祎：AGI發(fā)展遇瓶頸智能體和專業(yè)大模型將扛大旗

京東發(fā)布年終獎(jiǎng)通知部分員工年前可收到年終獎(jiǎng)

雷軍：小米是北方車廠 SU7研發(fā)之初就要做冬季電車?yán)m(xù)航之王

央視曝光未成年人繞開防沉迷只需4元：通過租用游戲賬號(hào)規(guī)避

消息稱OpenAI新模型GPT-5研發(fā)未達(dá)到預(yù)期：成本高昂效果欠佳

李斌回應(yīng)螢火蟲外觀設(shè)計(jì)：看過實(shí)車的人都喜歡這個(gè)設(shè)計(jì)

沒網(wǎng)也能聯(lián)絡(luò)！小米15系列星辰無網(wǎng)通12月底升級(jí)6km級(jí)通話范圍

不得使用惡俗惡趣味微短劇片名！廣電總局出手整治“霸總愛上我

FF再獲3000萬美元新一輪融資加速第二品牌FX戰(zhàn)略推進(jìn)

美團(tuán)：冬至期間將針對(duì)餃子等應(yīng)時(shí)食品訂單提供“超時(shí)保護(hù)”

英偉達(dá)AI芯片最大買家揭曉！微軟力壓同行霸榜

微信朋友圈崩了上熱搜騰訊客服：請(qǐng)嘗試這幾種方法

周鴻祎：AGI發(fā)展遇瓶頸智能體和專業(yè)大模型將扛大旗

小紅書封號(hào)上熱搜：違規(guī)原因涉及發(fā)布引流、牟利等內(nèi)容

京東發(fā)布年終獎(jiǎng)通知部分員工年前可收到年終獎(jiǎng)

極越員工萬字怒懟ceo：公關(guān)總監(jiān)徐繼業(yè)怒罵員工蒼蠅

馬斯克將推出X Mail電子郵箱服務(wù)

未成年人成部分博主流量密碼抖音治理涉“網(wǎng)紅兒童”違規(guī)內(nèi)容

極越員工善后方案已出爐：?jiǎn)T工獲“N+1”賠償由百度吉利出資

螞蟻集團(tuán)否認(rèn)借殼上市：目前沒有上市計(jì)劃

站長(zhǎng)商機(jī)

谷歌發(fā)布 MediaPipe Diffusion 插件 推理效率比ControlNet高20倍以上

熱文

站長(zhǎng)商機(jī)

谷歌發(fā)布 MediaPipe Diffusion 插件推理效率比ControlNet高20倍以上