速度提高200倍！DeepMind推新的微調(diào)擴(kuò)散模型方法DRaFT

2023-10-09 10:55 · 稿源：站長(zhǎng)之家

文章概要:
- DRaFT通過(guò)反向傳播整個(gè)采樣鏈條來(lái)實(shí)現(xiàn)基于梯度的獎(jiǎng)勵(lì)微調(diào)。
- 提出DRaFT-K和DRaFT-LV兩種變體，通過(guò)截?cái)嗵荻群投鄻颖酒骄档头讲睿岣咝省?/p>
- 在Stable Diffusion1.4上應(yīng)用DRaFT，相比強(qiáng)化學(xué)習(xí)方法提高200倍的速度。

站長(zhǎng)之家（ChinaZ.com）10月9日消息:擴(kuò)散模型徹底改變了各種數(shù)據(jù)類(lèi)型的生成建模。然而，在實(shí)際應(yīng)用中，例如從文本描述生成美觀的圖像，通常需要微調(diào)。文本到圖像擴(kuò)散模型采用無(wú)分類(lèi)器指導(dǎo)和 LAION Aesthetics 等精選數(shù)據(jù)集等技術(shù)來(lái)提高對(duì)齊和圖像質(zhì)量。

谷歌DeepMind的研究人員最近在一項(xiàng)研究中提出了一種基于梯度的獎(jiǎng)勵(lì)微調(diào)的簡(jiǎn)單而有效的方法，其中涉及通過(guò)擴(kuò)散采樣過(guò)程進(jìn)行區(qū)分。他們引入了直接獎(jiǎng)勵(lì)微調(diào) （DRaFT）的概念，該概念本質(zhì)上是通過(guò)整個(gè)采樣鏈進(jìn)行反向傳播，通常表示為長(zhǎng)度為50步的展開(kāi)計(jì)算圖。為了有效管理內(nèi)存和計(jì)算成本，他們采用梯度檢查點(diǎn)技術(shù)并優(yōu)化 LoRA 權(quán)重，而不是修改整套模型參數(shù)。

上圖展示了使用人類(lèi)偏好獎(jiǎng)勵(lì)模型的 DRaFT。此外，作者還對(duì) DRaFT 方法進(jìn)行了增強(qiáng)，以提高其效率和性能。首先，他們提出了 DRaFT-K，這是一種在計(jì)算微調(diào)梯度時(shí)將反向傳播限制為采樣的最后 K 步的變體。經(jīng)驗(yàn)結(jié)果表明，在相同數(shù)量的訓(xùn)練步驟下，這種截?cái)嗵荻确椒ǖ男阅苊黠@優(yōu)于完全反向傳播，因?yàn)橥耆聪騻鞑タ赡軙?huì)導(dǎo)致梯度爆炸的問(wèn)題。

此外，作者還介紹了 DRaFT-LV，它是 DRaFT-1的一種變體，它通過(guò)對(duì)多個(gè)噪聲樣本進(jìn)行平均來(lái)計(jì)算低方差梯度估計(jì)，從而進(jìn)一步提高了其方法的效率。

研究人員在Stable Diffusion1.4模型上應(yīng)用了DRaFT方法，使用各種獎(jiǎng)勵(lì)函數(shù)和提示進(jìn)行評(píng)估。與基于強(qiáng)化學(xué)習(xí)的微調(diào)baseline相比，他們的梯度方法效率提高了200倍以上。

DRaFT-LV 是他們提出的變體之一，表現(xiàn)出卓越的效率，學(xué)習(xí)速度大約是 ReFL（一種先前的基于梯度的微調(diào)方法）的兩倍。此外，他們通過(guò)將 DRaFT 模型與預(yù)訓(xùn)練模型相結(jié)合或插值，展示了 DRaFT 的多功能性，這可以通過(guò)混合或縮放調(diào)整 LoRA 權(quán)重來(lái)實(shí)現(xiàn)。

研究顯示，直接對(duì)可微分獎(jiǎng)勵(lì)進(jìn)行擴(kuò)散模型微調(diào)，是提高生成建模技術(shù)的一種有前景的途徑。DRaFT方法的效率、通用性和有效性，使其成為這個(gè)領(lǐng)域研究者和從業(yè)者的有價(jià)值工具。

論文網(wǎng)址:https://arxiv.org/abs/2309.17400

（舉報(bào)）

相關(guān)推薦

關(guān)鍵詞：

薦AI卷翻科研！DeepMind 36頁(yè)報(bào)告：全球?qū)嶒?yàn)室被「AI科學(xué)家」指數(shù)級(jí)接管

基于用新內(nèi)容撬動(dòng)新用戶增長(zhǎng)的思路，小紅書(shū)是主動(dòng)抓住這輪AI熱，官方引入了一大批AI賽道創(chuàng)作者。其官方也在下場(chǎng)研發(fā)相關(guān)產(chǎn)品與應(yīng)用，不做生成式AI的局外人。但不管怎么說(shuō)，AI的風(fēng)已吹到小紅書(shū)如何借力這股風(fēng)，前路漫漫，小紅書(shū)還在探索中。

?AI ?科學(xué)發(fā)現(xiàn) ?用戶增長(zhǎng)
薦AI日?qǐng)?bào)：百川智能金融大模型發(fā)布；ChatGPT新增跨對(duì)話記憶功能；DeepSeek大模型一開(kāi)發(fā)者將加盟小米；OpenAI最強(qiáng)推理模型o3

歡迎來(lái)到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開(kāi)發(fā)者，助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、OpenAI發(fā)布o(jì)3:AI推理能力的重大突破，得分高達(dá)87.5%OpenAI最近推出了其最新的o-Model推理系列模型o3，標(biāo)志著在數(shù)學(xué)和科學(xué)推理領(lǐng)域的重大進(jìn)展。閃極還推出了一個(gè)吸引人的促銷(xiāo)活動(dòng)，用戶在300天內(nèi)打卡200天可獲得全額退款。

?人工智能 ?OpenAI ?推理能力
OpenAI世界最貴大模型上熱搜：每月200美元 ChatGPT Pro擁有無(wú)限使用權(quán)

OpenAI公司在“12天12場(chǎng)直播”活動(dòng)的首秀中宣布了推理大模型o1的完整版本和進(jìn)階模式，同時(shí)推出了每月200美元的ChatGPTPro訂閱服務(wù)。ChatGPTPlus用戶將逐步獲得完整版o1模型的使用權(quán)限，該模型以o1預(yù)覽版形式于9月上線，其特點(diǎn)在于回答用戶問(wèn)題時(shí)會(huì)形成類(lèi)似人類(lèi)思維方式的內(nèi)部思維鏈條，提高回答專(zhuān)業(yè)問(wèn)題時(shí)的準(zhǔn)確性。OpenAI計(jì)劃未來(lái)為這一訂閱服務(wù)添加更多強(qiáng)大、計(jì)算密集型的功能。

?推理大模型 ?ChatGPT ?Pro
薦OpenAI發(fā)布強(qiáng)化微調(diào)API，能深度定制超復(fù)雜大模型了

今天凌晨?jī)牲c(diǎn)，OpenAI開(kāi)啟了12天技術(shù)分享直播，發(fā)布了最新“強(qiáng)化微調(diào)”計(jì)劃。與傳統(tǒng)的微調(diào)相比，強(qiáng)化微調(diào)可以讓開(kāi)發(fā)者使用經(jīng)過(guò)微調(diào)的更強(qiáng)專(zhuān)家大模型，來(lái)開(kāi)發(fā)適用于金融、法律、醫(yī)療、科研等不同領(lǐng)域的AI助手。通過(guò)這些反饋訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型，該模型能夠?qū)φZ(yǔ)言模型的輸出進(jìn)行打分，以反映其質(zhì)量或符合人類(lèi)期望。

?OpenAI ?強(qiáng)化微調(diào) ?AI助手
Shopee 12.12生日大促收官，開(kāi)場(chǎng)2分鐘即售出1,200萬(wàn)件商品

2024年12月16日，中國(guó)——東南亞領(lǐng)航電商平臺(tái)Shopee12.12生日大促圓滿落幕，開(kāi)場(chǎng)僅2分鐘即售出1，200萬(wàn)件商品，消費(fèi)者在2小時(shí)內(nèi)領(lǐng)取超過(guò)2.36億張平臺(tái)優(yōu)惠券。借助大促的強(qiáng)勁勢(shì)頭，越來(lái)越多的中國(guó)品牌和賣(mài)家成功拓展東南亞及拉美市場(chǎng)?；谄煜氯蠛诵臉I(yè)務(wù):Shopee、Garena和SeaMoney，Sea集團(tuán)致力于運(yùn)用科技的力量改善當(dāng)?shù)叵M(fèi)者及中小企業(yè)的生活。

?Shopee ?東南亞電商 ?生日大促
近1200家京東3C數(shù)碼門(mén)店支持國(guó)家補(bǔ)貼到店購(gòu)物單品類(lèi)至高減2000元

隨著 2024 年歲末臨近，京東之家積極響應(yīng)國(guó)家補(bǔ)貼政策，特推出盛大的“補(bǔ)上‘家’補(bǔ) 歲末國(guó)補(bǔ)狂歡季”活動(dòng)，即日起至 12 月 31 日，用戶到店購(gòu)物單品類(lèi)最高可減 2000 元，國(guó)家至高補(bǔ)貼20%，將國(guó)家補(bǔ)貼福利惠及更多消費(fèi)者。自 9 月起，京東之家及京東數(shù)碼專(zhuān)賣(mài)店等3C數(shù)碼線下門(mén)店就開(kāi)始積極落地國(guó)家補(bǔ)貼政策，截至 11 月，近 1200 家門(mén)店參與其中，成為國(guó)家補(bǔ)貼浪潮中的重要?

?京東之家 ?國(guó)家補(bǔ)貼政策 ?歲末狂歡活動(dòng)
“兼具”性能與成本，INDEMIND新一代視覺(jué)方案讓機(jī)器人落地更輕松!

讓機(jī)器人開(kāi)發(fā)周期更短，落地更穩(wěn)健。需求升級(jí)即便服務(wù)機(jī)器人經(jīng)歷市場(chǎng)降溫，行業(yè)內(nèi)卷，玩家們卻依然趨之若鶩，紛紛入局，背后到底有什么魔力？性能與成本“兼具”，讓機(jī)器人開(kāi)發(fā)周期更短，落地更穩(wěn)健。

?服務(wù)機(jī)器人 ?市場(chǎng)回暖 ?人口老齡化
REDMI Turbo 4全球首發(fā)天璣8400：2000元檔性價(jià)之王

博主數(shù)碼閑聊站暗示，REDMITurbo4將在12月下旬正式發(fā)布。該機(jī)首發(fā)搭載聯(lián)發(fā)科天璣8400處理器，定價(jià)在1500-2000元之間，是同檔位性能最強(qiáng)悍的直屏手機(jī)。此前王騰表示，整個(gè)中端產(chǎn)品百花齊放，但性能做得特別好的很少，我們把Turbo系列獨(dú)立出來(lái)，就是希望在中端這個(gè)檔位開(kāi)展旗艦性能普及旋風(fēng)，Turbo系列是REDMI的性能系列產(chǎn)品，它將重塑中端性能格局。

?REDMI ?Turbo ?4
IBM發(fā)布全新光電共封裝工藝：AI模型訓(xùn)練速度將提升5倍

快科技12月12日消息，據(jù)報(bào)道，IBM在光學(xué)技術(shù)方面獲得新進(jìn)展，有望提升數(shù)據(jù)中心訓(xùn)練和運(yùn)行生成式AI模型的效率。IBM推出了新一代光電共封裝（CPO）工藝。該技術(shù)利用光學(xué)連接，實(shí)現(xiàn)了數(shù)據(jù)中心內(nèi)部的光速數(shù)據(jù)傳輸，完美補(bǔ)充了現(xiàn)有的短距離光纜系統(tǒng)。研究人員展示了光電共封裝技術(shù)將如何重新定義計(jì)算行業(yè)在芯片、電路板和服務(wù)器之間的高帶寬數(shù)據(jù)傳輸。最大限度地減少GPU?

?光電共封裝 ?IBM技術(shù)進(jìn)展 ?數(shù)據(jù)中心效率
酷睿Ultra 200HX/H/U、酷睿200H/U全系曝光：31款眼都花了

再過(guò)半個(gè)多月的CES2025大展上，Intel將會(huì)發(fā)布新一代移動(dòng)平臺(tái)，包括面向高端游戲本的ArrowLake-HX、針對(duì)主流游戲本和輕薄本的ArrowLake-H/U、適合入門(mén)筆記本的RaptorLake-H/U，分別命名為酷睿Ultra200HX系列、酷睿Ultra200H/U系列、酷睿200H/U系列。再加上主打高端輕薄版的LunarLake也就是酷睿Ultra200V系列，全家就齊了。再加上酷睿Ultra200V系列的9款，整個(gè)酷睿200移動(dòng)家族有多達(dá)31名成員，真是讓人暈乎。

?Intel ?CES ?2025

熱文

3 天
7天

站長(zhǎng)商機(jī)

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

速度提高200倍！DeepMind推新的微調(diào)擴(kuò)散模型方法DRaFT

薦AI卷翻科研！DeepMind 36頁(yè)報(bào)告：全球?qū)嶒?yàn)室被「AI科學(xué)家」指數(shù)級(jí)接管

薦AI日?qǐng)?bào)：百川智能金融大模型發(fā)布；ChatGPT新增跨對(duì)話記憶功能；DeepSeek大模型一開(kāi)發(fā)者將加盟小米；OpenAI最強(qiáng)推理模型o3

OpenAI世界最貴大模型上熱搜：每月200美元 ChatGPT Pro擁有無(wú)限使用權(quán)

薦OpenAI發(fā)布強(qiáng)化微調(diào)API，能深度定制超復(fù)雜大模型了

Shopee 12.12生日大促收官，開(kāi)場(chǎng)2分鐘即售出1,200萬(wàn)件商品

近1200家京東3C數(shù)碼門(mén)店支持國(guó)家補(bǔ)貼到店購(gòu)物單品類(lèi)至高減2000元

“兼具”性能與成本，INDEMIND新一代視覺(jué)方案讓機(jī)器人落地更輕松!

REDMI Turbo 4全球首發(fā)天璣8400：2000元檔性價(jià)之王

IBM發(fā)布全新光電共封裝工藝：AI模型訓(xùn)練速度將提升5倍

酷睿Ultra 200HX/H/U、酷睿200H/U全系曝光：31款眼都花了

熱文

吳柳芳賬號(hào)再次被禁粉絲從600萬(wàn)被清理至4萬(wàn) 抖音：低俗內(nèi)容吸

劉強(qiáng)東提前發(fā)年終獎(jiǎng) 絕大多數(shù)員工可獲5到8個(gè)月年終獎(jiǎng)

肯德基中國(guó)漲價(jià) 官方回應(yīng)：運(yùn)營(yíng)成本變化導(dǎo)致

美團(tuán)回應(yīng)騎手穿點(diǎn)男模字樣工服：博流量惡意炒作

騰訊張軍辟謠微信送禮會(huì)議紀(jì)要：只想做點(diǎn)腳踏實(shí)地的事

騰訊QQ 2024年度報(bào)告發(fā)布：以脫口秀形式呈現(xiàn)

騰訊回應(yīng)微信春節(jié)前開(kāi)放送禮物功能：逐步灰度中

余承東：華為明年將推出大家想不到的產(chǎn)品

周鴻祎稱(chēng)被車(chē)門(mén)夾傷的手成頑固傷：近3個(gè)月沒(méi)攀巖

原創(chuàng)手繪頭像定制，打造獨(dú)一無(wú)二的個(gè)人、情侶、閨蜜頭像

吳柳芳賬號(hào)再次被禁粉絲從600萬(wàn)被清理至4萬(wàn) 抖音：低俗內(nèi)容吸

劉強(qiáng)東提前發(fā)年終獎(jiǎng) 絕大多數(shù)員工可獲5到8個(gè)月年終獎(jiǎng)

京東發(fā)布年終獎(jiǎng)通知部分員工年前可收到年終獎(jiǎng)

周鴻祎：AGI發(fā)展遇瓶頸智能體和專(zhuān)業(yè)大模型將扛大旗

肯德基中國(guó)漲價(jià) 官方回應(yīng)：運(yùn)營(yíng)成本變化導(dǎo)致

小米SU7最新版本OTA推送：正式接入VLM視覺(jué)語(yǔ)言大模型

李斌回應(yīng)螢火蟲(chóng)外觀設(shè)計(jì)：看過(guò)實(shí)車(chē)的人都喜歡這個(gè)設(shè)計(jì)

消息稱(chēng)OpenAI新模型GPT-5研發(fā)未達(dá)到預(yù)期：成本高昂效果欠佳

央視曝光未成年人繞開(kāi)防沉迷只需4元：通過(guò)租用游戲賬號(hào)規(guī)避

微信可以線上送實(shí)體禮物了：微信小店“藍(lán)包”功能正灰度測(cè)試逐

站長(zhǎng)商機(jī)

速度提高200倍！DeepMind推新的微調(diào)擴(kuò)散模型方法DRaFT

熱文

站長(zhǎng)商機(jī)

速度提高200倍！DeepMind推新的微調(diào)擴(kuò)散模型方法DRaFT