文章概要:
- DRaFT通過(guò)反向傳播整個(gè)采樣鏈條來(lái)實(shí)現(xiàn)基于梯度的獎(jiǎng)勵(lì)微調(diào)。
- 提出DRaFT-K和DRaFT-LV兩種變體,通過(guò)截?cái)嗵荻群投鄻颖酒骄档头讲睿岣咝省?/p>
- 在Stable Diffusion1.4上應(yīng)用DRaFT,相比強(qiáng)化學(xué)習(xí)方法提高200倍的速度。
站長(zhǎng)之家(ChinaZ.com)10月9日 消息:擴(kuò)散模型徹底改變了各種數(shù)據(jù)類(lèi)型的生成建模。然而,在實(shí)際應(yīng)用中,例如從文本描述生成美觀的圖像,通常需要微調(diào)。文本到圖像擴(kuò)散模型采用無(wú)分類(lèi)器指導(dǎo)和 LAION Aesthetics 等精選數(shù)據(jù)集等技術(shù)來(lái)提高對(duì)齊和圖像質(zhì)量。
谷歌DeepMind的研究人員最近在一項(xiàng)研究中提出了一種基于梯度的獎(jiǎng)勵(lì)微調(diào)的簡(jiǎn)單而有效的方法,其中涉及通過(guò)擴(kuò)散采樣過(guò)程進(jìn)行區(qū)分。他們引入了直接獎(jiǎng)勵(lì)微調(diào) (DRaFT) 的概念,該概念本質(zhì)上是通過(guò)整個(gè)采樣鏈進(jìn)行反向傳播,通常表示為長(zhǎng)度為50步的展開(kāi)計(jì)算圖。為了有效管理內(nèi)存和計(jì)算成本,他們采用梯度檢查點(diǎn)技術(shù)并優(yōu)化 LoRA 權(quán)重,而不是修改整套模型參數(shù)。
上圖展示了使用人類(lèi)偏好獎(jiǎng)勵(lì)模型的 DRaFT。此外,作者還對(duì) DRaFT 方法進(jìn)行了增強(qiáng),以提高其效率和性能。首先,他們提出了 DRaFT-K,這是一種在計(jì)算微調(diào)梯度時(shí)將反向傳播限制為采樣的最后 K 步的變體。經(jīng)驗(yàn)結(jié)果表明,在相同數(shù)量的訓(xùn)練步驟下,這種截?cái)嗵荻确椒ǖ男阅苊黠@優(yōu)于完全反向傳播,因?yàn)橥耆聪騻鞑タ赡軙?huì)導(dǎo)致梯度爆炸的問(wèn)題。
此外,作者還介紹了 DRaFT-LV,它是 DRaFT-1的一種變體,它通過(guò)對(duì)多個(gè)噪聲樣本進(jìn)行平均來(lái)計(jì)算低方差梯度估計(jì),從而進(jìn)一步提高了其方法的效率。
研究人員在Stable Diffusion1.4模型上應(yīng)用了DRaFT方法,使用各種獎(jiǎng)勵(lì)函數(shù)和提示進(jìn)行評(píng)估。與基于強(qiáng)化學(xué)習(xí)的微調(diào)baseline相比,他們的梯度方法效率提高了200倍以上。
DRaFT-LV 是他們提出的變體之一,表現(xiàn)出卓越的效率,學(xué)習(xí)速度大約是 ReFL(一種先前的基于梯度的微調(diào)方法)的兩倍。此外,他們通過(guò)將 DRaFT 模型與預(yù)訓(xùn)練模型相結(jié)合或插值,展示了 DRaFT 的多功能性,這可以通過(guò)混合或縮放調(diào)整 LoRA 權(quán)重來(lái)實(shí)現(xiàn)。
研究顯示,直接對(duì)可微分獎(jiǎng)勵(lì)進(jìn)行擴(kuò)散模型微調(diào),是提高生成建模技術(shù)的一種有前景的途徑。DRaFT方法的效率、通用性和有效性,使其成為這個(gè)領(lǐng)域研究者和從業(yè)者的有價(jià)值工具。
論文網(wǎng)址:https://arxiv.org/abs/2309.17400
(舉報(bào))