站長之家(ChinaZ.com) 3月29日 消息:在人工智能領(lǐng)域,一項名為TextCraftor的新技術(shù)引起了廣泛關(guān)注。這是一種端到端的文本編碼器微調(diào)技術(shù),旨在解決現(xiàn)有模型在生成與文本提示高度對齊的圖像方面的挑戰(zhàn)。通過獎勵函數(shù)優(yōu)化,TextCraftor顯著提高了圖像質(zhì)量和文本圖像對齊的準(zhǔn)確性,無需額外數(shù)據(jù)集。
TextCraftor的核心思想是通過獎勵函數(shù)來增強(qiáng)預(yù)訓(xùn)練的文本編碼器,從而顯著提高圖像質(zhì)量和文本圖像對齊的準(zhǔn)確性。這種方法不需要額外的文本-圖像配對數(shù)據(jù)集,而是僅使用文本提示進(jìn)行訓(xùn)練,從而減輕了存儲和加載大規(guī)模圖像數(shù)據(jù)集的負(fù)擔(dān)。
論文地址:https://arxiv.org/pdf/2403.18978.pdf
盡管文本到圖像生成模型在多個領(lǐng)域取得了成功,但它們在生成與文本提示高度對齊的圖像方面仍面臨挑戰(zhàn)。例如,生成的圖像可能與提供的文本提示不一致,或者需要多次運行和不同的隨機(jī)種子來生成視覺上令人滿意的圖像。這些問題限制了模型在實際應(yīng)用中的效率和效果。
TextCraftor通過使用獎勵函數(shù)(例如,美學(xué)模型或文本圖像對齊評估模型)以可微分的方式改進(jìn)文本編碼器。這種方法允許在訓(xùn)練過程中生成圖像,并通過最大化獎勵分?jǐn)?shù)來優(yōu)化文本編碼器的權(quán)重。TextCraftor還展示了如何通過不同獎勵函數(shù)的插值來控制生成圖像的風(fēng)格,從而實現(xiàn)更多樣化和可控的圖像生成。
通過在多個公共基準(zhǔn)測試和人類評估中的比較,TextCraftor在圖像質(zhì)量和文本圖像對齊方面均優(yōu)于現(xiàn)有的預(yù)訓(xùn)練文本到圖像模型、基于強(qiáng)化學(xué)習(xí)的模型和提示工程方法。這些結(jié)果證明了TextCraftor在提高生成質(zhì)量方面的優(yōu)越性。
TextCraftor不僅能夠提高圖像的總體質(zhì)量,還能夠通過調(diào)整獎勵函數(shù)的權(quán)重來控制生成圖像的風(fēng)格。例如,可以通過混合不同獎勵函數(shù)優(yōu)化的文本編碼器來實現(xiàn)風(fēng)格混合,從而在生成過程中靈活調(diào)整圖像的藝術(shù)性和細(xì)節(jié)。
TextCraftor在64個NVIDIA A10080G GPU上進(jìn)行訓(xùn)練,總共觀察了約256萬個數(shù)據(jù)樣本。盡管訓(xùn)練成本相對較高,但TextCraftor展現(xiàn)出強(qiáng)大的泛化能力,能夠直接應(yīng)用于更大的擴(kuò)散模型,從而降低訓(xùn)練成本。
TextCraftor的提出為文本到圖像生成領(lǐng)域帶來了新的視角。其在圖像編輯、視頻合成等領(lǐng)域的應(yīng)用前景廣闊,尤其是在需要高質(zhì)量和與文本高度對齊的圖像生成任務(wù)中。此外,TextCraftor的控制生成能力也為個性化內(nèi)容創(chuàng)作提供了新的可能性。
(舉報)