創(chuàng)新的文本編碼器TextCraftor 通過獎勵函數(shù)優(yōu)化改善圖片質(zhì)量

2024-03-29 16:24 · 稿源：站長之家

站長之家(ChinaZ.com) 3月29日消息:在人工智能領(lǐng)域，一項名為TextCraftor的新技術(shù)引起了廣泛關(guān)注。這是一種端到端的文本編碼器微調(diào)技術(shù)，旨在解決現(xiàn)有模型在生成與文本提示高度對齊的圖像方面的挑戰(zhàn)。通過獎勵函數(shù)優(yōu)化，TextCraftor顯著提高了圖像質(zhì)量和文本圖像對齊的準(zhǔn)確性，無需額外數(shù)據(jù)集。

TextCraftor的核心思想是通過獎勵函數(shù)來增強(qiáng)預(yù)訓(xùn)練的文本編碼器，從而顯著提高圖像質(zhì)量和文本圖像對齊的準(zhǔn)確性。這種方法不需要額外的文本-圖像配對數(shù)據(jù)集，而是僅使用文本提示進(jìn)行訓(xùn)練，從而減輕了存儲和加載大規(guī)模圖像數(shù)據(jù)集的負(fù)擔(dān)。

論文地址：https://arxiv.org/pdf/2403.18978.pdf

盡管文本到圖像生成模型在多個領(lǐng)域取得了成功，但它們在生成與文本提示高度對齊的圖像方面仍面臨挑戰(zhàn)。例如，生成的圖像可能與提供的文本提示不一致，或者需要多次運行和不同的隨機(jī)種子來生成視覺上令人滿意的圖像。這些問題限制了模型在實際應(yīng)用中的效率和效果。

TextCraftor通過使用獎勵函數(shù)（例如，美學(xué)模型或文本圖像對齊評估模型）以可微分的方式改進(jìn)文本編碼器。這種方法允許在訓(xùn)練過程中生成圖像，并通過最大化獎勵分?jǐn)?shù)來優(yōu)化文本編碼器的權(quán)重。TextCraftor還展示了如何通過不同獎勵函數(shù)的插值來控制生成圖像的風(fēng)格，從而實現(xiàn)更多樣化和可控的圖像生成。

通過在多個公共基準(zhǔn)測試和人類評估中的比較，TextCraftor在圖像質(zhì)量和文本圖像對齊方面均優(yōu)于現(xiàn)有的預(yù)訓(xùn)練文本到圖像模型、基于強(qiáng)化學(xué)習(xí)的模型和提示工程方法。這些結(jié)果證明了TextCraftor在提高生成質(zhì)量方面的優(yōu)越性。

TextCraftor不僅能夠提高圖像的總體質(zhì)量，還能夠通過調(diào)整獎勵函數(shù)的權(quán)重來控制生成圖像的風(fēng)格。例如，可以通過混合不同獎勵函數(shù)優(yōu)化的文本編碼器來實現(xiàn)風(fēng)格混合，從而在生成過程中靈活調(diào)整圖像的藝術(shù)性和細(xì)節(jié)。

TextCraftor在64個NVIDIA A10080G GPU上進(jìn)行訓(xùn)練，總共觀察了約256萬個數(shù)據(jù)樣本。盡管訓(xùn)練成本相對較高，但TextCraftor展現(xiàn)出強(qiáng)大的泛化能力，能夠直接應(yīng)用于更大的擴(kuò)散模型，從而降低訓(xùn)練成本。

TextCraftor的提出為文本到圖像生成領(lǐng)域帶來了新的視角。其在圖像編輯、視頻合成等領(lǐng)域的應(yīng)用前景廣闊，尤其是在需要高質(zhì)量和與文本高度對齊的圖像生成任務(wù)中。此外，TextCraftor的控制生成能力也為個性化內(nèi)容創(chuàng)作提供了新的可能性。

（舉報）

相關(guān)推薦

關(guān)鍵詞：

豆包說要「普惠」，于是大模型處理圖片按「厘」計價了

OpenAI宣告連續(xù)12輪轟炸，讓2024年底的大模型領(lǐng)域熱鬧起來了。但堅持每個凌晨看直播的話會發(fā)現(xiàn)，越到后面的發(fā)布越平淡，內(nèi)心的波動也越少了。豆包大模型還有哪些驚喜?值得每一個人期待。

?大模型 ?OpenAI ?豆包視覺理解
2024 Create@“未來出行”賽道全球創(chuàng)新大賽正式開啟，招募創(chuàng)新先鋒共創(chuàng)未來

邀請廣大創(chuàng)業(yè)者積極報名參賽，共同探索未來出行產(chǎn)業(yè)發(fā)展路徑，推動產(chǎn)業(yè)創(chuàng)新升級。智能座艙、智能駕駛、自動駕駛、車-云-路-網(wǎng)一體化協(xié)同......汽車產(chǎn)業(yè)從來沒有像今天一樣成為如此多技術(shù)變革的交匯點，汽車行業(yè)也因此開始智能“蝶變”。我們誠摯邀請廣大創(chuàng)業(yè)者積極報名參賽，共同探索未來出行產(chǎn)業(yè)發(fā)展路徑，推動產(chǎn)業(yè)創(chuàng)新升級。

?創(chuàng)業(yè) ?未來出行 ?智能駕駛
2024 Create@“未來出行”賽道全球創(chuàng)新大賽圓滿落幕！

12月11日，2024Create@“未來出行”賽道全球創(chuàng)新大賽總決賽在上海完美落幕。本次大賽由上海市浦東新區(qū)科技和經(jīng)濟(jì)委員會、上海金橋經(jīng)濟(jì)技術(shù)開發(fā)區(qū)管理委員會指導(dǎo)，上海金橋有限公司、阿里云計算有限公司與寶馬服務(wù)有限公司強(qiáng)強(qiáng)聯(lián)手主辦，瑞谷科創(chuàng)榮譽承辦，旨在匯聚全球智慧，進(jìn)一步推動AI、新能源汽車、車聯(lián)網(wǎng)等技術(shù)的創(chuàng)新與應(yīng)用，加速城市出行的智能化、綠色化轉(zhuǎn)型

?未來出行 ?全球創(chuàng)新大賽 ?新能源汽車
共探出行新生態(tài)，2024 Create@“未來出行”賽道全球創(chuàng)新大賽決賽即將啟幕

2024年，出行行業(yè)迎來了前所未有的變革。智能汽車的快速發(fā)展、智能網(wǎng)聯(lián)技術(shù)的不斷突破以及大模型和人工智能技術(shù)的廣泛應(yīng)用，正在重塑用戶的出行方式。我們誠摯邀請各界人士共同關(guān)注此次總決賽，見證全球頂尖企業(yè)的精彩表現(xiàn)，探討未來出行產(chǎn)業(yè)的創(chuàng)新與發(fā)展。

?智能汽車 ?出行行業(yè)變革 ?人工智能技術(shù)
Arm Neoverse 賦能 AWS Graviton4 處理器，加速云計算創(chuàng)新

隨著人工智能技術(shù)的迅猛發(fā)展，云計算領(lǐng)域正在經(jīng)歷顯著變革。愈發(fā)復(fù)雜的AI應(yīng)用對計算解決方案的性能、效率和成本效益提出了更高要求。Arm將繼續(xù)投入并進(jìn)一步強(qiáng)化軟件生態(tài)系統(tǒng)，從使開發(fā)者能夠更加輕松地在Arm平臺上構(gòu)建其應(yīng)用，并充分利用Arm計算平臺所提供的卓越性能和效率優(yōu)勢。

?人工智能 ?云計算 ?性能優(yōu)化
2024年最佳免費AI圖片轉(zhuǎn)提示工具

在當(dāng)今快節(jié)奏的創(chuàng)意世界中，圖像到提示工具已變得不可或缺。它們可以自動生成圖像提示，為您節(jié)省時間和精力。這些知識可以幫助您了解如何使用這些工具并增強(qiáng)您的創(chuàng)意輸出。

?圖像生成 ?創(chuàng)意工具 ?內(nèi)容制作
薦AI日報：階躍星辰內(nèi)測視頻大模型Step-Video；即夢AI圖片2.1模型支持生成文字；騰訊發(fā)布混元視頻生成大模型

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、階躍星辰視頻生成大模型Step-Video開啟內(nèi)測可在躍問視頻申請階躍星辰的Step-Video模型正式開啟內(nèi)測，用戶可以通過躍問視頻官網(wǎng)申請資格。用戶可在最新版本的WPSOffice中輕松找到?

?人工智能 ?視頻生成 ?技術(shù)趨勢
薦華人團(tuán)隊，玩轉(zhuǎn)流量、逆勢增長 | AI圖片出海洞察第4期

這個月嘗試加入更多維度數(shù)據(jù)來補充觀察視角，下個月會發(fā)力完善App榜單。白鯨出海聯(lián)合非凡產(chǎn)研發(fā)布第4期全球AI圖片web榜單，并逐步添加圖片App數(shù)據(jù)。web榜單的門檻是月訪問量200w、App榜單的標(biāo)準(zhǔn)是MAU200w，很多web做得比較好的產(chǎn)品都開始發(fā)力App端，例如出海的Fotor、SeaArt等等，前者在移動端也已經(jīng)做到了百萬左右的MAU，下個月我們會進(jìn)一步完善數(shù)據(jù)。

?AI ?圖片 ?榜單發(fā)布
薦ChatGPT終于也推出Projects功能，卻故意露出一個“AGI”的項目

在OpenAI“雙十二”的第七天，一種全新的對話交互模式誕生——Projects。它“長”在這兒，主頁的左側(cè)導(dǎo)航欄中:如其名，Projects的功能就是按照項目來組織和管理文件，正如官方介紹的那樣:操作上也很簡單。同樣是先上傳所需的文件，以及自定義指令:只需一句Prompt，Projects就能幫你生成修改個人網(wǎng)站對應(yīng)的代碼了:最后，一個復(fù)制粘貼的動作，網(wǎng)站就變成想要的樣子啦:OneMoreThing

?OpenAI ?Projects ?對話交互
行業(yè)爆料：TCL又有顛覆性創(chuàng)新技術(shù)，友商面臨新挑戰(zhàn)

最近我本來以為電視圈沒什么重磅消息，沒想到前兩天和圈內(nèi)朋友聊天時，突然聽到一個大瓜。他悄悄告訴我，TCL似乎在技術(shù)上有了新的突破，MiniLED行業(yè)的格局可能會迎來一次顛覆性的變化。大家可以一起多關(guān)注關(guān)注后續(xù)情況。

?Mini ?LED ?電視技術(shù)

熱文

3 天
7天

站長商機(jī)

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

創(chuàng)新的文本編碼器TextCraftor 通過獎勵函數(shù)優(yōu)化改善圖片質(zhì)量

豆包說要「普惠」，于是大模型處理圖片按「厘」計價了

2024 Create@“未來出行”賽道全球創(chuàng)新大賽正式開啟，招募創(chuàng)新先鋒共創(chuàng)未來

2024 Create@“未來出行”賽道全球創(chuàng)新大賽圓滿落幕！

共探出行新生態(tài)，2024 Create@“未來出行”賽道全球創(chuàng)新大賽決賽即將啟幕

Arm Neoverse 賦能 AWS Graviton4 處理器，加速云計算創(chuàng)新

2024年最佳免費AI圖片轉(zhuǎn)提示工具

薦AI日報：階躍星辰內(nèi)測視頻大模型Step-Video；即夢AI圖片2.1模型支持生成文字；騰訊發(fā)布混元視頻生成大模型

薦華人團(tuán)隊，玩轉(zhuǎn)流量、逆勢增長 | AI圖片出海洞察第4期

薦ChatGPT終于也推出Projects功能，卻故意露出一個“AGI”的項目

行業(yè)爆料：TCL又有顛覆性創(chuàng)新技術(shù)，友商面臨新挑戰(zhàn)

熱文

京東發(fā)布年終獎通知部分員工年前可收到年終獎

消息稱OpenAI新模型GPT-5研發(fā)未達(dá)到預(yù)期：成本高昂效果欠佳

央視曝光未成年人繞開防沉迷只需4元：通過租用游戲賬號規(guī)避

李斌回應(yīng)螢火蟲外觀設(shè)計：看過實車的人都喜歡這個設(shè)計

沒網(wǎng)也能聯(lián)絡(luò)！小米15系列星辰無網(wǎng)通12月底升級6km級通話范圍

不得使用惡俗惡趣味微短劇片名！廣電總局出手整治“霸總愛上我

FF再獲3000萬美元新一輪融資加速第二品牌FX戰(zhàn)略推進(jìn)

QQ音樂年度聽歌報告發(fā)布：誰是你最喜歡的歌手？

微信可以線上送實體禮物了：微信小店“藍(lán)包”功能正灰度測試逐

抖音上線“驗證助手” 可幫助用戶識別電話等是否屬于抖音官方

周鴻祎：AGI發(fā)展遇瓶頸智能體和專業(yè)大模型將扛大旗

微信朋友圈崩了上熱搜騰訊客服：請嘗試這幾種方法

小紅書封號上熱搜：違規(guī)原因涉及發(fā)布引流、牟利等內(nèi)容

京東發(fā)布年終獎通知部分員工年前可收到年終獎

未成年人成部分博主流量密碼抖音治理涉“網(wǎng)紅兒童”違規(guī)內(nèi)容

極越員工善后方案已出爐：員工獲“N+1”賠償由百度吉利出資

螞蟻集團(tuán)否認(rèn)借殼上市：目前沒有上市計劃

小紅書被吐槽無理由封號客服回應(yīng)：未說明處罰時間就是永封

雷軍：小米是北方車廠 SU7研發(fā)之初就要做冬季電車?yán)m(xù)航之王

消息稱OpenAI新模型GPT-5研發(fā)未達(dá)到預(yù)期：成本高昂效果欠佳

站長商機(jī)