BoxDiff：一種訓(xùn)練免費(fèi)的文本到圖像合成方法

2023-08-11 16:47 · 稿源：站長(zhǎng)之家

站長(zhǎng)之家（ChinaZ.com）8月11日消息:最近的文本到圖像生成模型展現(xiàn)出驚人的圖像合成能力，但目前研究主要集中在通過文字提示合成圖像上。盡管已有嘗試使用其他模式作為條件，但培訓(xùn)這些模型仍需大量配對(duì)數(shù)據(jù)和微調(diào)。由于獲取這種數(shù)據(jù)耗時(shí)且有限，限制了在開放環(huán)境中的應(yīng)用。

論文地址:https://arxiv.org/abs/2307.10816

為了解決這個(gè)問題，研究人員推出了一種訓(xùn)練免費(fèi)的文本到圖像合成方法BoxDiff，可以根據(jù)用戶提供的簡(jiǎn)單條件（如盒子或涂鴉）來控制合成圖像中的對(duì)象和背景。

論文提出了三種空間約束，即內(nèi)盒約束、外盒約束和角落約束，并將其無縫集成到擴(kuò)散模型的去噪步驟中。這種方法不需要額外的訓(xùn)練和大量注釋的布局?jǐn)?shù)據(jù)。實(shí)驗(yàn)結(jié)果表明，所提出的約束可以控制圖像中的內(nèi)容和位置，同時(shí)保持穩(wěn)定擴(kuò)散模型合成高保真度和多樣性概念覆蓋的能力。

（舉報(bào)）

相關(guān)推薦

關(guān)鍵詞：

AltDiffusion：提供多語言文本到圖像的解決方案

AltDiffusion是一種創(chuàng)新的多語言文本到圖像的擴(kuò)散模型，旨在解決現(xiàn)有文本到圖像模型僅支持有限語言的問題。它支持18種不同語言，通過多種巧妙的訓(xùn)練技巧，如知識(shí)蒸餾和與已經(jīng)預(yù)訓(xùn)練的僅支持英語的模型的結(jié)合，以及概念對(duì)齊和質(zhì)量提升等步驟，實(shí)現(xiàn)了多語言文本到圖像的轉(zhuǎn)化。這一研究為多語言人工智能領(lǐng)域的進(jìn)一步研究和應(yīng)用提供了有力支持。

?AltDiffusion ?擴(kuò)散模型
Deci AI推出8.2億參數(shù)的文本到圖像潛在擴(kuò)散模型DeciDiffusion 1.0

DeciAI最近推出了DeciDiffusion1.0，這是一項(xiàng)令人振奮的創(chuàng)新，旨在解決文本到圖像生成領(lǐng)域的挑戰(zhàn)。將文本描述轉(zhuǎn)化為栩栩如生的圖像一直是人工智能領(lǐng)域的難題，因?yàn)檫@涉及到自然語言理解和視覺內(nèi)容創(chuàng)建之間的巨大差距。隨著研究人員繼續(xù)推動(dòng)AI能夠?qū)崿F(xiàn)的界限，我們可以期待進(jìn)一步的突破，使我們更接近一個(gè)世界，其中文本無縫地轉(zhuǎn)化為引人入勝的圖像，從在各個(gè)行業(yè)和領(lǐng)?

?DeciDiffusion ?AI頭條
Kandinsky1：3.3億參數(shù)強(qiáng)大模型，文本生成逼真圖像

計(jì)算機(jī)視覺和生成建模領(lǐng)域取得了顯著進(jìn)展，推動(dòng)了文本到圖像生成的不斷發(fā)展。各種生成架構(gòu)，包括基于擴(kuò)散的模型，在提高生成圖像的質(zhì)量和多樣性方面發(fā)揮了關(guān)鍵作用。研究人員強(qiáng)調(diào)了解決內(nèi)容問題的需求，建議采取實(shí)時(shí)監(jiān)管或強(qiáng)大的分類器來減輕不良輸出。

?Kandinsky1 ?大模型
新型AI超分辨率方法StableSR 利用預(yù)訓(xùn)練擴(kuò)散模型提高圖像保真度

StableSR是一種創(chuàng)新性的AI方法，旨在通過利用預(yù)訓(xùn)練擴(kuò)散模型的威力來增強(qiáng)超分辨率任務(wù)。傳統(tǒng)的SR方法通常需要大量的計(jì)算資源來從頭開始訓(xùn)練擴(kuò)散模型，這可能會(huì)損害它們的生成先驗(yàn)知識(shí)。通過利用預(yù)訓(xùn)練的擴(kuò)散模型并結(jié)合創(chuàng)新技術(shù)，如時(shí)間感知編碼器、可控特征包裝模塊和漸進(jìn)聚合采樣策略，StableSR為將擴(kuò)散先驗(yàn)知識(shí)應(yīng)用于圖像恢復(fù)任務(wù)的未來研究提供了堅(jiān)實(shí)的基礎(chǔ)。

?StableSR
Wayve推出GAIA-1 9B，通過生成合成視頻訓(xùn)練自動(dòng)駕駛

英國(guó)初創(chuàng)公司W(wǎng)ayve在2023年6月發(fā)布了GAIA-1，這是一款為自動(dòng)駕駛車輛培訓(xùn)數(shù)據(jù)設(shè)計(jì)的生成式模型。GAIA-1的最新版本，GAIA-19B，已經(jīng)取得了令人矚目的進(jìn)展。這種基于文本的邏輯可以增加車輛的安全感，使人工智能的決策不再像一個(gè)“黑盒子”。

?Wayve ?GAIA-19B ?自動(dòng)駕駛
薦多模態(tài)大模型MMICL霸榜支持文本圖像視頻輸入

北京交通大學(xué)等機(jī)構(gòu)聯(lián)合推出了新多模態(tài)大模型MMICL。它支持文本、圖像、視頻三種模態(tài)的混合輸入，在多項(xiàng)多模態(tài)能力評(píng)測(cè)中表現(xiàn)搶眼。隨著其性能和適用場(chǎng)景的不斷優(yōu)化，MMICL有望成為多模態(tài)領(lǐng)域的新寵。

?大模型
多模態(tài)大模型KOSMOS-2.5 擅長(zhǎng)處理文本密集圖像

隨著視覺與語言的深度融合，文本圖像理解成為多模態(tài)領(lǐng)域的新方向。文章介紹了一個(gè)突破性的多模態(tài)模型KOSMOS-2.5，它在處理文本密集圖像上展現(xiàn)強(qiáng)大能力。目標(biāo)是進(jìn)一步提升對(duì)文本圖像的解釋生成能力，將KOSMOS-2.5應(yīng)用于更多實(shí)際場(chǎng)景，如文檔處理、信息抽取等，從使語言模型真正具備「讀圖識(shí)文」的能力。

?多模態(tài)
全新圖文生成方式MiniGPT-5 生成文本的同時(shí)創(chuàng)作匹配的圖片

MiniGPT-5是一款基于大型語言模型的視覺與語言生成工具，旨在實(shí)現(xiàn)圖像和文本的協(xié)同生成。它采用了創(chuàng)新的"生成vokens"概念，作為實(shí)現(xiàn)圖像和文本協(xié)同生成的橋梁。評(píng)估功能:該工具還提供了評(píng)估功能，可以在多個(gè)數(shù)據(jù)集上進(jìn)行性能評(píng)估，幫助用戶了解模型的表現(xiàn)。

?MiniGPT
大模型RoBERTa：一種穩(wěn)健優(yōu)化BERT的方法

BERT模型在自然語言處理領(lǐng)域具有舉足輕重的地位。盡管BERT在多個(gè)NLP任務(wù)中取得了卓越的成績(jī)，但研究人員仍然致力于改進(jìn)其性能。這為NLP領(lǐng)域的進(jìn)一步發(fā)展提供了有力的工具和方法。

?大模型
薦訓(xùn)練成本降低16倍，極限壓縮42倍！開源文本生成圖片模型

StableDiffusion是目前最強(qiáng)開源文本生成圖片的擴(kuò)散模型之一，但對(duì)于那些沒有A100、H100的中小企業(yè)、個(gè)人開發(fā)者來說有一個(gè)很大缺點(diǎn)，需要花費(fèi)高昂的訓(xùn)練成本。為了解決這一痛點(diǎn)，Wuerstchen開源模型采用了一種全新的技術(shù)架構(gòu)，在保證圖片質(zhì)量的情況下實(shí)現(xiàn)了42倍極限壓縮。Wuerstchen生成圖片展示根據(jù)Wuerstchen展示的案例，該模型對(duì)文本的理解能力非常好，生成的質(zhì)量效果也能媲美StableDiffusion等目前最強(qiáng)開源擴(kuò)散模型。

?模型

熱文

3 天
7天

站長(zhǎng)商機(jī)

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

BoxDiff：一種訓(xùn)練免費(fèi)的文本到圖像合成方法

AltDiffusion：提供多語言文本到圖像的解決方案

Deci AI推出8.2億參數(shù)的文本到圖像潛在擴(kuò)散模型DeciDiffusion 1.0

Kandinsky1：3.3億參數(shù)強(qiáng)大模型，文本生成逼真圖像

新型AI超分辨率方法StableSR 利用預(yù)訓(xùn)練擴(kuò)散模型提高圖像保真度

Wayve推出GAIA-1 9B，通過生成合成視頻訓(xùn)練自動(dòng)駕駛

薦多模態(tài)大模型MMICL霸榜支持文本圖像視頻輸入

多模態(tài)大模型KOSMOS-2.5 擅長(zhǎng)處理文本密集圖像

全新圖文生成方式MiniGPT-5 生成文本的同時(shí)創(chuàng)作匹配的圖片

大模型RoBERTa：一種穩(wěn)健優(yōu)化BERT的方法

薦訓(xùn)練成本降低16倍，極限壓縮42倍！開源文本生成圖片模型

熱文

周鴻祎：AGI發(fā)展遇瓶頸智能體和專業(yè)大模型將扛大旗

京東發(fā)布年終獎(jiǎng)通知部分員工年前可收到年終獎(jiǎng)

雷軍：小米是北方車廠 SU7研發(fā)之初就要做冬季電車?yán)m(xù)航之王

消息稱OpenAI新模型GPT-5研發(fā)未達(dá)到預(yù)期：成本高昂效果欠佳

央視曝光未成年人繞開防沉迷只需4元：通過租用游戲賬號(hào)規(guī)避

李斌回應(yīng)螢火蟲外觀設(shè)計(jì)：看過實(shí)車的人都喜歡這個(gè)設(shè)計(jì)

沒網(wǎng)也能聯(lián)絡(luò)！小米15系列星辰無網(wǎng)通12月底升級(jí)6km級(jí)通話范圍

不得使用惡俗惡趣味微短劇片名！廣電總局出手整治“霸總愛上我

FF再獲3000萬美元新一輪融資加速第二品牌FX戰(zhàn)略推進(jìn)

美團(tuán)：冬至期間將針對(duì)餃子等應(yīng)時(shí)食品訂單提供“超時(shí)保護(hù)”

英偉達(dá)AI芯片最大買家揭曉！微軟力壓同行霸榜

微信朋友圈崩了上熱搜騰訊客服：請(qǐng)嘗試這幾種方法

周鴻祎：AGI發(fā)展遇瓶頸智能體和專業(yè)大模型將扛大旗

小紅書封號(hào)上熱搜：違規(guī)原因涉及發(fā)布引流、牟利等內(nèi)容

京東發(fā)布年終獎(jiǎng)通知部分員工年前可收到年終獎(jiǎng)

極越員工萬字怒懟ceo：公關(guān)總監(jiān)徐繼業(yè)怒罵員工蒼蠅

馬斯克將推出X Mail電子郵箱服務(wù)

未成年人成部分博主流量密碼抖音治理涉“網(wǎng)紅兒童”違規(guī)內(nèi)容

極越員工善后方案已出爐：?jiǎn)T工獲“N+1”賠償由百度吉利出資

螞蟻集團(tuán)否認(rèn)借殼上市：目前沒有上市計(jì)劃

站長(zhǎng)商機(jī)