幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

首頁 > 業(yè)界 > 關(guān)鍵詞  > 正文

BoxDiff:一種訓(xùn)練免費(fèi)的文本到圖像合成方法

2023-08-11 16:47 · 稿源:站長(zhǎng)之家

站長(zhǎng)之家(ChinaZ.com)8月11日 消息:最近的文本到圖像生成模型展現(xiàn)出驚人的圖像合成能力,但目前研究主要集中在通過文字提示合成圖像上。盡管已有嘗試使用其他模式作為條件,但培訓(xùn)這些模型仍需大量配對(duì)數(shù)據(jù)和微調(diào)。由于獲取這種數(shù)據(jù)耗時(shí)且有限,限制了在開放環(huán)境中的應(yīng)用。

image.png

論文地址:https://arxiv.org/abs/2307.10816

為了解決這個(gè)問題,研究人員推出了一種訓(xùn)練免費(fèi)的文本到圖像合成方法BoxDiff,可以根據(jù)用戶提供的簡(jiǎn)單條件(如盒子或涂鴉)來控制合成圖像中的對(duì)象和背景。

論文提出了三種空間約束,即內(nèi)盒約束、外盒約束和角落約束,并將其無縫集成到擴(kuò)散模型的去噪步驟中。這種方法不需要額外的訓(xùn)練和大量注釋的布局?jǐn)?shù)據(jù)。實(shí)驗(yàn)結(jié)果表明,所提出的約束可以控制圖像中的內(nèi)容和位置,同時(shí)保持穩(wěn)定擴(kuò)散模型合成高保真度和多樣性概念覆蓋的能力。

舉報(bào)

  • 相關(guān)推薦
  • AltDiffusion:提供多語言文本到圖像的解決方案

    AltDiffusion是一種創(chuàng)新的多語言文本到圖像的擴(kuò)散模型,旨在解決現(xiàn)有文本到圖像模型僅支持有限語言的問題。它支持18種不同語言,通過多種巧妙的訓(xùn)練技巧,如知識(shí)蒸餾和與已經(jīng)預(yù)訓(xùn)練的僅支持英語的模型的結(jié)合,以及概念對(duì)齊和質(zhì)量提升等步驟,實(shí)現(xiàn)了多語言文本到圖像的轉(zhuǎn)化。這一研究為多語言人工智能領(lǐng)域的進(jìn)一步研究和應(yīng)用提供了有力支持。

  • Deci AI推出8.2億參數(shù)的文本到圖像潛在擴(kuò)散模型DeciDiffusion 1.0

    DeciAI最近推出了DeciDiffusion1.0,這是一項(xiàng)令人振奮的創(chuàng)新,旨在解決文本到圖像生成領(lǐng)域的挑戰(zhàn)。將文本描述轉(zhuǎn)化為栩栩如生的圖像一直是人工智能領(lǐng)域的難題,因?yàn)檫@涉及到自然語言理解和視覺內(nèi)容創(chuàng)建之間的巨大差距。隨著研究人員繼續(xù)推動(dòng)AI能夠?qū)崿F(xiàn)的界限,我們可以期待進(jìn)一步的突破,使我們更接近一個(gè)世界,其中文本無縫地轉(zhuǎn)化為引人入勝的圖像,從在各個(gè)行業(yè)和領(lǐng)?

  • Kandinsky1:3.3億參數(shù)強(qiáng)大模型,文本生成逼真圖像

    計(jì)算機(jī)視覺和生成建模領(lǐng)域取得了顯著進(jìn)展,推動(dòng)了文本到圖像生成的不斷發(fā)展。各種生成架構(gòu),包括基于擴(kuò)散的模型,在提高生成圖像的質(zhì)量和多樣性方面發(fā)揮了關(guān)鍵作用。研究人員強(qiáng)調(diào)了解決內(nèi)容問題的需求,建議采取實(shí)時(shí)監(jiān)管或強(qiáng)大的分類器來減輕不良輸出。

  • 新型AI超分辨率方法StableSR 利用預(yù)訓(xùn)練擴(kuò)散模型提高圖像保真度

    StableSR是一種創(chuàng)新性的AI方法,旨在通過利用預(yù)訓(xùn)練擴(kuò)散模型的威力來增強(qiáng)超分辨率任務(wù)。傳統(tǒng)的SR方法通常需要大量的計(jì)算資源來從頭開始訓(xùn)練擴(kuò)散模型,這可能會(huì)損害它們的生成先驗(yàn)知識(shí)。通過利用預(yù)訓(xùn)練的擴(kuò)散模型并結(jié)合創(chuàng)新技術(shù),如時(shí)間感知編碼器、可控特征包裝模塊和漸進(jìn)聚合采樣策略,StableSR為將擴(kuò)散先驗(yàn)知識(shí)應(yīng)用于圖像恢復(fù)任務(wù)的未來研究提供了堅(jiān)實(shí)的基礎(chǔ)。

  • Wayve推出GAIA-1 9B,通過生成合成視頻訓(xùn)練自動(dòng)駕駛

    英國(guó)初創(chuàng)公司W(wǎng)ayve在2023年6月發(fā)布了GAIA-1,這是一款為自動(dòng)駕駛車輛培訓(xùn)數(shù)據(jù)設(shè)計(jì)的生成式模型。GAIA-1的最新版本,GAIA-19B,已經(jīng)取得了令人矚目的進(jìn)展。這種基于文本的邏輯可以增加車輛的安全感,使人工智能的決策不再像一個(gè)“黑盒子”。

  • 多模態(tài)大模型MMICL霸榜 支持文本圖像視頻輸入

    北京交通大學(xué)等機(jī)構(gòu)聯(lián)合推出了新多模態(tài)大模型MMICL。它支持文本、圖像、視頻三種模態(tài)的混合輸入,在多項(xiàng)多模態(tài)能力評(píng)測(cè)中表現(xiàn)搶眼。隨著其性能和適用場(chǎng)景的不斷優(yōu)化,MMICL有望成為多模態(tài)領(lǐng)域的新寵。

  • 多模態(tài)大模型KOSMOS-2.5 擅長(zhǎng)處理文本密集圖像

    隨著視覺與語言的深度融合,文本圖像理解成為多模態(tài)領(lǐng)域的新方向。文章介紹了一個(gè)突破性的多模態(tài)模型KOSMOS-2.5,它在處理文本密集圖像上展現(xiàn)強(qiáng)大能力。目標(biāo)是進(jìn)一步提升對(duì)文本圖像的解釋生成能力,將KOSMOS-2.5應(yīng)用于更多實(shí)際場(chǎng)景,如文檔處理、信息抽取等,從使語言模型真正具備「讀圖識(shí)文」的能力。

  • 全新圖文生成方式MiniGPT-5 生成文本的同時(shí)創(chuàng)作匹配的

    MiniGPT-5是一款基于大型語言模型的視覺與語言生成工具,旨在實(shí)現(xiàn)圖像和文本的協(xié)同生成。它采用了創(chuàng)新的"生成vokens"概念,作為實(shí)現(xiàn)圖像和文本協(xié)同生成的橋梁。評(píng)估功能:該工具還提供了評(píng)估功能,可以在多個(gè)數(shù)據(jù)集上進(jìn)行性能評(píng)估,幫助用戶了解模型的表現(xiàn)。

  • 大模型RoBERTa:一種穩(wěn)健優(yōu)化BERT的方法

    BERT模型在自然語言處理領(lǐng)域具有舉足輕重的地位。盡管BERT在多個(gè)NLP任務(wù)中取得了卓越的成績(jī),但研究人員仍然致力于改進(jìn)其性能。這為NLP領(lǐng)域的進(jìn)一步發(fā)展提供了有力的工具和方法。

  • 訓(xùn)練成本降低16倍,極限壓縮42倍!開源文本生成圖片模型

    StableDiffusion是目前最強(qiáng)開源文本生成圖片的擴(kuò)散模型之一,但對(duì)于那些沒有A100、H100的中小企業(yè)、個(gè)人開發(fā)者來說有一個(gè)很大缺點(diǎn),需要花費(fèi)高昂的訓(xùn)練成本。為了解決這一痛點(diǎn),Wuerstchen開源模型采用了一種全新的技術(shù)架構(gòu),在保證圖片質(zhì)量的情況下實(shí)現(xiàn)了42倍極限壓縮。Wuerstchen生成圖片展示根據(jù)Wuerstchen展示的案例,該模型對(duì)文本的理解能力非常好,生成的質(zhì)量效果也能媲美StableDiffusion等目前最強(qiáng)開源擴(kuò)散模型。

熱文

  • 3 天
  • 7天