站長(zhǎng)之家(ChinaZ.com)8月11日 消息:最近的文本到圖像生成模型展現(xiàn)出驚人的圖像合成能力,但目前研究主要集中在通過文字提示合成圖像上。盡管已有嘗試使用其他模式作為條件,但培訓(xùn)這些模型仍需大量配對(duì)數(shù)據(jù)和微調(diào)。由于獲取這種數(shù)據(jù)耗時(shí)且有限,限制了在開放環(huán)境中的應(yīng)用。
論文地址:https://arxiv.org/abs/2307.10816
為了解決這個(gè)問題,研究人員推出了一種訓(xùn)練免費(fèi)的文本到圖像合成方法BoxDiff,可以根據(jù)用戶提供的簡(jiǎn)單條件(如盒子或涂鴉)來控制合成圖像中的對(duì)象和背景。
論文提出了三種空間約束,即內(nèi)盒約束、外盒約束和角落約束,并將其無縫集成到擴(kuò)散模型的去噪步驟中。這種方法不需要額外的訓(xùn)練和大量注釋的布局?jǐn)?shù)據(jù)。實(shí)驗(yàn)結(jié)果表明,所提出的約束可以控制圖像中的內(nèi)容和位置,同時(shí)保持穩(wěn)定擴(kuò)散模型合成高保真度和多樣性概念覆蓋的能力。
(舉報(bào))