字節(jié)復(fù)旦團(tuán)隊(duì)提出meta prompts 擴(kuò)散模型圖像理解力刷新SOTA

2024-01-16 16:48 · 稿源：站長(zhǎng)之家

站長(zhǎng)之家（ChinaZ.com）1月16日消息:過(guò)去一年擴(kuò)散模型風(fēng)頭正勁，徹底改變了文生圖領(lǐng)域!那么，擴(kuò)散模型能否處理視覺(jué)感知任務(wù)?字節(jié)跳動(dòng)和復(fù)旦大學(xué)技術(shù)團(tuán)隊(duì)在最新研究中提出了一個(gè)簡(jiǎn)單有效的方案。擴(kuò)散模型在生成高清晰度圖像方面顯示出了卓越的能力，這一成就得益于其在大規(guī)模圖像-文本對(duì)上的預(yù)訓(xùn)練。團(tuán)隊(duì)提出了一種利用擴(kuò)散模型處理視覺(jué)感知任務(wù)的方案，通過(guò)引入可學(xué)習(xí)的元提示到預(yù)訓(xùn)練的擴(kuò)散模型中，以提取適合特定感知任務(wù)的特征。

項(xiàng)目地址:https://github.com/fudan-zvg/meta-prompts

視覺(jué)感知任務(wù)的多樣性超出了文本驅(qū)動(dòng)方法的范疇，因此技術(shù)團(tuán)隊(duì)提出了一種內(nèi)部的可學(xué)習(xí)元提示，稱為meta prompts，這些meta prompts被集成到擴(kuò)散模型中，以適應(yīng)感知任務(wù)。Meta prompts可以根據(jù)目標(biāo)任務(wù)和數(shù)據(jù)集進(jìn)行端到端的訓(xùn)練，從而為去噪U(xiǎn)Net建立特別定制的適應(yīng)條件。這些meta prompts包含豐富的、適應(yīng)于特定任務(wù)的語(yǔ)義信息，有效展示了對(duì)類別的識(shí)別能力、對(duì)深度的感知能力以及關(guān)鍵點(diǎn)的感知。

擴(kuò)散模型通過(guò)其固有的設(shè)計(jì)，在去噪U(xiǎn)Net中生成多尺度特征，但視覺(jué)感知任務(wù)通常需要理解既包括低級(jí)細(xì)節(jié)的又包括高級(jí)語(yǔ)義解釋的內(nèi)容。為了解決這一問(wèn)題，技術(shù)團(tuán)隊(duì)引入了meta prompts作為特征重組的過(guò)濾器，將UNet的多尺度特征與meta prompts的任務(wù)適應(yīng)性結(jié)合起來(lái)，并將經(jīng)過(guò)meta prompts過(guò)濾的特征輸入到特定任務(wù)的解碼器中，從而提高模型在視覺(jué)識(shí)別任務(wù)中的性能。

技術(shù)團(tuán)隊(duì)還為視覺(jué)感知任務(wù)設(shè)計(jì)了一個(gè)簡(jiǎn)單的recurrent refinement過(guò)程，通過(guò)將UNet的輸出特征循環(huán)輸入到UNet中，并引入可學(xué)習(xí)的獨(dú)特的timestep embeddings，以調(diào)制UNet的參數(shù)，從而優(yōu)化特征提取過(guò)程，增強(qiáng)模型在視覺(jué)感知任務(wù)中的性能。實(shí)驗(yàn)結(jié)果顯示，該方法在多個(gè)感知任務(wù)數(shù)據(jù)集上都取得了最優(yōu)。

該研究提出的方法和技術(shù)有廣泛的應(yīng)用前景，可以在自動(dòng)駕駛、醫(yī)學(xué)影像分析、機(jī)器人視覺(jué)系統(tǒng)等領(lǐng)域中提升視覺(jué)感知任務(wù)的性能。此外，該方法還可以在藝術(shù)創(chuàng)作、虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)等領(lǐng)域中用于提高圖像和視頻的質(zhì)量和互動(dòng)性。隨著技術(shù)的進(jìn)步，這些方法可能會(huì)進(jìn)一步完善。

（舉報(bào)）

相關(guān)推薦

關(guān)鍵詞：

SOTA

薦摸著Meta過(guò)河，百度再戰(zhàn)AI眼鏡

因?yàn)槿鄙僬嬲某鋈Ξa(chǎn)品，導(dǎo)致外界對(duì)百度仍持有固有印象，認(rèn)為其在AI硬件賽道正逐漸掉隊(duì)?！癎oogleGlass什么都能干一點(diǎn)，但是什么也沒(méi)有做好”，十年前，百度智能眼鏡BaiduEye產(chǎn)品團(tuán)隊(duì)的一名成員坦言，“我們想至少在一點(diǎn)上做好，能把它用起來(lái)”。在這場(chǎng)“戰(zhàn)役”中，那些跑得快的企業(yè)，是成為“領(lǐng)頭羊”還是“炮灰”?可能只在一念之間。

?百度 ?AI硬件 ?智能眼鏡
亞馬遜聯(lián)合英偉達(dá)舉辦AI路演大賽，AI新星PromptBio入圍6強(qiáng)

由亞馬遜云服務(wù)和英偉達(dá)聯(lián)合舉辦的AI路演大賽在亞馬遜奧斯汀總部圓滿落幕。此次競(jìng)賽旨在吸引北美地區(qū)快速發(fā)展的AI初創(chuàng)公司，為它們提供一個(gè)向人工智能行業(yè)及風(fēng)險(xiǎn)投資人展示AI前沿技術(shù)應(yīng)用的平臺(tái)。公司致力于將前沿人工智能和多組學(xué)技術(shù)應(yīng)用于生物數(shù)據(jù)分析，為生命科學(xué)用戶、藥企和醫(yī)療機(jī)構(gòu)提供專業(yè)全面的解決方案，推動(dòng)醫(yī)學(xué)和生物科學(xué)的前沿發(fā)展。

?AWS ?NVIDIA ?AI競(jìng)賽
首個(gè)可保留情感的音頻LLM！Meta重磅開(kāi)源7B-Spirit LM，一網(wǎng)打盡「音頻+文本」多模態(tài)任務(wù)

【新智元導(dǎo)讀】Meta最近開(kāi)源了一個(gè)7B尺寸的SpiritLM的多模態(tài)語(yǔ)言模型，能夠理解和生成語(yǔ)音及文本，可以非常自然地在兩種模式間轉(zhuǎn)換，不僅能處理基本的語(yǔ)音轉(zhuǎn)文本和文本轉(zhuǎn)語(yǔ)音任務(wù)能捕捉和再現(xiàn)語(yǔ)音中的情感和風(fēng)格。在純文本大模型取得進(jìn)展的同時(shí)，其他模態(tài)數(shù)據(jù)，如語(yǔ)音與文本結(jié)合的語(yǔ)言模型也成為了一個(gè)熱門的研究領(lǐng)域，但現(xiàn)有的模型要么在僅包含語(yǔ)音的數(shù)據(jù)上進(jìn)行訓(xùn)練，要么是關(guān)注特定任務(wù)，如文本轉(zhuǎn)語(yǔ)音、自動(dòng)語(yǔ)音識(shí)別或翻譯，在其他模態(tài)數(shù)據(jù)和任務(wù)上的泛化能力十分有限。研究人員還直接評(píng)估了模型對(duì)輸入提示的處理能力，結(jié)果發(fā)現(xiàn)，無(wú)論是哪種提示，模型都能得到很高的評(píng)分，表明還有很大的空間來(lái)進(jìn)一步提高模型在保持情感表達(dá)方面的能力，也意味著，智能體在理解和生成情感豐富的內(nèi)容方面還有很大的潛力可以挖掘。

?Meta ?7B-Spirit
薦17歲高中生寫了個(gè)神級(jí)Prompt，直接把Claude強(qiáng)化成了滿血o1。

我被這個(gè)Claude3.5這個(gè)神級(jí)Prompt驚呆了。

?Prompt ?Claude
三星XR智能眼鏡2025年面世功能強(qiáng)大或超雷朋Meta

三星與谷歌合作開(kāi)發(fā)的擴(kuò)展現(xiàn)實(shí)智能眼鏡預(yù)計(jì)將在2025年下半年發(fā)布，初期生產(chǎn)50萬(wàn)臺(tái)。這款眼鏡將搭載高通AR1芯片組，與雷朋Meta眼鏡使用相同硬件平臺(tái)，并配備1200萬(wàn)像素?cái)z像頭和155毫安時(shí)電池。據(jù)預(yù)測(cè)，三星可能會(huì)在2025年正式發(fā)布前，通過(guò)活動(dòng)進(jìn)行預(yù)熱，比如在GalaxyS25發(fā)布會(huì)上首次展示XR眼鏡，以吸引更多關(guān)注。

?三星 ?谷歌 ?擴(kuò)展現(xiàn)實(shí)
下載次數(shù)破39萬(wàn)，CMU、Meta聯(lián)合發(fā)布VQAScore文生圖優(yōu)化方案：Imagen3已采用

VQAScore是一個(gè)利用視覺(jué)問(wèn)答模型來(lái)評(píng)估由文本提示生成的圖像質(zhì)量的新方法;GenAI-Bench是一個(gè)包含復(fù)雜文本提示的基準(zhǔn)測(cè)試集，用于挑戰(zhàn)和提升現(xiàn)有的圖像生成模型。兩個(gè)工具可以幫助研究人員自動(dòng)評(píng)估AI模型的性能能通過(guò)選擇最佳候選圖像來(lái)實(shí)際改善生成的圖像。他的研究成果對(duì)視覺(jué)識(shí)別、自動(dòng)駕駛、和人機(jī)交互等應(yīng)用產(chǎn)生了深遠(yuǎn)影響，是該領(lǐng)域極具影響力的科學(xué)家之一。

?視覺(jué)問(wèn)答 ?圖像生成 ?生成式人工智能
篡改猴Tampermonkey上架蘋果商店！售價(jià)21元、Safari可用

用戶腳本管理應(yīng)用篡改猴上架蘋果AppStore，售價(jià)為2.99美元，上架后便迅速?zèng)_上效率類付費(fèi)App排行第一。該應(yīng)用支持macOS、iOS和iPadOS上的Safari瀏覽器，為一次性購(gòu)買，用戶支付后無(wú)需再支付訂閱費(fèi)用即可長(zhǎng)期使用。需要注意的是，篡改猴iOS版僅在部分市場(chǎng)提供，如果在AppStore中搜索不到，說(shuō)明當(dāng)前市場(chǎng)并未提供。

?篡改猴 ?Tampermonkey ?用戶腳本
AI日?qǐng)?bào)：字節(jié)旗下AI助手豆包開(kāi)啟視頻生成內(nèi)測(cè)；OpenAI買下Chat.com域名；超清AI圖像生成模型FLUX 1.1 Pro Ultra發(fā)布

歡迎來(lái)到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開(kāi)發(fā)者，助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、OpenAI成功收購(gòu)Chat.com域名OpenAI成功收購(gòu)知名老牌域名Chat.com，進(jìn)一步豐富了其在網(wǎng)絡(luò)領(lǐng)域的資產(chǎn)。公司正積極推進(jìn)產(chǎn)品測(cè)試與上線工作，未來(lái)可能拓展至教育和陪伴等多種應(yīng)用場(chǎng)景，提升用戶體驗(yàn)。

?人工智能 ?OpenAI ?ChatGPT
小馬智行上市成功！全球Robotaxi第二股誕生

北京時(shí)間11月27日，自動(dòng)駕駛公司小馬智行終于敲響納斯打卡上市的鐘聲，股票代碼“PONY”，成為繼文遠(yuǎn)知行赴美上市后的“全球Robotaxi第二股”。2016年小馬智行創(chuàng)立，2018年推出中國(guó)首個(gè)Robotaxi服務(wù)，是中國(guó)首家取得北上廣深無(wú)人駕駛出行服務(wù)許可的自動(dòng)駕駛公司。面對(duì)當(dāng)前的自動(dòng)駕駛的窘境，長(zhǎng)遠(yuǎn)看市場(chǎng)潛力無(wú)限，但近期盈利較難，小馬智行想要真正沖破重圍，仍需拭目以待。

?小馬智行 ?Robotaxi ?自動(dòng)駕駛
薦AI日?qǐng)?bào)：字節(jié)推圖像編輯模型SeedEdit；Suno發(fā)布V4音樂(lè)生成模型；谷歌最新AI視頻制作神器Vids

歡迎來(lái)到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開(kāi)發(fā)者，助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、豆包大模型團(tuán)隊(duì)正式發(fā)布圖像編輯模型SeedEdit用嘴P圖成真!SeedEdit是豆包大模型團(tuán)隊(duì)推出的圖像編輯工具，通過(guò)一句話命令A(yù)I實(shí)現(xiàn)精準(zhǔn)修改圖片元素，比MJ更簡(jiǎn)單快捷。格萊美提名使樂(lè)隊(duì)再次成為關(guān)注焦點(diǎn)。

?SeedEdit ?Vids

熱文

3 天
7天

站長(zhǎng)商機(jī)

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

字節(jié)復(fù)旦團(tuán)隊(duì)提出meta prompts 擴(kuò)散模型圖像理解力刷新SOTA

薦摸著Meta過(guò)河，百度再戰(zhàn)AI眼鏡

亞馬遜聯(lián)合英偉達(dá)舉辦AI路演大賽，AI新星PromptBio入圍6強(qiáng)

首個(gè)可保留情感的音頻LLM！Meta重磅開(kāi)源7B-Spirit LM，一網(wǎng)打盡「音頻+文本」多模態(tài)任務(wù)

薦17歲高中生寫了個(gè)神級(jí)Prompt，直接把Claude強(qiáng)化成了滿血o1。

三星XR智能眼鏡2025年面世功能強(qiáng)大或超雷朋Meta

下載次數(shù)破39萬(wàn)，CMU、Meta聯(lián)合發(fā)布VQAScore文生圖優(yōu)化方案：Imagen3已采用

篡改猴Tampermonkey上架蘋果商店！售價(jià)21元、Safari可用

AI日?qǐng)?bào)：字節(jié)旗下AI助手豆包開(kāi)啟視頻生成內(nèi)測(cè)；OpenAI買下Chat.com域名；超清AI圖像生成模型FLUX 1.1 Pro Ultra發(fā)布

小馬智行上市成功！全球Robotaxi第二股誕生

薦AI日?qǐng)?bào)：字節(jié)推圖像編輯模型SeedEdit；Suno發(fā)布V4音樂(lè)生成模型；谷歌最新AI視頻制作神器Vids

熱文

公司春節(jié)放假卷起來(lái)了！攜程員工春節(jié)可返鄉(xiāng)辦公最長(zhǎng)兩個(gè)月

人人影視數(shù)據(jù)開(kāi)源:創(chuàng)始人梁良分享二十年字幕文件并展望未來(lái)

人人影視回應(yīng)網(wǎng)站是否還在：還在將開(kāi)源分享二十年數(shù)據(jù)

馬斯克找老黃插隊(duì)拿顯卡：加價(jià)也要確保獲得優(yōu)先交付權(quán)

華為何剛：Mate 70系列預(yù)約數(shù)已超670萬(wàn)臺(tái)

微信支付：目前沒(méi)有推出所謂“碰一碰支付”的相關(guān)產(chǎn)品

小米米家App暫不支持華為HarmonyOS NEXT：正在適配中

庫(kù)克稱中國(guó)蘋果用戶數(shù)據(jù)是安全的加密技術(shù)相同

雷軍送金米兔祝賀王曉雁入職5周年：奔赴下一個(gè)五年

微信下架多個(gè)違規(guī)微短劇類小程序：內(nèi)容侵權(quán)、不良導(dǎo)向

公司春節(jié)放假卷起來(lái)了！攜程員工春節(jié)可返鄉(xiāng)辦公最長(zhǎng)兩個(gè)月

瓊瑤走了一個(gè)時(shí)代宣告結(jié)束了：小米王化發(fā)文悼念

人人影視數(shù)據(jù)開(kāi)源:創(chuàng)始人梁良分享二十年字幕文件并展望未來(lái)

抖音宣布大力扶持精品短?。?jiǎn)尾孔罡咄顿Y金額可到500萬(wàn)元保底

馬斯克加碼起訴OpenAI：要求禁止其轉(zhuǎn)變?yōu)闋I(yíng)利性公司

抖音副總裁否認(rèn)回應(yīng)鐘睒睒：沒(méi)有回應(yīng)任何人不要以訛傳訛

盧偉冰：小米15、K80系列市場(chǎng)反饋非常好 Turbo4將本月發(fā)布

腦腐brain rot被評(píng)為2024牛津年度詞匯：過(guò)度瀏覽網(wǎng)絡(luò)低質(zhì)量?jī)?nèi)容

騰訊回應(yīng)微信提現(xiàn)可免手續(xù)費(fèi)：只有銀行卡轉(zhuǎn)入零錢通可以

周鴻祎談吳柳芳事件稱退役運(yùn)動(dòng)員自食其力不丟人

站長(zhǎng)商機(jī)