幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

首頁(yè) > 業(yè)界 > 關(guān)鍵詞  > SOTA最新資訊  > 正文

字節(jié)復(fù)旦團(tuán)隊(duì)提出meta prompts 擴(kuò)散模型圖像理解力刷新SOTA

2024-01-16 16:48 · 稿源:站長(zhǎng)之家

站長(zhǎng)之家(ChinaZ.com)1月16日 消息:過(guò)去一年擴(kuò)散模型風(fēng)頭正勁,徹底改變了文生圖領(lǐng)域!那么,擴(kuò)散模型能否處理視覺(jué)感知任務(wù)?字節(jié)跳動(dòng)和復(fù)旦大學(xué)技術(shù)團(tuán)隊(duì)在最新研究中提出了一個(gè)簡(jiǎn)單有效的方案。擴(kuò)散模型在生成高清晰度圖像方面顯示出了卓越的能力,這一成就得益于其在大規(guī)模圖像-文本對(duì)上的預(yù)訓(xùn)練。團(tuán)隊(duì)提出了一種利用擴(kuò)散模型處理視覺(jué)感知任務(wù)的方案,通過(guò)引入可學(xué)習(xí)的元提示到預(yù)訓(xùn)練的擴(kuò)散模型中,以提取適合特定感知任務(wù)的特征。

image.png

項(xiàng)目地址:https://github.com/fudan-zvg/meta-prompts

視覺(jué)感知任務(wù)的多樣性超出了文本驅(qū)動(dòng)方法的范疇,因此技術(shù)團(tuán)隊(duì)提出了一種內(nèi)部的可學(xué)習(xí)元提示,稱為meta prompts,這些meta prompts被集成到擴(kuò)散模型中,以適應(yīng)感知任務(wù)。Meta prompts可以根據(jù)目標(biāo)任務(wù)和數(shù)據(jù)集進(jìn)行端到端的訓(xùn)練,從而為去噪U(xiǎn)Net建立特別定制的適應(yīng)條件。這些meta prompts包含豐富的、適應(yīng)于特定任務(wù)的語(yǔ)義信息,有效展示了對(duì)類別的識(shí)別能力、對(duì)深度的感知能力以及關(guān)鍵點(diǎn)的感知。

擴(kuò)散模型通過(guò)其固有的設(shè)計(jì),在去噪U(xiǎn)Net中生成多尺度特征,但視覺(jué)感知任務(wù)通常需要理解既包括低級(jí)細(xì)節(jié)的又包括高級(jí)語(yǔ)義解釋的內(nèi)容。為了解決這一問(wèn)題,技術(shù)團(tuán)隊(duì)引入了meta prompts作為特征重組的過(guò)濾器,將UNet的多尺度特征與meta prompts的任務(wù)適應(yīng)性結(jié)合起來(lái),并將經(jīng)過(guò)meta prompts過(guò)濾的特征輸入到特定任務(wù)的解碼器中,從而提高模型在視覺(jué)識(shí)別任務(wù)中的性能。

技術(shù)團(tuán)隊(duì)還為視覺(jué)感知任務(wù)設(shè)計(jì)了一個(gè)簡(jiǎn)單的recurrent refinement過(guò)程,通過(guò)將UNet的輸出特征循環(huán)輸入到UNet中,并引入可學(xué)習(xí)的獨(dú)特的timestep embeddings,以調(diào)制UNet的參數(shù),從而優(yōu)化特征提取過(guò)程,增強(qiáng)模型在視覺(jué)感知任務(wù)中的性能。實(shí)驗(yàn)結(jié)果顯示,該方法在多個(gè)感知任務(wù)數(shù)據(jù)集上都取得了最優(yōu)。

該研究提出的方法和技術(shù)有廣泛的應(yīng)用前景,可以在自動(dòng)駕駛、醫(yī)學(xué)影像分析、機(jī)器人視覺(jué)系統(tǒng)等領(lǐng)域中提升視覺(jué)感知任務(wù)的性能。此外,該方法還可以在藝術(shù)創(chuàng)作、虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)等領(lǐng)域中用于提高圖像和視頻的質(zhì)量和互動(dòng)性。隨著技術(shù)的進(jìn)步,這些方法可能會(huì)進(jìn)一步完善。

舉報(bào)

  • 相關(guān)推薦
  • 摸著Meta過(guò)河,百度再戰(zhàn)AI眼鏡

    因?yàn)槿鄙僬嬲某鋈Ξa(chǎn)品,導(dǎo)致外界對(duì)百度仍持有固有印象,認(rèn)為其在AI硬件賽道正逐漸掉隊(duì)?!癎oogleGlass什么都能干一點(diǎn),但是什么也沒(méi)有做好”,十年前,百度智能眼鏡BaiduEye產(chǎn)品團(tuán)隊(duì)的一名成員坦言,“我們想至少在一點(diǎn)上做好,能把它用起來(lái)”。在這場(chǎng)“戰(zhàn)役”中,那些跑得快的企業(yè),是成為“領(lǐng)頭羊”還是“炮灰”?可能只在一念之間。

  • 亞馬遜聯(lián)合英偉達(dá)舉辦AI路演大賽,AI新星PromptBio入圍6強(qiáng)

    由亞馬遜云服務(wù)和英偉達(dá)聯(lián)合舉辦的AI路演大賽在亞馬遜奧斯汀總部圓滿落幕。此次競(jìng)賽旨在吸引北美地區(qū)快速發(fā)展的AI初創(chuàng)公司,為它們提供一個(gè)向人工智能行業(yè)及風(fēng)險(xiǎn)投資人展示AI前沿技術(shù)應(yīng)用的平臺(tái)。公司致力于將前沿人工智能和多組學(xué)技術(shù)應(yīng)用于生物數(shù)據(jù)分析,為生命科學(xué)用戶、藥企和醫(yī)療機(jī)構(gòu)提供專業(yè)全面的解決方案,推動(dòng)醫(yī)學(xué)和生物科學(xué)的前沿發(fā)展。

  • 首個(gè)可保留情感的音頻LLM!Meta重磅開(kāi)源7B-Spirit LM,一網(wǎng)打盡「音頻+文本」多模態(tài)任務(wù)

    【新智元導(dǎo)讀】Meta最近開(kāi)源了一個(gè)7B尺寸的SpiritLM的多模態(tài)語(yǔ)言模型,能夠理解和生成語(yǔ)音及文本,可以非常自然地在兩種模式間轉(zhuǎn)換,不僅能處理基本的語(yǔ)音轉(zhuǎn)文本和文本轉(zhuǎn)語(yǔ)音任務(wù)能捕捉和再現(xiàn)語(yǔ)音中的情感和風(fēng)格。在純文本大模型取得進(jìn)展的同時(shí),其他模態(tài)數(shù)據(jù),如語(yǔ)音與文本結(jié)合的語(yǔ)言模型也成為了一個(gè)熱門的研究領(lǐng)域,但現(xiàn)有的模型要么在僅包含語(yǔ)音的數(shù)據(jù)上進(jìn)行訓(xùn)練,要么是關(guān)注特定任務(wù),如文本轉(zhuǎn)語(yǔ)音、自動(dòng)語(yǔ)音識(shí)別或翻譯,在其他模態(tài)數(shù)據(jù)和任務(wù)上的泛化能力十分有限。研究人員還直接評(píng)估了模型對(duì)輸入提示的處理能力,結(jié)果發(fā)現(xiàn),無(wú)論是哪種提示,模型都能得到很高的評(píng)分,表明還有很大的空間來(lái)進(jìn)一步提高模型在保持情感表達(dá)方面的能力,也意味著,智能體在理解和生成情感豐富的內(nèi)容方面還有很大的潛力可以挖掘。

  • 三星XR智能眼鏡2025年面世 功能強(qiáng)大或超雷朋Meta

    三星與谷歌合作開(kāi)發(fā)的擴(kuò)展現(xiàn)實(shí)智能眼鏡預(yù)計(jì)將在2025年下半年發(fā)布,初期生產(chǎn)50萬(wàn)臺(tái)。這款眼鏡將搭載高通AR1芯片組,與雷朋Meta眼鏡使用相同硬件平臺(tái),并配備1200萬(wàn)像素?cái)z像頭和155毫安時(shí)電池。據(jù)預(yù)測(cè),三星可能會(huì)在2025年正式發(fā)布前,通過(guò)活動(dòng)進(jìn)行預(yù)熱,比如在GalaxyS25發(fā)布會(huì)上首次展示XR眼鏡,以吸引更多關(guān)注。

  • 下載次數(shù)破39萬(wàn),CMU、Meta聯(lián)合發(fā)布VQAScore文生優(yōu)化方案:Imagen3已采用

    VQAScore是一個(gè)利用視覺(jué)問(wèn)答模型來(lái)評(píng)估由文本提示生成的圖像質(zhì)量的新方法;GenAI-Bench是一個(gè)包含復(fù)雜文本提示的基準(zhǔn)測(cè)試集,用于挑戰(zhàn)和提升現(xiàn)有的圖像生成模型。兩個(gè)工具可以幫助研究人員自動(dòng)評(píng)估AI模型的性能能通過(guò)選擇最佳候選圖像來(lái)實(shí)際改善生成的圖像。他的研究成果對(duì)視覺(jué)識(shí)別、自動(dòng)駕駛、和人機(jī)交互等應(yīng)用產(chǎn)生了深遠(yuǎn)影響,是該領(lǐng)域極具影響力的科學(xué)家之一。

  • 篡改猴Tampermonkey上架蘋果商店!售價(jià)21元、Safari可用

    用戶腳本管理應(yīng)用篡改猴上架蘋果AppStore,售價(jià)為2.99美元,上架后便迅速?zèng)_上效率類付費(fèi)App排行第一。該應(yīng)用支持macOS、iOS和iPadOS上的Safari瀏覽器,為一次性購(gòu)買,用戶支付后無(wú)需再支付訂閱費(fèi)用即可長(zhǎng)期使用。需要注意的是,篡改猴iOS版僅在部分市場(chǎng)提供,如果在AppStore中搜索不到,說(shuō)明當(dāng)前市場(chǎng)并未提供。

  • AI日?qǐng)?bào):字節(jié)旗下AI助手豆包開(kāi)啟視頻生成內(nèi)測(cè);OpenAI買下Chat.com域名;超清AI圖像生成模型FLUX 1.1 Pro Ultra發(fā)布

    歡迎來(lái)到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容,聚焦開(kāi)發(fā)者,助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、OpenAI成功收購(gòu)Chat.com域名OpenAI成功收購(gòu)知名老牌域名Chat.com,進(jìn)一步豐富了其在網(wǎng)絡(luò)領(lǐng)域的資產(chǎn)。公司正積極推進(jìn)產(chǎn)品測(cè)試與上線工作,未來(lái)可能拓展至教育和陪伴等多種應(yīng)用場(chǎng)景,提升用戶體驗(yàn)。

  • 小馬智行上市成功!全球Robotaxi第二股誕生

    北京時(shí)間11月27日,自動(dòng)駕駛公司小馬智行終于敲響納斯打卡上市的鐘聲,股票代碼“PONY”,成為繼文遠(yuǎn)知行赴美上市后的“全球Robotaxi第二股”。2016年小馬智行創(chuàng)立,2018年推出中國(guó)首個(gè)Robotaxi服務(wù),是中國(guó)首家取得北上廣深無(wú)人駕駛出行服務(wù)許可的自動(dòng)駕駛公司。面對(duì)當(dāng)前的自動(dòng)駕駛的窘境,長(zhǎng)遠(yuǎn)看市場(chǎng)潛力無(wú)限,但近期盈利較難,小馬智行想要真正沖破重圍,仍需拭目以待。

  • AI日?qǐng)?bào):字節(jié)推圖像編輯模型SeedEdit;Suno發(fā)布V4音樂(lè)生成模型;谷歌最新AI視頻制作神器Vids

    歡迎來(lái)到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容,聚焦開(kāi)發(fā)者,助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、豆包大模型團(tuán)隊(duì)正式發(fā)布圖像編輯模型SeedEdit用嘴P圖成真!SeedEdit是豆包大模型團(tuán)隊(duì)推出的圖像編輯工具,通過(guò)一句話命令A(yù)I實(shí)現(xiàn)精準(zhǔn)修改圖片元素,比MJ更簡(jiǎn)單快捷。格萊美提名使樂(lè)隊(duì)再次成為關(guān)注焦點(diǎn)。

熱文

  • 3 天
  • 7天