高分辨率AI模型Griffon v2:通過文本和視覺提示提供靈活的對象引用

2024-03-19 09:37 · 稿源：站長之家

劃重點:
?? 最近，大型視覺語言模型（LVLMs）在需要文本和圖像理解的任務(wù)中表現(xiàn)出色。
?? 團隊引入了Griffon v2，這是一種統(tǒng)一的高分辨率模型，旨在通過文本和視覺線索提供靈活的對象引用。
?? Griffon v2在引用表達(dá)生成（REG）、短語定位和引用表達(dá)理解(REC)等任務(wù)中表現(xiàn)出色。

站長之家(ChinaZ.com) 3月19日消息:近來，大型視覺語言模型（LVLMs）在需要文本和圖像理解的任務(wù)中表現(xiàn)出色。特別是在區(qū)域級任務(wù)，如引用表達(dá)理解(REC)中，經(jīng)過圖像文本理解和推理的發(fā)展之后，這一進展變得明顯。諸如Griffon之類的模型在任務(wù)中表現(xiàn)出色，如目標(biāo)檢測，這表明了LVLMs內(nèi)部感知的重大進步。這一發(fā)展推動了對使用文本描述之外的靈活引用進行額外研究，以改善用戶界面。

盡管在細(xì)粒度對象感知方面取得了巨大進步，但由于圖片分辨率的限制，LVLMs無法在復(fù)雜情景中勝過任務(wù)特定的專家。這一限制限制了它們在使用文本和視覺線索有效引用事物的能力，尤其是在GUI代理和計數(shù)活動等領(lǐng)域。

為了克服這一限制，一組研究人員引入了Griffon v2，這是一種統(tǒng)一的高分辨率模型，旨在通過文本和視覺線索提供靈活的對象引用。為了解決有效增加圖像分辨率的問題，他們提出了一個簡單且輕量級的降采樣投影儀。這個投影儀的設(shè)計目標(biāo)是克服大型語言模型輸入標(biāo)記所施加的限制。

這一方法通過保留細(xì)微特征和整個上下文，特別是對于低分辨率模型可能錯過的小事物，極大地提高了多模態(tài)感知能力。團隊基于這一基礎(chǔ)構(gòu)建了一個即插即用的視覺標(biāo)記器，并將Griffon v2增強為具有視覺語言共指能力。這一特性使得可以以一種易于使用的方式與各種輸入進行交互，例如坐標(biāo)、自由文本和靈活的目標(biāo)圖片。

Griffon v2在各種任務(wù)中都被證明是有效的，如引用表達(dá)生成（REG）、短語定位和引用表達(dá)理解(REC)，根據(jù)實驗數(shù)據(jù)顯示，該模型在目標(biāo)檢測和對象計數(shù)方面表現(xiàn)優(yōu)于專家模型。

該團隊總結(jié)了他們的主要貢獻如下:

- 高分辨率多模態(tài)感知模型:通過消除對圖像進行分割的要求，該模型提供了一種改進本地理解的獨特方法。該模型處理分辨率高達(dá)1K的能力已經(jīng)提高了其捕捉細(xì)節(jié)的能力。

- 視覺-語言共指結(jié)構(gòu):為了擴展模型的效用并啟用多種交互模式，引入了一個將語言和視覺輸入結(jié)合起來的共指結(jié)構(gòu)。這一特性使用戶與模型之間的交流更加靈活自然。

為了驗證模型在各種定位任務(wù)上的有效性，進行了大量實驗。在短語定位、引用表達(dá)生成（REG）和引用表達(dá)理解(REC)中，都獲得了最先進的性能。該模型在定量和定性目標(biāo)計數(shù)方面均優(yōu)于專家模型，證明了其在感知和理解方面的優(yōu)越性。

項目入口：https://github.com/jefferyZhan/Griffon

論文地址：https://arxiv.org/abs/2403.09333

（舉報）

相關(guān)推薦

關(guān)鍵詞：

力壓Sora！谷歌第二代AI視頻生成模型Veo 2發(fā)布：分辨率可達(dá)4K

據(jù)報道，谷歌發(fā)布了最新的AI視頻生成模型Veo2。Veo2模型能夠生成最高4K分辨率、時長達(dá)到2分鐘的視頻片段，相較于OpenAI的Sora模型，分辨率提升了4倍，視頻時長增加了6倍。除了Veo2之外，Google這波還推出了改進版的AI繪圖Imagen3模型，生圖細(xì)節(jié)更好、光照更豐富、干擾更少。

?谷歌 ?AI視頻生成 ?Veo
時隔七年 HDMI 2.2標(biāo)準(zhǔn)有望CES 2025前夕公布！更高帶寬和分辨率支持

經(jīng)過七年的等待，HDMI2.1的繼任者HDMI2.2標(biāo)準(zhǔn)有望在CES2025前夕公布。HDMI標(biāo)準(zhǔn)制定機構(gòu)HDMIForum計劃在2025年1月6日，即CES開幕前一天，公布新一代視頻信號傳輸協(xié)議規(guī)范HDMI2.2。隨著視頻技術(shù)的進步，8K視頻正朝著120Hz和240Hz的方向發(fā)展，HDMI2.1已無法滿足這些需求，因此HDMI2.2。

?HDMI ?2.2 ?視頻信號傳輸
薦AI日報：可靈AI API對口型能力全面開放；豆包大模型宣稱追平GPT-4；百度2024年度AI提示詞“答案”；通義千問視覺模型直降80%

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、可靈AIAPI對口型能力全面開放、虛擬試穿升級至V1.5模型北京快手科技有限公司近日宣布可靈AIAPI完成新一輪升級，主要在虛擬試穿和對口型功能上取得顯著進展。Run:ai的軟件能夠?

?人工智能 ?虛擬試穿 ?對口型技術(shù)
薦AI日報：字節(jié)重磅推出豆包視覺理解模型；AI“魔改”寵物跳舞爆火；OpenAI開放滿血o1模型API；即夢AI上線海報生成功能

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。9、英偉達(dá)發(fā)布生成式AI超級電腦:僅249美元性能提升1.7倍英偉達(dá)推出的JetsonOrinNanoSuper是一款面向開發(fā)者的生成式人工智能超級電腦，定價249美元，性能提升顯著，適用于多種AI應(yīng)用場景。此次股票出售不僅激勵了員工，也加強了公司與投資者之間的信任關(guān)系，顯示出OpenAI作為創(chuàng)新型公司的潛力與價值。

?人工智能 ?視覺推理 ?大模型
視覺中國與生數(shù)科技共拓視覺產(chǎn)業(yè)大模型應(yīng)用

視覺中國宣布與北京生數(shù)科技有限公司建立戰(zhàn)略合作關(guān)系，雙方將基于各自的技術(shù)優(yōu)勢和行業(yè)資源，共同探索并建立“視覺產(chǎn)業(yè)大模型平臺及應(yīng)用”。此次合作旨在深化人工智能技術(shù)在視覺內(nèi)容產(chǎn)業(yè)的應(yīng)用，推動產(chǎn)業(yè)智能化升級，為全球視覺內(nèi)容創(chuàng)作者和使用者提供更高效、智能的服務(wù)。通過雙方的深度合作與共同努力，將開拓更多前沿的AI應(yīng)用領(lǐng)域，共同打造互利共贏的產(chǎn)業(yè)生態(tài)，引領(lǐng)視覺內(nèi)容產(chǎn)業(yè)邁向智能化新時代。

?視覺中國 ?生數(shù)科技 ?人工智能
可靈1.6模型發(fā)布：文本響應(yīng)度、運動合理性明顯提升

快科技12月20日消息，近日快手可靈AI宣布基座模型再升級，視頻生成推出可靈1.6模型。據(jù)快手官方介紹，1.6模型在文本響應(yīng)度、畫面美感及運動合理性上均有明顯提升，畫面更穩(wěn)定更生動，對運動、時序類動作、運鏡等文字描述響應(yīng)更好。并且動態(tài)質(zhì)量進一步增強，運動更加合理，人物表情更自然；同時1.6模型畫面質(zhì)量也再次進化，色彩、光影、細(xì)節(jié)表現(xiàn)均明顯提升，提供支持標(biāo)準(zhǔn)和高品質(zhì)模式，圖生視頻效果提升同樣顯著。此前在今年9月份，可靈AI 1.5模型上線，當(dāng)時就已經(jīng)支持高品質(zhì)模式，與可靈1.0模型只能生成最高720P的視頻不同，可靈1.5模型則

?快手可靈AI ?視頻生成 ?可靈1.6模型
2024年最佳免費AI圖片轉(zhuǎn)提示工具

在當(dāng)今快節(jié)奏的創(chuàng)意世界中，圖像到提示工具已變得不可或缺。它們可以自動生成圖像提示，為您節(jié)省時間和精力。這些知識可以幫助您了解如何使用這些工具并增強您的創(chuàng)意輸出。

?圖像生成 ?創(chuàng)意工具 ?內(nèi)容制作
首屆2024AIGC視覺應(yīng)用論壇在京舉辦，AI成為視覺行業(yè)新基建和新工具

12 月 12 日，首屆“2024AIGC視覺應(yīng)用論壇”在京舉辦，影視導(dǎo)演、短劇導(dǎo)演、廣告行業(yè)從業(yè)者、廣播電視從業(yè)者、AIGC創(chuàng)作者、行業(yè)專家等齊聚一堂，共同探討AIGC前沿趨勢和應(yīng)用進展?？焓指笨偛?、大模型團隊負(fù)責(zé)人張迪在論壇上介紹，可靈AI將于近期推出全新的1. 6 版本模型，新模型將帶來更好、更穩(wěn)定的視頻質(zhì)量，在文本遵循、動態(tài)表現(xiàn)、風(fēng)格一致性等方面將有大幅提升。數(shù)?

?AIGC論壇 ?可靈AI ?視頻質(zhì)量提升
薦一手實測豆包新發(fā)布的視覺理解大模型，他們真的卷起飛了。

人在字節(jié)火山發(fā)布會現(xiàn)場。眼睜睜看著他們發(fā)了一大堆的模型升級，眼花繚亂，有一種要一股腦把字節(jié)系的AI底牌往桌上亮的感覺。這可能才是，最酷的事吧。

?豆包
薦AI日報：OpenAI重磅上線Sora；智譜AI免費多模態(tài)模型GLM-4V-Flash；騰訊云打造AI代碼助手

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、OpenAI正式上線Sora，ChatGPTPro用戶可無限生成、最長20秒OpenAI在"ship-mas"系列活動中發(fā)布了SoraTurbo視頻生成AI，支持生成20秒1080p視頻，用戶可通過文本、圖片或視頻進行創(chuàng)作，具有多種風(fēng)格和剪輯功能。See3D已開源，支持多種3D創(chuàng)作應(yīng)用。

熱文

3 天
7天

站長商機

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

高分辨率AI模型Griffon v2:通過文本和視覺提示提供靈活的對象引用

力壓Sora！谷歌第二代AI視頻生成模型Veo 2發(fā)布：分辨率可達(dá)4K

時隔七年 HDMI 2.2標(biāo)準(zhǔn)有望CES 2025前夕公布！更高帶寬和分辨率支持

薦AI日報：可靈AI API對口型能力全面開放；豆包大模型宣稱追平GPT-4；百度2024年度AI提示詞“答案”；通義千問視覺模型直降80%

薦AI日報：字節(jié)重磅推出豆包視覺理解模型；AI“魔改”寵物跳舞爆火；OpenAI開放滿血o1模型API；即夢AI上線海報生成功能

視覺中國與生數(shù)科技共拓視覺產(chǎn)業(yè)大模型應(yīng)用

可靈1.6模型發(fā)布：文本響應(yīng)度、運動合理性明顯提升

2024年最佳免費AI圖片轉(zhuǎn)提示工具

首屆2024AIGC視覺應(yīng)用論壇在京舉辦，AI成為視覺行業(yè)新基建和新工具

薦一手實測豆包新發(fā)布的視覺理解大模型，他們真的卷起飛了。

薦AI日報：OpenAI重磅上線Sora；智譜AI免費多模態(tài)模型GLM-4V-Flash；騰訊云打造AI代碼助手

熱文

京東科技宣布落實20薪：計劃到2025年實現(xiàn)

免費寫真人人都能用！騰訊元寶AI跨年美照上線：大片一鍵生成

出圈就好！盤點2024年國內(nèi)AI大模型產(chǎn)品的那些破圈姿勢

助力解決國人睡眠問題，聲闊&QQ音樂用科技打開新局面

雷軍感謝網(wǎng)友祝他年入百萬：愿大家夢想成真今晚8點跨年直播

美團防疲勞機制即將全國上線：外賣小哥跑單12小時強制下線

抖音副總裁回應(yīng)吳柳芳同名賬號被封：仿冒當(dāng)事人

雷軍辟謠只招聘35歲以下員工：僅針對未來之星項目

法拉第未來漲近80% 此前宣布再獲3000萬美元融資

抖音李亮：字節(jié)70億美元購買英偉達(dá)芯片不實張一鳴從未參與算力

3萬一只AI寵物：正成為日本富人的新玩具

曝雷軍挖了個95后天才少女“AI小蘿莉”：開出千萬年薪惡補大模

京東科技宣布落實20薪：計劃到2025年實現(xiàn)

AI 的暗面：永遠(yuǎn)不要對人工智能聊天機器人說的 10 件事

Edge瀏覽器睡眠標(biāo)簽頁立功：一年節(jié)省7萬億MB流量

AI教父辛頓發(fā)聲：30年內(nèi)AI致人類滅亡幾率達(dá)10%-20%

李想談OpenAI：如果讓我當(dāng)CEO 我做的不會比Altman更好

免費寫真人人都能用！騰訊元寶AI跨年美照上線：大片一鍵生成

AI 智能體如何在教育領(lǐng)域崛起并塑造 2025 年

出圈就好！盤點2024年國內(nèi)AI大模型產(chǎn)品的那些破圈姿勢

站長商機