幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

首頁 > 業(yè)界 > 關(guān)鍵詞  > Griffon最新資訊  > 正文

高分辨率AI模型Griffon v2:通過文本和視覺提示提供靈活的對象引用

2024-03-19 09:37 · 稿源:站長之家

劃重點:

?? 最近,大型視覺語言模型(LVLMs)在需要文本和圖像理解的任務(wù)中表現(xiàn)出色。

?? 團隊引入了Griffon v2,這是一種統(tǒng)一的高分辨率模型,旨在通過文本和視覺線索提供靈活的對象引用。

?? Griffon v2在引用表達(dá)生成(REG)、短語定位和引用表達(dá)理解(REC)等任務(wù)中表現(xiàn)出色。

站長之家(ChinaZ.com) 3月19日 消息:近來,大型視覺語言模型(LVLMs)在需要文本和圖像理解的任務(wù)中表現(xiàn)出色。特別是在區(qū)域級任務(wù),如引用表達(dá)理解(REC)中,經(jīng)過圖像文本理解和推理的發(fā)展之后,這一進展變得明顯。諸如Griffon之類的模型在任務(wù)中表現(xiàn)出色,如目標(biāo)檢測,這表明了LVLMs內(nèi)部感知的重大進步。這一發(fā)展推動了對使用文本描述之外的靈活引用進行額外研究,以改善用戶界面。

image.png

盡管在細(xì)粒度對象感知方面取得了巨大進步,但由于圖片分辨率的限制,LVLMs無法在復(fù)雜情景中勝過任務(wù)特定的專家。這一限制限制了它們在使用文本和視覺線索有效引用事物的能力,尤其是在GUI代理和計數(shù)活動等領(lǐng)域。

為了克服這一限制,一組研究人員引入了Griffon v2,這是一種統(tǒng)一的高分辨率模型,旨在通過文本和視覺線索提供靈活的對象引用。為了解決有效增加圖像分辨率的問題,他們提出了一個簡單且輕量級的降采樣投影儀。這個投影儀的設(shè)計目標(biāo)是克服大型語言模型輸入標(biāo)記所施加的限制。

這一方法通過保留細(xì)微特征和整個上下文,特別是對于低分辨率模型可能錯過的小事物,極大地提高了多模態(tài)感知能力。團隊基于這一基礎(chǔ)構(gòu)建了一個即插即用的視覺標(biāo)記器,并將Griffon v2增強為具有視覺語言共指能力。這一特性使得可以以一種易于使用的方式與各種輸入進行交互,例如坐標(biāo)、自由文本和靈活的目標(biāo)圖片。

Griffon v2在各種任務(wù)中都被證明是有效的,如引用表達(dá)生成(REG)、短語定位和引用表達(dá)理解(REC),根據(jù)實驗數(shù)據(jù)顯示,該模型在目標(biāo)檢測和對象計數(shù)方面表現(xiàn)優(yōu)于專家模型。

該團隊總結(jié)了他們的主要貢獻如下:

- 高分辨率多模態(tài)感知模型:通過消除對圖像進行分割的要求,該模型提供了一種改進本地理解的獨特方法。該模型處理分辨率高達(dá)1K的能力已經(jīng)提高了其捕捉細(xì)節(jié)的能力。

- 視覺-語言共指結(jié)構(gòu):為了擴展模型的效用并啟用多種交互模式,引入了一個將語言和視覺輸入結(jié)合起來的共指結(jié)構(gòu)。這一特性使用戶與模型之間的交流更加靈活自然。

為了驗證模型在各種定位任務(wù)上的有效性,進行了大量實驗。在短語定位、引用表達(dá)生成(REG)和引用表達(dá)理解(REC)中,都獲得了最先進的性能。該模型在定量和定性目標(biāo)計數(shù)方面均優(yōu)于專家模型,證明了其在感知和理解方面的優(yōu)越性。

項目入口:https://github.com/jefferyZhan/Griffon

論文地址:https://arxiv.org/abs/2403.09333

舉報

  • 相關(guān)推薦
  • 力壓Sora!谷歌第二代AI視頻生成模型Veo 2發(fā)布:分辨率可達(dá)4K

    據(jù)報道,谷歌發(fā)布了最新的AI視頻生成模型Veo2。Veo2模型能夠生成最高4K分辨率、時長達(dá)到2分鐘的視頻片段,相較于OpenAI的Sora模型,分辨率提升了4倍,視頻時長增加了6倍。除了Veo2之外,Google這波還推出了改進版的AI繪圖Imagen3模型,生圖細(xì)節(jié)更好、光照更豐富、干擾更少。

  • 時隔七年 HDMI 2.2標(biāo)準(zhǔn)有望CES 2025前夕公布!更帶寬和分辨率支持

    經(jīng)過七年的等待,HDMI2.1的繼任者HDMI2.2標(biāo)準(zhǔn)有望在CES2025前夕公布。HDMI標(biāo)準(zhǔn)制定機構(gòu)HDMIForum計劃在2025年1月6日,即CES開幕前一天,公布新一代視頻信號傳輸協(xié)議規(guī)范HDMI2.2。隨著視頻技術(shù)的進步,8K視頻正朝著120Hz和240Hz的方向發(fā)展,HDMI2.1已無法滿足這些需求,因此HDMI2.2。

  • AI日報:可靈AI API對口型能力全面開放;豆包大模型宣稱追平GPT-4;百度2024年度AI提示詞“答案”;通義千問視覺模型直降80%

    歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、可靈AIAPI對口型能力全面開放、虛擬試穿升級至V1.5模型北京快手科技有限公司近日宣布可靈AIAPI完成新一輪升級,主要在虛擬試穿和對口型功能上取得顯著進展。Run:ai的軟件能夠?

  • AI日報:字節(jié)重磅推出豆包視覺理解模型;AI“魔改”寵物跳舞爆火;OpenAI開放滿血o1模型API;即夢AI上線海報生成功能

    歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。9、英偉達(dá)發(fā)布生成式AI超級電腦:僅249美元性能提升1.7倍英偉達(dá)推出的JetsonOrinNanoSuper是一款面向開發(fā)者的生成式人工智能超級電腦,定價249美元,性能提升顯著,適用于多種AI應(yīng)用場景。此次股票出售不僅激勵了員工,也加強了公司與投資者之間的信任關(guān)系,顯示出OpenAI作為創(chuàng)新型公司的潛力與價值。

  • 視覺中國與生數(shù)科技共拓視覺產(chǎn)業(yè)大模型應(yīng)用

    視覺中國宣布與北京生數(shù)科技有限公司建立戰(zhàn)略合作關(guān)系,雙方將基于各自的技術(shù)優(yōu)勢和行業(yè)資源,共同探索并建立“視覺產(chǎn)業(yè)大模型平臺及應(yīng)用”。此次合作旨在深化人工智能技術(shù)在視覺內(nèi)容產(chǎn)業(yè)的應(yīng)用,推動產(chǎn)業(yè)智能化升級,為全球視覺內(nèi)容創(chuàng)作者和使用者提供更高效、智能的服務(wù)。通過雙方的深度合作與共同努力,將開拓更多前沿的AI應(yīng)用領(lǐng)域,共同打造互利共贏的產(chǎn)業(yè)生態(tài),引領(lǐng)視覺內(nèi)容產(chǎn)業(yè)邁向智能化新時代。

  • 可靈1.6模型發(fā)布:文本響應(yīng)度、運動合理性明顯提升

    快科技12月20日消息,近日快手可靈AI宣布基座模型再升級,視頻生成推出可靈1.6模型。據(jù)快手官方介紹,1.6模型在文本響應(yīng)度、畫面美感及運動合理性上均有明顯提升,畫面更穩(wěn)定更生動,對運動、時序類動作、運鏡等文字描述響應(yīng)更好。并且動態(tài)質(zhì)量進一步增強,運動更加合理,人物表情更自然;同時1.6模型畫面質(zhì)量也再次進化,色彩、光影、細(xì)節(jié)表現(xiàn)均明顯提升,提供支持標(biāo)準(zhǔn)和高品質(zhì)模式,圖生視頻效果提升同樣顯著。此前在今年9月份,可靈AI 1.5模型上線,當(dāng)時就已經(jīng)支持高品質(zhì)模式,與可靈1.0模型只能生成最高720P的視頻不同,可靈1.5模型則

  • 2024年最佳免費AI圖片轉(zhuǎn)提示工具

    在當(dāng)今快節(jié)奏的創(chuàng)意世界中,圖像到提示工具已變得不可或缺。它們可以自動生成圖像提示,為您節(jié)省時間和精力。這些知識可以幫助您了解如何使用這些工具并增強您的創(chuàng)意輸出。

  • 首屆2024AIGC視覺應(yīng)用論壇在京舉辦,AI成為視覺行業(yè)新基建和新工具

    12 月 12 日,首屆“2024AIGC視覺應(yīng)用論壇”在京舉辦,影視導(dǎo)演、短劇導(dǎo)演、廣告行業(yè)從業(yè)者、廣播電視從業(yè)者、AIGC創(chuàng)作者、行業(yè)專家等齊聚一堂,共同探討AIGC前沿趨勢和應(yīng)用進展??焓指笨偛?、大模型團隊負(fù)責(zé)人張迪在論壇上介紹,可靈AI將于近期推出全新的1. 6 版本模型,新模型將帶來更好、更穩(wěn)定的視頻質(zhì)量,在文本遵循、動態(tài)表現(xiàn)、風(fēng)格一致性等方面將有大幅提升。數(shù)?

  • 一手實測豆包新發(fā)布的視覺理解大模型,他們真的卷起飛了。

    人在字節(jié)火山發(fā)布會現(xiàn)場。眼睜睜看著他們發(fā)了一大堆的模型升級,眼花繚亂,有一種要一股腦把字節(jié)系的AI底牌往桌上亮的感覺。這可能才是,最酷的事吧。

  • AI日報:OpenAI重磅上線Sora;智譜AI免費多模態(tài)模型GLM-4V-Flash;騰訊云打造AI代碼助手

    歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、OpenAI正式上線Sora,ChatGPTPro用戶可無限生成、最長20秒OpenAI在"ship-mas"系列活動中發(fā)布了SoraTurbo視頻生成AI,支持生成20秒1080p視頻,用戶可通過文本、圖片或視頻進行創(chuàng)作,具有多種風(fēng)格和剪輯功能。See3D已開源,支持多種3D創(chuàng)作應(yīng)用。

熱文

  • 3 天
  • 7天