劃重點:
?? 最近,大型視覺語言模型(LVLMs)在需要文本和圖像理解的任務(wù)中表現(xiàn)出色。
?? 團隊引入了Griffon v2,這是一種統(tǒng)一的高分辨率模型,旨在通過文本和視覺線索提供靈活的對象引用。
?? Griffon v2在引用表達(dá)生成(REG)、短語定位和引用表達(dá)理解(REC)等任務(wù)中表現(xiàn)出色。
站長之家(ChinaZ.com) 3月19日 消息:近來,大型視覺語言模型(LVLMs)在需要文本和圖像理解的任務(wù)中表現(xiàn)出色。特別是在區(qū)域級任務(wù),如引用表達(dá)理解(REC)中,經(jīng)過圖像文本理解和推理的發(fā)展之后,這一進展變得明顯。諸如Griffon之類的模型在任務(wù)中表現(xiàn)出色,如目標(biāo)檢測,這表明了LVLMs內(nèi)部感知的重大進步。這一發(fā)展推動了對使用文本描述之外的靈活引用進行額外研究,以改善用戶界面。
盡管在細(xì)粒度對象感知方面取得了巨大進步,但由于圖片分辨率的限制,LVLMs無法在復(fù)雜情景中勝過任務(wù)特定的專家。這一限制限制了它們在使用文本和視覺線索有效引用事物的能力,尤其是在GUI代理和計數(shù)活動等領(lǐng)域。
為了克服這一限制,一組研究人員引入了Griffon v2,這是一種統(tǒng)一的高分辨率模型,旨在通過文本和視覺線索提供靈活的對象引用。為了解決有效增加圖像分辨率的問題,他們提出了一個簡單且輕量級的降采樣投影儀。這個投影儀的設(shè)計目標(biāo)是克服大型語言模型輸入標(biāo)記所施加的限制。
這一方法通過保留細(xì)微特征和整個上下文,特別是對于低分辨率模型可能錯過的小事物,極大地提高了多模態(tài)感知能力。團隊基于這一基礎(chǔ)構(gòu)建了一個即插即用的視覺標(biāo)記器,并將Griffon v2增強為具有視覺語言共指能力。這一特性使得可以以一種易于使用的方式與各種輸入進行交互,例如坐標(biāo)、自由文本和靈活的目標(biāo)圖片。
Griffon v2在各種任務(wù)中都被證明是有效的,如引用表達(dá)生成(REG)、短語定位和引用表達(dá)理解(REC),根據(jù)實驗數(shù)據(jù)顯示,該模型在目標(biāo)檢測和對象計數(shù)方面表現(xiàn)優(yōu)于專家模型。
該團隊總結(jié)了他們的主要貢獻如下:
- 高分辨率多模態(tài)感知模型:通過消除對圖像進行分割的要求,該模型提供了一種改進本地理解的獨特方法。該模型處理分辨率高達(dá)1K的能力已經(jīng)提高了其捕捉細(xì)節(jié)的能力。
- 視覺-語言共指結(jié)構(gòu):為了擴展模型的效用并啟用多種交互模式,引入了一個將語言和視覺輸入結(jié)合起來的共指結(jié)構(gòu)。這一特性使用戶與模型之間的交流更加靈活自然。
為了驗證模型在各種定位任務(wù)上的有效性,進行了大量實驗。在短語定位、引用表達(dá)生成(REG)和引用表達(dá)理解(REC)中,都獲得了最先進的性能。該模型在定量和定性目標(biāo)計數(shù)方面均優(yōu)于專家模型,證明了其在感知和理解方面的優(yōu)越性。
項目入口:https://github.com/jefferyZhan/Griffon
論文地址:https://arxiv.org/abs/2403.09333
(舉報)