劃重點(diǎn):
?? 挑戰(zhàn)與潛力:大型視覺(jué)語(yǔ)言模型(LVLMs)在計(jì)算機(jī)視覺(jué)(CV)和自然語(yǔ)言處理(NLP)交叉任務(wù)中表現(xiàn)出色,但在圖像感知能力方面仍有潛力待發(fā)。
?? 模型結(jié)構(gòu):目前的LVLMs通常采用圖像標(biāo)記作為前綴或交叉注意力進(jìn)行特征融合。然而,模型的效率可能受到視覺(jué)詞匯網(wǎng)絡(luò)在編碼視覺(jué)信號(hào)方面的限制。
?? 解決方案:MEGVII Technology的研究人員提出了Vary-toy,通過(guò)優(yōu)化視覺(jué)詞匯創(chuàng)建過(guò)程,旨在提高LVLMs的圖像感知能力。
站長(zhǎng)之家(ChinaZ.com)1月31日 消息:在過(guò)去的一年里,大型視覺(jué)語(yǔ)言模型(LVLMs)已經(jīng)成為人工智能研究的一個(gè)突出焦點(diǎn)。當(dāng)以不同方式啟動(dòng)時(shí),這些模型在各種下游任務(wù)中表現(xiàn)出色。然而,LVLMs在圖像感知能力方面仍有顯著的提升潛力。
對(duì)于推動(dòng)模型開(kāi)發(fā)和實(shí)施,提高對(duì)視覺(jué)概念的感知能力至關(guān)重要。這一進(jìn)展面臨兩個(gè)主要挑戰(zhàn):當(dāng)前視覺(jué)詞匯網(wǎng)絡(luò)的不足和優(yōu)化大量參數(shù)的高計(jì)算成本。
流行的LVLMs在計(jì)算機(jī)視覺(jué)(CV)和自然語(yǔ)言處理(NLP)交叉任務(wù)中表現(xiàn)出色,如圖像字幕、視覺(jué)問(wèn)答(VQA)、模因理解和場(chǎng)景OCR,主要得益于出色的視覺(jué)詞匯網(wǎng)絡(luò),如CLIP。這些LVLMs通常采用兩種主要結(jié)構(gòu):將圖像標(biāo)記作為前綴或使用交叉注意力進(jìn)行特征融合。然而,無(wú)論架構(gòu)如何,模型的上限可能受制于其視覺(jué)詞匯網(wǎng)絡(luò)在編碼視覺(jué)信號(hào)方面的效率。
為了解決這個(gè)問(wèn)題,研究人員提出了一種簡(jiǎn)單而有效的方法,通過(guò)使用較小的自回歸模型(如OPT-125M)訓(xùn)練新的視覺(jué)詞匯網(wǎng)絡(luò),并將其與現(xiàn)有詞匯合并,創(chuàng)建最終的LVLM。然而,該方法存在缺點(diǎn),包括網(wǎng)絡(luò)容量的浪費(fèi)和使用7B LLM的Vary-base的高迭代成本。
MEGVII Technology的研究人員推出了Vary-toy,這是一個(gè)更小版本,旨在緩解這些問(wèn)題。這一種具有高級(jí)視覺(jué)詞匯的開(kāi)創(chuàng)性緊湊型大型視覺(jué)語(yǔ)言模型,適用于標(biāo)準(zhǔn)GPU。
Vary-toy沿用了Vary相同的流程,但優(yōu)化了視覺(jué)詞匯創(chuàng)建過(guò)程。他們不將自然圖像視為負(fù)樣本,而是將目標(biāo)檢測(cè)任務(wù)納入詞匯網(wǎng)絡(luò),結(jié)合密集的文本數(shù)據(jù)(PDF)和自然對(duì)象位置數(shù)據(jù)。這種方法增強(qiáng)了Vary-toy的通用性。在創(chuàng)建和強(qiáng)化詞匯之后,他們將其與CLIP合并,并集成到一個(gè)1.8B語(yǔ)言模型中。
在DocVQA、ChartQA、MMvet和RefCOCO等具有挑戰(zhàn)性的基準(zhǔn)測(cè)試上的實(shí)驗(yàn)結(jié)果展示了Vary-toy的能力。它在這些基準(zhǔn)測(cè)試中取得了出色的性能,展示了其作為更小但強(qiáng)大的LVLM的潛力。
Vary-toy取得了令人矚目的結(jié)果,包括DocVQA上的65.6% ANLS,ChartQA上的59.1%準(zhǔn)確率,RefCOCO上的88.1%準(zhǔn)確率,以及MMVet上的29%。
Vary-toy的小尺寸使其對(duì)于資源有限的研究人員來(lái)說(shuō)成為進(jìn)一步探索和改進(jìn)LVLM研究的實(shí)用基準(zhǔn)。研究人員計(jì)劃公開(kāi)發(fā)布代碼,供研究社區(qū)進(jìn)一步探索和采用。
Vary-toy可實(shí)現(xiàn)的場(chǎng)景案例展示:
項(xiàng)目入口:https://top.aibase.com/tool/vary-toy
論文:https://arxiv.org/abs/2401.12503
(舉報(bào))