幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

首頁(yè) > 業(yè)界 > 關(guān)鍵詞  > GPT-4V最新資訊  > 正文

全新視覺(jué)提示方法SoM 讓GPT-4V看的更準(zhǔn)、分的更細(xì)

2023-10-23 14:23 · 稿源:站長(zhǎng)之家

要點(diǎn):

  • 提出了一種新的視覺(jué)提示方法 SoM,可以讓 GPT-4V 在細(xì)粒度視覺(jué)任務(wù)上有更好的表現(xiàn)。

  • SoM 通過(guò)使用交互式分割模型將圖像劃分為不同區(qū)域,并在每個(gè)區(qū)域上添加標(biāo)記,如字母數(shù)字、掩碼或框。

  • SoM 可以讓 GPT-4V 適用于多種視覺(jué)任務(wù),如開(kāi)放詞匯圖像分割、參考分割、短語(yǔ)關(guān)聯(lián)和視頻對(duì)象分割,并在各個(gè)數(shù)據(jù)集上取得了優(yōu)于專用模型和其他開(kāi)源多模態(tài)模型的性能。

研究人員推出了一種新的視覺(jué)提示方法 Set-of-Mark(SoM),它可以讓 OpenAI 多模態(tài)大模型 GPT-4V 在視覺(jué)內(nèi)容理解方面有了質(zhì)的提升。GPT-4V 是一種基于 GPT-4的多模態(tài)模型,可以同時(shí)處理文本和圖像,并生成多種類型的輸出。

然而,GPT-4V 在細(xì)粒度 visual grounding(輸入是圖片和對(duì)應(yīng)的物體描述,輸出是描述物體的 box)能力相對(duì)較弱,或者尚未發(fā)揮出來(lái)。為了解決這個(gè)問(wèn)題,研究人員提出了 SoM 方法,它可以讓 GPT-4V 在不需要任何微調(diào)或額外數(shù)據(jù)的情況下,完成各種細(xì)粒度視覺(jué)任務(wù)。

image.png

論文地址:https://arxiv.org/pdf/2310.11441.pdf

論文主頁(yè):https://som-gpt4v.github.io/

SoM 的核心思想是使用交互式分割模型(例如 SAM)將圖像劃分為不同粒度級(jí)別的區(qū)域,并在這些區(qū)域上添加一組標(biāo)記(mark),例如字母數(shù)字、掩碼(mask)、框(box)。使用添加標(biāo)記的圖像作為輸入,以解決上述問(wèn)題。

研究人員認(rèn)為,這種方法可以讓 GPT-4V 更好地理解圖像中的物體和空間關(guān)系,并且可以利用 GPT-4V 的生成能力來(lái)產(chǎn)生文本之外的輸出,如掩碼或框。

image.png

研究人員在多個(gè)視覺(jué)任務(wù)上評(píng)估了 SoM 的效果,包括開(kāi)放詞匯圖像分割、參考分割、短語(yǔ)關(guān)聯(lián)和視頻對(duì)象分割。他們使用不同的分割工具來(lái)提出圖像區(qū)域,并使用簡(jiǎn)單的 prompt 工程來(lái)引導(dǎo) GPT-4V 生成所需的輸出。他們還使用了「分而治之」(divide-and-conquer)的策略來(lái)運(yùn)行實(shí)驗(yàn)和評(píng)估,即對(duì)于每個(gè)實(shí)例,他們使用新的聊天窗口,這樣一來(lái),評(píng)估期間就不會(huì)出現(xiàn)上下文泄露了。

研究人員將 SoM 與以下模型進(jìn)行比較:預(yù)測(cè)坐標(biāo)的 GPT-4V 基線模型、SOTA 專用模型和開(kāi)源 LMM。結(jié)果顯示,SoM 可以讓 GPT-4V 在各個(gè)數(shù)據(jù)集上取得了優(yōu)于專用模型和其他開(kāi)源多模態(tài)模型的性能。特別是,在 COCO 和 ADE20K 上的開(kāi)放詞匯圖像分割任務(wù)上,SoM 的零樣本性能接近微調(diào)后的 MaskDINO,并大幅優(yōu)于 OpenSeeD。

在 RefCOCOg 上的參考分割任務(wù)上,SoM 擊敗了 PolyFormer 和 SEEM 等專用模型以及 Shikra、LLaVA-1.5、MiniGPT-v2和 Ferret 等最近的開(kāi)源 LMM。在 Flickr30K 上的短語(yǔ)關(guān)聯(lián)任務(wù)上,SoM 實(shí)現(xiàn)了比 GLIPv2和 Grounding DINO 更強(qiáng)的零樣本性能。在 DAVIS2017上的視頻對(duì)象分割任務(wù)上,SoM 實(shí)現(xiàn)了優(yōu)于其他專用視覺(jué)模型的最佳追蹤性能(78.8J&F)。

研究人員還進(jìn)行了消融研究,探討了標(biāo)記類型和真值掩碼對(duì) SoM 的影響。結(jié)果表明,添加額外的框可以顯著提升性能,而使用真值掩碼可以將參考分割的性能提升14.5%(mIoU)。這些結(jié)果表明了 SoM 的有效性和靈活性,以及 GPT-4V 在細(xì)粒度視覺(jué)任務(wù)上的潛力。

舉報(bào)

  • 相關(guān)推薦

熱文

  • 3 天
  • 7天