幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

首頁 > 業(yè)界 > 關(guān)鍵詞  > GLEE最新資訊  > 正文

通用物體級基礎(chǔ)模型GLEE:增強圖像和視頻分析

2023-12-18 10:19 · 稿源:站長之家

**劃重點:**

1. ?? GLEE是一種通用物體級別基礎(chǔ)模型,由華中科技大學、字節(jié)跳動和約翰斯·霍普金斯大學的研究人員共同推出,突破了當前視覺基礎(chǔ)模型的限制,提供準確而全面的物體級信息。

2. ?? GLEE以其在各種任務中表現(xiàn)卓越的通用性而聞名,無需特定任務適應即可在不同對象感知任務中定位和識別物體,同時集成大型語言模型以提供多模態(tài)研究的通用物體級信息。

3. ?? 該模型展現(xiàn)出出色的靈活性和卓越的泛化能力,特別在零樣本傳輸場景中表現(xiàn)突出。通過整合各種數(shù)據(jù)源,包括自動標記的大量數(shù)據(jù),GLEE不僅實現(xiàn)了可擴展的數(shù)據(jù)集擴展,還提高了零樣本能力,成為未來圖像和視頻任務的基礎(chǔ)模型。

站長之家(ChinaZ.com)12月18日 消息:近日,來自華中科技大學、字節(jié)跳動和約翰斯·霍普金斯大學的研究人員推出了一款名為GLEE的全新通用物體級別基礎(chǔ)模型,為圖像和視頻分析帶來了全新的可能性。這一技術(shù)突破依賴深度學習的神奇,使計算機視覺系統(tǒng)能夠像虛擬偵探一樣,在數(shù)字體驗的畫布上識別、跟蹤和理解各種物體。

image.png

GLEE的獨特之處在于其卓越的通用性,無需特定任務的適應即可在各種任務中定位和識別物體。該模型集成了圖像編碼器、文本編碼器和視覺提示器,用于多模態(tài)輸入處理和廣義物體表示預測。通過在Objects365、COCO和Visual Genome等多樣化的數(shù)據(jù)集上進行訓練,GLEE采用統(tǒng)一框架,涵蓋檢測、分割、跟蹤、定位和識別開放場景中的對象。

GLEE通過使用動態(tài)類頭的MaskDINO以及相似性計算進行預測的對象解碼器,經(jīng)過目標檢測和實例分割的預訓練,聯(lián)合訓練實現(xiàn)了在各種圖像和視頻任務中的最先進性能。不僅如此,GLEE還展現(xiàn)了卓越的靈活性和強大的泛化能力,有效應對各種下游任務,無需特定任務的適應。

該模型在對象檢測、實例分割、定位、多目標跟蹤、視頻實例分割、視頻對象分割以及交互式分割和跟蹤等各種圖像和視頻任務中均表現(xiàn)卓越。甚至在與其他模型集成時,GLEE仍保持著最先進性能,展示了其表示的多樣性和有效性。

image.png

除了在技術(shù)上的突破,GLEE在零樣本泛化方面也取得了顯著進展,通過整合大量自動標記的數(shù)據(jù)進一步提升了模型的性能。作為一種基礎(chǔ)模型,GLEE為當前視覺基礎(chǔ)模型的局限性提供了創(chuàng)新性的解決方案,提供準確而通用的物體級信息。

研究的未來方向聚焦在擴展GLEE在處理復雜場景和具有長尾分布的挑戰(zhàn)性數(shù)據(jù)集方面的能力上,以提高其適應性。此外,研究人員還探索了在訓練過程中使用廣泛的圖像-標題對,類似于DALL-E模型,從而提高GLEE生成詳細圖像內(nèi)容的潛力。

項目體驗網(wǎng)址點擊這里:https://top.aibase.com/tool/glee

論文網(wǎng)址:https://arxiv.org/abs/2312.09158

舉報

  • 相關(guān)推薦

熱文

  • 3 天
  • 7天