Vary-toy：具有視覺(jué)詞匯視覺(jué)語(yǔ)音模型適用于標(biāo)準(zhǔn)GPU

2024-01-31 11:25 · 稿源：站長(zhǎng)之家

劃重點(diǎn):
?? 挑戰(zhàn)與潛力:大型視覺(jué)語(yǔ)言模型（LVLMs）在計(jì)算機(jī)視覺(jué)(CV)和自然語(yǔ)言處理(NLP)交叉任務(wù)中表現(xiàn)出色，但在圖像感知能力方面仍有潛力待發(fā)。
?? 模型結(jié)構(gòu):目前的LVLMs通常采用圖像標(biāo)記作為前綴或交叉注意力進(jìn)行特征融合。然而，模型的效率可能受到視覺(jué)詞匯網(wǎng)絡(luò)在編碼視覺(jué)信號(hào)方面的限制。
?? 解決方案:MEGVII Technology的研究人員提出了Vary-toy，通過(guò)優(yōu)化視覺(jué)詞匯創(chuàng)建過(guò)程，旨在提高LVLMs的圖像感知能力。

站長(zhǎng)之家（ChinaZ.com）1月31日消息:在過(guò)去的一年里，大型視覺(jué)語(yǔ)言模型（LVLMs）已經(jīng)成為人工智能研究的一個(gè)突出焦點(diǎn)。當(dāng)以不同方式啟動(dòng)時(shí)，這些模型在各種下游任務(wù)中表現(xiàn)出色。然而，LVLMs在圖像感知能力方面仍有顯著的提升潛力。

對(duì)于推動(dòng)模型開(kāi)發(fā)和實(shí)施，提高對(duì)視覺(jué)概念的感知能力至關(guān)重要。這一進(jìn)展面臨兩個(gè)主要挑戰(zhàn):當(dāng)前視覺(jué)詞匯網(wǎng)絡(luò)的不足和優(yōu)化大量參數(shù)的高計(jì)算成本。

流行的LVLMs在計(jì)算機(jī)視覺(jué)（CV）和自然語(yǔ)言處理(NLP)交叉任務(wù)中表現(xiàn)出色，如圖像字幕、視覺(jué)問(wèn)答(VQA)、模因理解和場(chǎng)景OCR，主要得益于出色的視覺(jué)詞匯網(wǎng)絡(luò)，如CLIP。這些LVLMs通常采用兩種主要結(jié)構(gòu):將圖像標(biāo)記作為前綴或使用交叉注意力進(jìn)行特征融合。然而，無(wú)論架構(gòu)如何，模型的上限可能受制于其視覺(jué)詞匯網(wǎng)絡(luò)在編碼視覺(jué)信號(hào)方面的效率。

為了解決這個(gè)問(wèn)題，研究人員提出了一種簡(jiǎn)單而有效的方法，通過(guò)使用較小的自回歸模型（如OPT-125M）訓(xùn)練新的視覺(jué)詞匯網(wǎng)絡(luò)，并將其與現(xiàn)有詞匯合并，創(chuàng)建最終的LVLM。然而，該方法存在缺點(diǎn)，包括網(wǎng)絡(luò)容量的浪費(fèi)和使用7B LLM的Vary-base的高迭代成本。

MEGVII Technology的研究人員推出了Vary-toy，這是一個(gè)更小版本，旨在緩解這些問(wèn)題。這一種具有高級(jí)視覺(jué)詞匯的開(kāi)創(chuàng)性緊湊型大型視覺(jué)語(yǔ)言模型，適用于標(biāo)準(zhǔn)GPU。

Vary-toy沿用了Vary相同的流程，但優(yōu)化了視覺(jué)詞匯創(chuàng)建過(guò)程。他們不將自然圖像視為負(fù)樣本，而是將目標(biāo)檢測(cè)任務(wù)納入詞匯網(wǎng)絡(luò)，結(jié)合密集的文本數(shù)據(jù)（PDF）和自然對(duì)象位置數(shù)據(jù)。這種方法增強(qiáng)了Vary-toy的通用性。在創(chuàng)建和強(qiáng)化詞匯之后，他們將其與CLIP合并，并集成到一個(gè)1.8B語(yǔ)言模型中。

在DocVQA、ChartQA、MMvet和RefCOCO等具有挑戰(zhàn)性的基準(zhǔn)測(cè)試上的實(shí)驗(yàn)結(jié)果展示了Vary-toy的能力。它在這些基準(zhǔn)測(cè)試中取得了出色的性能，展示了其作為更小但強(qiáng)大的LVLM的潛力。

Vary-toy取得了令人矚目的結(jié)果，包括DocVQA上的65.6% ANLS，ChartQA上的59.1%準(zhǔn)確率，RefCOCO上的88.1%準(zhǔn)確率，以及MMVet上的29%。

Vary-toy的小尺寸使其對(duì)于資源有限的研究人員來(lái)說(shuō)成為進(jìn)一步探索和改進(jìn)LVLM研究的實(shí)用基準(zhǔn)。研究人員計(jì)劃公開(kāi)發(fā)布代碼，供研究社區(qū)進(jìn)一步探索和采用。

Vary-toy可實(shí)現(xiàn)的場(chǎng)景案例展示:

項(xiàng)目入口:https://top.aibase.com/tool/vary-toy

論文:https://arxiv.org/abs/2401.12503

（舉報(bào)）

相關(guān)推薦

關(guān)鍵詞：

ChatGPT重大更新：新增實(shí)時(shí)搜索和高級(jí)語(yǔ)音

據(jù)報(bào)道，OpenAI開(kāi)啟了第八天技術(shù)分享直播，對(duì)ChatGPT搜索功能進(jìn)行了大量更新。此次ChatGPT新增的功能亮點(diǎn)紛呈。有觀點(diǎn)認(rèn)為，這一功能未來(lái)有望與餐廳、商城等商業(yè)實(shí)體進(jìn)行深度合作，為用戶帶來(lái)更加便捷、全面的服務(wù)體驗(yàn)。

?OpenAI ?ChatGPT ?實(shí)時(shí)搜索
視覺(jué)中國(guó)與生數(shù)科技共拓視覺(jué)產(chǎn)業(yè)大模型應(yīng)用

視覺(jué)中國(guó)宣布與北京生數(shù)科技有限公司建立戰(zhàn)略合作關(guān)系，雙方將基于各自的技術(shù)優(yōu)勢(shì)和行業(yè)資源，共同探索并建立“視覺(jué)產(chǎn)業(yè)大模型平臺(tái)及應(yīng)用”。此次合作旨在深化人工智能技術(shù)在視覺(jué)內(nèi)容產(chǎn)業(yè)的應(yīng)用，推動(dòng)產(chǎn)業(yè)智能化升級(jí)，為全球視覺(jué)內(nèi)容創(chuàng)作者和使用者提供更高效、智能的服務(wù)。通過(guò)雙方的深度合作與共同努力，將開(kāi)拓更多前沿的AI應(yīng)用領(lǐng)域，共同打造互利共贏的產(chǎn)業(yè)生態(tài)，引領(lǐng)視覺(jué)內(nèi)容產(chǎn)業(yè)邁向智能化新時(shí)代。

?視覺(jué)中國(guó) ?生數(shù)科技 ?人工智能
薦一手實(shí)測(cè)豆包新發(fā)布的視覺(jué)理解大模型，他們真的卷起飛了。

人在字節(jié)火山發(fā)布會(huì)現(xiàn)場(chǎng)。眼睜睜看著他們發(fā)了一大堆的模型升級(jí)，眼花繚亂，有一種要一股腦把字節(jié)系的AI底牌往桌上亮的感覺(jué)。這可能才是，最酷的事吧。

?豆包
PITAKA品牌VI視覺(jué)升級(jí)，做懂生活的材料創(chuàng)新者

PITAKA在主題為「純粹進(jìn)化Refining」九周年Openday活動(dòng)上，全新品牌視覺(jué)形象正式亮相。這次全新VI系統(tǒng)的“進(jìn)化”由國(guó)內(nèi)頂尖設(shè)計(jì)工作室UnitedDesignLab精心打造，通過(guò)品牌LOGO、色彩體系以及視覺(jué)物料的全面煥新，展現(xiàn)了PITAKA對(duì)材料創(chuàng)新與生活美學(xué)的獨(dú)到理解。PITAKA將以全新視覺(jué)為起點(diǎn)，繼續(xù)專注于材料科技創(chuàng)新與人文生活的融合，以高的產(chǎn)品力承載生活的可能性，不斷開(kāi)拓材料與設(shè)計(jì)的邊界。

?PITAKA ?品牌視覺(jué)形象 ?設(shè)計(jì)工作室
字節(jié)跳動(dòng)正式發(fā)布豆包視覺(jué)理解模型：1元可處理近300張高清圖

在今天舉辦的火山引擎Force大會(huì)上，字節(jié)跳動(dòng)正式發(fā)布豆包視覺(jué)理解模型，為企業(yè)提供極具性價(jià)比的多模態(tài)大模型能力。豆包視覺(jué)理解模型千tokens輸入價(jià)格僅為3厘，一元錢(qián)就可處理284張720P的圖片，比行業(yè)價(jià)格便宜85％，以更低成本推動(dòng)AI技術(shù)普惠和應(yīng)用發(fā)展。值得一提的是，字節(jié)跳動(dòng)還將在2025年春季將推出具備更長(zhǎng)視頻生成能力的豆包視頻生成模型1.5版，豆包端到端實(shí)時(shí)語(yǔ)音模型也將很快上線目前，豆包大模型已經(jīng)與八成主流汽車品牌合作，并接入到多家手機(jī)、PC等智能終端，覆蓋終端設(shè)備約3億臺(tái)，來(lái)自智能終端的豆包大模型調(diào)用量在半年時(shí)間內(nèi)增長(zhǎng)100倍。

?多模態(tài)大模型 ?豆包視覺(jué)理解 ?火山引擎大會(huì)
武建集團(tuán)一期BIP高級(jí)版財(cái)務(wù)項(xiàng)目成功上線

近日，武夷山崇安建設(shè)集團(tuán)（簡(jiǎn)稱武建集團(tuán)）一期BIP高級(jí)版財(cái)務(wù)項(xiàng)目正式上線運(yùn)行。該項(xiàng)目旨在通過(guò)引入用友BIP財(cái)務(wù)系統(tǒng)，高效支撐武建集團(tuán)多元化經(jīng)營(yíng)和多業(yè)態(tài)統(tǒng)一管理，推動(dòng)集團(tuán)財(cái)務(wù)管控及職能轉(zhuǎn)型。在大力推進(jìn)現(xiàn)代化產(chǎn)業(yè)體系建設(shè)、加快發(fā)展新質(zhì)生產(chǎn)力的今天，武建集團(tuán)不斷優(yōu)化市場(chǎng)布局，其業(yè)務(wù)范圍廣泛覆蓋建材施工、水務(wù)、能源、投資、項(xiàng)目管理代建、運(yùn)輸?shù)榷鄠€(gè)

?武夷山崇安建設(shè)集團(tuán) ?用友BIP財(cái)務(wù)系統(tǒng) ?財(cái)務(wù)管控轉(zhuǎn)型
薦GPT-4o再暴露「弱智」缺陷，大模型無(wú)一幸免，港中文等發(fā)布「視覺(jué)聽(tīng)覺(jué)」基準(zhǔn)AV-Odyssey：26個(gè)任務(wù)直指死角問(wèn)題

多模態(tài)大模型在聽(tīng)覺(jué)上，居然也出現(xiàn)了「9.11>9.8」的現(xiàn)象，音量大小這種簡(jiǎn)單問(wèn)題都識(shí)別不了!港中文、斯坦福等大學(xué)聯(lián)合發(fā)布的AV-Odyssey基準(zhǔn)測(cè)試，包含26個(gè)視聽(tīng)任務(wù)，覆蓋了7種聲音屬性，跨越了10個(gè)不同領(lǐng)域，確保測(cè)試的深度和廣度。在人工智能領(lǐng)域，我們一直以為頂尖的多模態(tài)大模型已經(jīng)無(wú)所不能，GPT-4o在ASR任務(wù)上已經(jīng)達(dá)到了97%的正確率，更是凸顯了強(qiáng)大的音頻理解能力?

?多模態(tài)大模型 ?音頻理解 ?AV-Odyssey基準(zhǔn)測(cè)試
薦AI日?qǐng)?bào)：字節(jié)重磅推出豆包視覺(jué)理解模型；AI“魔改”寵物跳舞爆火；OpenAI開(kāi)放滿血o1模型API；即夢(mèng)AI上線海報(bào)生成功能

歡迎來(lái)到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開(kāi)發(fā)者，助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。9、英偉達(dá)發(fā)布生成式AI超級(jí)電腦:僅249美元性能提升1.7倍英偉達(dá)推出的JetsonOrinNanoSuper是一款面向開(kāi)發(fā)者的生成式人工智能超級(jí)電腦，定價(jià)249美元，性能提升顯著，適用于多種AI應(yīng)用場(chǎng)景。此次股票出售不僅激勵(lì)了員工，也加強(qiáng)了公司與投資者之間的信任關(guān)系，顯示出OpenAI作為創(chuàng)新型公司的潛力與價(jià)值。

?人工智能 ?視覺(jué)推理 ?大模型
思必馳智能語(yǔ)音攜手茅臺(tái)，打造“國(guó)酒級(jí)”AI大模型智能會(huì)議方案

茅臺(tái)集團(tuán)是中國(guó)乃至全球知名的白酒企業(yè)，自 1951 年成立以來(lái)，始終堅(jiān)守傳統(tǒng)工藝與創(chuàng)新精神的融合之道。 1996 年，茅臺(tái)酒的釀造工藝被正式確認(rèn)為國(guó)家機(jī)密，受到嚴(yán)格保護(hù)。 2001 年，這一傳統(tǒng)工藝榮獲國(guó)家級(jí)首批物質(zhì)文化遺產(chǎn)的殊榮。思必馳是國(guó)內(nèi)專業(yè)的大模型對(duì)話式人工智能平臺(tái)型企業(yè)。公司以“溝通萬(wàn)物、打理萬(wàn)事”為使命，基于公司自主研發(fā)的全鏈路智能對(duì)話系統(tǒng)定?

?茅臺(tái)集團(tuán) ?白酒行業(yè) ?傳統(tǒng)工藝
首屆2024AIGC視覺(jué)應(yīng)用論壇在京舉辦，AI成為視覺(jué)行業(yè)新基建和新工具

12 月 12 日，首屆“2024AIGC視覺(jué)應(yīng)用論壇”在京舉辦，影視導(dǎo)演、短劇導(dǎo)演、廣告行業(yè)從業(yè)者、廣播電視從業(yè)者、AIGC創(chuàng)作者、行業(yè)專家等齊聚一堂，共同探討AIGC前沿趨勢(shì)和應(yīng)用進(jìn)展。快手副總裁、大模型團(tuán)隊(duì)負(fù)責(zé)人張迪在論壇上介紹，可靈AI將于近期推出全新的1. 6 版本模型，新模型將帶來(lái)更好、更穩(wěn)定的視頻質(zhì)量，在文本遵循、動(dòng)態(tài)表現(xiàn)、風(fēng)格一致性等方面將有大幅提升。數(shù)?

?AIGC論壇 ?可靈AI ?視頻質(zhì)量提升

熱文

3 天
7天

站長(zhǎng)商機(jī)

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

Vary-toy：具有視覺(jué)詞匯視覺(jué)語(yǔ)音模型適用于標(biāo)準(zhǔn)GPU

ChatGPT重大更新：新增實(shí)時(shí)搜索和高級(jí)語(yǔ)音

視覺(jué)中國(guó)與生數(shù)科技共拓視覺(jué)產(chǎn)業(yè)大模型應(yīng)用

薦一手實(shí)測(cè)豆包新發(fā)布的視覺(jué)理解大模型，他們真的卷起飛了。

PITAKA品牌VI視覺(jué)升級(jí)，做懂生活的材料創(chuàng)新者

字節(jié)跳動(dòng)正式發(fā)布豆包視覺(jué)理解模型：1元可處理近300張高清圖

武建集團(tuán)一期BIP高級(jí)版財(cái)務(wù)項(xiàng)目成功上線

薦GPT-4o再暴露「弱智」缺陷，大模型無(wú)一幸免，港中文等發(fā)布「視覺(jué)聽(tīng)覺(jué)」基準(zhǔn)AV-Odyssey：26個(gè)任務(wù)直指死角問(wèn)題

薦AI日?qǐng)?bào)：字節(jié)重磅推出豆包視覺(jué)理解模型；AI“魔改”寵物跳舞爆火；OpenAI開(kāi)放滿血o1模型API；即夢(mèng)AI上線海報(bào)生成功能

思必馳智能語(yǔ)音攜手茅臺(tái)，打造“國(guó)酒級(jí)”AI大模型智能會(huì)議方案

首屆2024AIGC視覺(jué)應(yīng)用論壇在京舉辦，AI成為視覺(jué)行業(yè)新基建和新工具

熱文

周鴻祎：AGI發(fā)展遇瓶頸智能體和專業(yè)大模型將扛大旗

雷軍：小米是北方車廠 SU7研發(fā)之初就要做冬季電車?yán)m(xù)航之王

沒(méi)網(wǎng)也能聯(lián)絡(luò)！小米15系列星辰無(wú)網(wǎng)通12月底升級(jí)6km級(jí)通話范圍

消息稱OpenAI新模型GPT-5研發(fā)未達(dá)到預(yù)期：成本高昂效果欠佳

李斌回應(yīng)螢火蟲(chóng)外觀設(shè)計(jì)：看過(guò)實(shí)車的人都喜歡這個(gè)設(shè)計(jì)

不得使用惡俗惡趣味微短劇片名！廣電總局出手整治“霸總愛(ài)上我

美團(tuán)：冬至期間將針對(duì)餃子等應(yīng)時(shí)食品訂單提供“超時(shí)保護(hù)”

央視曝光未成年人繞開(kāi)防沉迷只需4元：通過(guò)租用游戲賬號(hào)規(guī)避

QQ音樂(lè)年度聽(tīng)歌報(bào)告發(fā)布：誰(shuí)是你最喜歡的歌手？

FF再獲3000萬(wàn)美元新一輪融資加速第二品牌FX戰(zhàn)略推進(jìn)

英偉達(dá)AI芯片最大買(mǎi)家揭曉！微軟力壓同行霸榜

微信朋友圈崩了上熱搜騰訊客服：請(qǐng)嘗試這幾種方法

極越員工萬(wàn)字怒懟ceo：公關(guān)總監(jiān)徐繼業(yè)怒罵員工蒼蠅

小紅書(shū)封號(hào)上熱搜：違規(guī)原因涉及發(fā)布引流、牟利等內(nèi)容

周鴻祎：AGI發(fā)展遇瓶頸智能體和專業(yè)大模型將扛大旗

馬斯克將推出X Mail電子郵箱服務(wù)

極越員工善后方案已出爐：?jiǎn)T工獲“N+1”賠償由百度吉利出資

螞蟻集團(tuán)否認(rèn)借殼上市：目前沒(méi)有上市計(jì)劃

小紅書(shū)被吐槽無(wú)理由封號(hào) 客服回應(yīng)：未說(shuō)明處罰時(shí)間就是永封

未成年人成部分博主流量密碼抖音治理涉“網(wǎng)紅兒童”違規(guī)內(nèi)容

站長(zhǎng)商機(jī)

Vary-toy：具有視覺(jué)詞匯視覺(jué)語(yǔ)音模型 適用于標(biāo)準(zhǔn)GPU

熱文

站長(zhǎng)商機(jī)

Vary-toy：具有視覺(jué)詞匯視覺(jué)語(yǔ)音模型適用于標(biāo)準(zhǔn)GPU