中國研究人員提出DualToken-ViT:CNN和視覺Transformer的融合,提高圖像處理效率和準確性

2023-10-02 15:55 · 稿源：站長之家

要點:
1、DualToken-ViT將卷積和自注意力聯合使用，分別提取局部和全局信息，再將兩者輸出融合形成有效的注意力結構。
2、使用位置感知全局令牌提升全局信息質量，令牌中還包含圖像位置信息，有利于視覺任務。
3、在相同FLOPs下，DualToken-ViT在圖像分類、目標檢測和語義分割任務上表現最好。

站長之家（ChinaZ.com）10月2日消息:最近，視覺Transformer（ViT）成為各類視覺任務如物體識別和圖片分類的有效架構。這是因為自注意力可以從圖片中提取全局信息，而卷積核大小限制了卷積神經網絡(CNN)只能提取局部信息。隨著ViT模型和數據集規(guī)模的增大，相比CNN具有更好的擴展性。但在輕量級模型上，由于缺乏某些歸納偏置，CNN優(yōu)于ViT。

自注意力的二次復雜度導致ViT計算成本潛在很高，構建輕量高效的ViT并不容易。為此，提出金字塔結構，將模型分為多個階段，每階段令牌數減少，通道數增加，以構建更輕量高效的ViT。簡化自注意力結構以減輕其復雜度，但以犧牲注意力有效性為代價。一個典型策略是下采樣自注意力的key和value，減少參與注意力過程的令牌數。

論文地址：https://arxiv.org/abs/2309.12424

本研究中，華東師范大學和阿里巴巴集團的研究人員提出了緊湊高效的視覺Transformer模型DualToken-ViT。他們的方法使用卷積和自注意力聯合提取局部和全局信息，再將兩者輸出融合形成有效的注意力結構。盡管窗口自注意力也可以提取局部信息，但他們發(fā)現，在輕量模型上卷積更有效。他們采用逐步下采樣的方式生成key和value特征圖，在下采樣過程中保留更多信息，降低自注意力在傳播全局信息時的計算成本。

此外，他們在每個級別使用位置感知全局令牌來提高全局數據質量。與標準全局令牌不同，他們的位置感知全局令牌還可以維護和傳遞圖像位置信息，在視覺任務中為模型提供優(yōu)勢。如圖1所示，圖像中的關鍵令牌與位置感知全局令牌中的對應令牌產生了更大的相關性。

總之，他們的貢獻有:1）提出了緊湊高效的視覺Transformer模型DualToken-ViT，通過卷積和自注意力的優(yōu)勢實現有效的注意力結構;2)提出位置感知全局令牌，通過圖像位置信息來增強全局信息;3)DualToken-ViT在相同FLOPs下在多個視覺任務上表現最好。

（舉報）

相關推薦

關鍵詞：

RockAI國內首個「非Transformer架構大模型」Yan通過網信辦備案

上海巖芯數智人工智能科技有限公司的Yan架構大模型成功通過《生成式人工智能服務管理暫行辦法》備案，這是國內首個非Transformer架構大模型通過備案。Yan模型簡介Yan架構大模型是國內首個非Transformer架構、非Attention機制的大模型。Yan架構大模型的備案通過是RockAI踐行使命的重要里程碑，未來，我們期待Yan架構大模型在更多設備單元部署應用，讓群體智能引領走向通用人工智能，與合作伙伴一起，領先一步開拓更加廣闊的市場空間。

?大模型 ?人工智能 ?Yan架構
系列首款！華為nova 12 Ultra開啟HarmonyOS NEXT公測

華為官方宣布，nova12Ultra2款設備開啟HarmonyOSNEXT公測版嘗鮮升級。值得注意的是，這也是nova系列首款開啟HarmonyOSNEXT公測的機型。在HarmonyOSNEXT升級期間，備份記錄在原有可保存30天的基礎上再增加30天，共計60天。

?華為 ?nova ?12
小米巔峰機皇！小米15 Ultra搭載2億像素長焦：支持100x AI融合變焦

綜合多方消息來看，小米15Ultra將會在明年2月發(fā)布，也就是春節(jié)之后。新機除了一英寸主攝之外，這次潛望長焦迎來史詩級加強，將搭載2億像素傳感器，預計是三星ISOCELLHP9。該機將標配天通衛(wèi)星通信頂配版還支持北斗衛(wèi)星通信，這是小米第一次用上北斗系統(tǒng)。

?小米15Ultra ?手機攝影 ?潛望長焦
小米15 Ultra將于下月發(fā)布已獲得國內3C認證

小米公司即將推出的旗艦手機小米15Ultra已獲得國內3C認證，確認支持90W快速充電技術。認證信息顯示，該產品被命名為“衛(wèi)星移動終端”，表明小米15Ultra將支持衛(wèi)星通信功能，這是小米在通信技術領域的又一突破。用戶將有素皮、玻璃纖維和陶瓷三種材質可選，以滿足不同用戶的個性化需求。

?小米15Ultra ?90W快速充電 ?衛(wèi)星通信
新加坡泰益豐建筑有限公司（Thai Yee Hong Contractor Pte ltd）納斯達克上市啟動儀式圓滿落幕

12月8日上午，一場備受矚目的盛會在深圳福田區(qū)大中華希爾頓酒店舉行，新加坡泰益豐建筑有限公司在此隆重舉行了赴美國納斯達克上市啟動儀式暨與世界上市聯合會簽約儀式。此次活動標志著泰益豐公司在資本市場上的新征程，也預示著公司將開啟全球化發(fā)展的新篇章。泰益豐將繼續(xù)秉承創(chuàng)新、務實、高效的企業(yè)精神，不斷追求卓越，為全球的建筑行業(yè)做出更大的貢獻。

?泰益豐建筑 ?美國納斯達克 ?全球化發(fā)展
OPPO Find X8 Ultra代號珠峰：手機影像最高峰

博主數碼閑聊站爆料，OPPOFindX8Ultra代號珠峰，暗示該機將是手機影像的最高峰。OPPOFindX8Ultra采用2K全等深四微曲屏幕，后置雙潛望影像，搭載高通驍龍8至尊版處理器，內置新一代硅碳負極電池。時隔將近一年時間，FindX8Ultra即將登場，該機會在春節(jié)后發(fā)布。

?OPPO ?Find ?X8
王化：小米15 Ultra沒延期按既定時間推進

小米集團公關部總經理王化近日在微博上發(fā)布消息，確認小米15Ultra的發(fā)布會并未延期是按照原定計劃穩(wěn)步推進。此前有博主數碼閑聊站爆料稱，小米15Ultra不會在1月份發(fā)布，暗示該機型可能將在2月份亮相。新機還支持IP68/69級別的防塵防水和無線充電技術，電池容量預計在6000mAh左右。

?小米15Ultra ?手機發(fā)布會 ?90W快充
雷軍：小米 SU7 Ultra 量產版汽車明年 3 月發(fā)布

小米公司董事長雷軍在最新發(fā)布的視頻中宣布，小米SU7Ultra量產版車型計劃于明年3月正式上市，目前正處于最后幾個月的準備階段。這款備受矚目的電動汽車將保留原型車的底盤結構、電機和電池包設計，配備V8sV8sV6s三電機系統(tǒng)，擁有高達1548匹馬力，并搭載麒麟二代電池技術。小米SU7Ultra在交付后不會立即開放全部性能是將根據車主的使用條件逐步解鎖，以保障駕駛過程中的安全。

?小米SU7Ultra ?電動汽車 ?雷軍
代號珠峰！OPPO Find X8 Ultra入網

今天，OPPOFindX8Ultra獲得入網許可，型號是PKH120。OPPOFindX8Ultra代號珠峰，暗示該機將擁有行業(yè)最強的影像能力。作為迭代機型，FindX8Ultra的影像值得期待，該機將在春節(jié)后正式發(fā)布。

?OPPO ?Find ?X8
蘋果Apple Watch Ultra 3將支持衛(wèi)星消息通信能力

據蘋果權威爆料者MarkGurman最新透露的消息，蘋果公司計劃為其下一代智能手表產品——AppleWatchUltra引入衛(wèi)星連接功能。這一新功能將使AppleWatchUltra能夠在沒有手機連接和網絡覆蓋的情況下，通過直連衛(wèi)星發(fā)送短信，從在緊急情況下提供額外的通信能力。隨著AppleWatchUltra3的推出，蘋果將進一步增強其智能手表產品的市場競爭力，并為用戶提供更多的安全和便利。

?Apple ?Watch ?Ultra

熱文

3 天
7天

幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

中國研究人員提出DualToken-ViT:CNN和視覺Transformer的融合,提高圖像處理效率和準確性

RockAI國內首個「非Transformer架構大模型」Yan通過網信辦備案

系列首款！華為nova 12 Ultra開啟HarmonyOS NEXT公測

小米巔峰機皇！小米15 Ultra搭載2億像素長焦：支持100x AI融合變焦

小米15 Ultra將于下月發(fā)布已獲得國內3C認證

新加坡泰益豐建筑有限公司（Thai Yee Hong Contractor Pte ltd）納斯達克上市啟動儀式圓滿落幕

OPPO Find X8 Ultra代號珠峰：手機影像最高峰

王化：小米15 Ultra沒延期按既定時間推進

雷軍：小米 SU7 Ultra 量產版汽車明年 3 月發(fā)布

代號珠峰！OPPO Find X8 Ultra入網

蘋果Apple Watch Ultra 3將支持衛(wèi)星消息通信能力

熱文

吳柳芳賬號再次被禁粉絲從600萬被清理至4萬抖音：低俗內容吸

劉強東提前發(fā)年終獎絕大多數員工可獲5到8個月年終獎

京東發(fā)布年終獎通知部分員工年前可收到年終獎

肯德基中國漲價官方回應：運營成本變化導致

小米SU7最新版本OTA推送：正式接入VLM視覺語言大模型

李斌回應螢火蟲外觀設計：看過實車的人都喜歡這個設計

央視曝光未成年人繞開防沉迷只需4元：通過租用游戲賬號規(guī)避

微信可以線上送實體禮物了：微信小店“藍包”功能正灰度測試逐

騰訊QQ 2024年度報告發(fā)布：以脫口秀形式呈現

FF再獲3000萬美元新一輪融資加速第二品牌FX戰(zhàn)略推進

吳柳芳賬號再次被禁粉絲從600萬被清理至4萬抖音：低俗內容吸

小紅書封號上熱搜：違規(guī)原因涉及發(fā)布引流、牟利等內容

劉強東提前發(fā)年終獎絕大多數員工可獲5到8個月年終獎

京東發(fā)布年終獎通知部分員工年前可收到年終獎

周鴻祎：AGI發(fā)展遇瓶頸智能體和專業(yè)大模型將扛大旗

肯德基中國漲價官方回應：運營成本變化導致

小米SU7最新版本OTA推送：正式接入VLM視覺語言大模型

李斌回應螢火蟲外觀設計：看過實車的人都喜歡這個設計

消息稱OpenAI新模型GPT-5研發(fā)未達到預期：成本高昂效果欠佳

央視曝光未成年人繞開防沉迷只需4元：通過租用游戲賬號規(guī)避

站長商機