要點:
1、DualToken-ViT將卷積和自注意力聯合使用,分別提取局部和全局信息,再將兩者輸出融合形成有效的注意力結構。
2、使用位置感知全局令牌提升全局信息質量,令牌中還包含圖像位置信息,有利于視覺任務。
3、在相同FLOPs下,DualToken-ViT在圖像分類、目標檢測和語義分割任務上表現最好。
站長之家(ChinaZ.com)10月2日 消息:最近,視覺Transformer(ViT)成為各類視覺任務如物體識別和圖片分類的有效架構。這是因為自注意力可以從圖片中提取全局信息,而卷積核大小限制了卷積神經網絡(CNN)只能提取局部信息。隨著ViT模型和數據集規(guī)模的增大,相比CNN具有更好的擴展性。但在輕量級模型上,由于缺乏某些歸納偏置,CNN優(yōu)于ViT。
自注意力的二次復雜度導致ViT計算成本潛在很高,構建輕量高效的ViT并不容易。為此,提出金字塔結構,將模型分為多個階段,每階段令牌數減少,通道數增加,以構建更輕量高效的ViT。簡化自注意力結構以減輕其復雜度,但以犧牲注意力有效性為代價。一個典型策略是下采樣自注意力的key和value,減少參與注意力過程的令牌數。
論文地址:https://arxiv.org/abs/2309.12424
本研究中,華東師范大學和阿里巴巴集團的研究人員提出了緊湊高效的視覺Transformer模型DualToken-ViT。他們的方法使用卷積和自注意力聯合提取局部和全局信息,再將兩者輸出融合形成有效的注意力結構。盡管窗口自注意力也可以提取局部信息,但他們發(fā)現,在輕量模型上卷積更有效。他們采用逐步下采樣的方式生成key和value特征圖,在下采樣過程中保留更多信息,降低自注意力在傳播全局信息時的計算成本。
此外,他們在每個級別使用位置感知全局令牌來提高全局數據質量。與標準全局令牌不同,他們的位置感知全局令牌還可以維護和傳遞圖像位置信息,在視覺任務中為模型提供優(yōu)勢。如圖1所示,圖像中的關鍵令牌與位置感知全局令牌中的對應令牌產生了更大的相關性。
總之,他們的貢獻有:1)提出了緊湊高效的視覺Transformer模型DualToken-ViT,通過卷積和自注意力的優(yōu)勢實現有效的注意力結構;2)提出位置感知全局令牌,通過圖像位置信息來增強全局信息;3)DualToken-ViT在相同FLOPs下在多個視覺任務上表現最好。
(舉報)