劃重點:
?? 多模態(tài)學習工具發(fā)布: Meta發(fā)布Ego-Exo4D,這是一個支持視頻學習與多模態(tài)感知研究的基礎數(shù)據(jù)集和基準套件,旨在為廣大研究社區(qū)提供探索自我與外界視頻、多模態(tài)活動識別等工具。
?? 協(xié)作研究背景: 該數(shù)據(jù)集是Meta FAIR(基礎人工智能研究)、Project Aria,以及15所大學合作兩年努力的成果。
?? 面向未來的AI應用: Ego-Exo4D不僅是最大的公共同步時間的第一人稱和第三人稱視頻數(shù)據(jù)集,還提供多模態(tài)數(shù)據(jù),包括音頻、慣性測量單元、廣角灰度攝像頭等。
站長之家(ChinaZ.com)12月1日 消息:Meta最近宣布推出Ego-Exo4D,這是一項具有重大影響的舉措,為視頻學習和多模態(tài)感知研究提供了一套基礎數(shù)據(jù)集和基準套件。該數(shù)據(jù)集是Meta FAIR(基礎人工智能研究)與Project Aria以及15所大學兩年合作努力的結(jié)晶。
Ego-Exo4D的獨特之處在于同時捕捉了參與者佩戴的可穿戴相機的第一人稱“自我的”視角和周圍相機的多個“外界”視角。這兩個視角是互補的,第一人稱視角展示了參與者所見和所聽,而外界視角則展示了周圍環(huán)境和上下文。這為AI模型提供了一個窗口,窺視復雜人類技能的奧秘。
通過FAIR和大學合作伙伴的聯(lián)合努力,Ego-Exo4D捕捉了來自美國、日本、哥倫比亞、新加坡、印度和加拿大的800多位熟練參與者的視角。該聯(lián)合體計劃于十二月份開源數(shù)據(jù),包括超過1,400小時的視頻和用于新奇基準任務的標注。明年,他們計劃舉辦首個公開基準挑戰(zhàn),并發(fā)布自我與外界理解的基準模型。
Ego-Exo4D的關注點是熟練的人類活動,如運動、音樂、烹飪、舞蹈和自行車修理。通過對人類技能在視頻中的理解的進步,可以促使許多應用的發(fā)展。例如,在未來的增強現(xiàn)實(AR)系統(tǒng)中,戴著智能眼鏡的人可以通過虛擬AI教練迅速掌握新技能;在機器人學習中,機器人觀看其環(huán)境中的人們可以通過較少的實際經(jīng)驗獲得新的靈巧操作技能;在社交網(wǎng)絡中,新的社群可以根據(jù)人們在視頻中分享他們的專業(yè)知識和互補技能而形成。
然而,實現(xiàn)這一潛力在今天的數(shù)據(jù)集和學習范式下并不可能?,F(xiàn)有的包含自我和外界視角(即自我-外界)的數(shù)據(jù)集很少,規(guī)模小,缺乏跨相機的同步,或者過于策劃或編輯以抵御現(xiàn)實世界的多樣性。因此,目前關于活動理解的文獻主要只涵蓋自我或外界視角,無法在第一人稱和第三人稱視角之間流暢切換。
Ego-Exo4D構(gòu)成了最大的公共同步時間的第一人稱和第三人稱視頻數(shù)據(jù)集。構(gòu)建這個數(shù)據(jù)集需要招募跨足不同領域的專業(yè)人士,匯集多樣的群體共同創(chuàng)建多方面的AI數(shù)據(jù)集。所有情景都涉及現(xiàn)實世界的專業(yè)人士,相機佩戴者參與者在所展示的技能方面具有特定的資格、培訓或?qū)I(yè)知識。例如,Ego-Exo4D相機佩戴者包括職業(yè)和大學運動員;爵士、薩爾薩和中國民間舞蹈者和教練;競技攀巖者;在工業(yè)規(guī)模廚房工作的專業(yè)廚師;以及每天服務數(shù)十輛自行車的自行車技師。
Ego-Exo4D不僅是多視圖,還是多模態(tài)的。使用Meta獨特的Aria眼鏡拍攝,所有自我視頻都伴隨著與時間對齊的七通道音頻、慣性測量單元(IMU)和兩個廣角灰度攝像頭等多種傳感器。所有數(shù)據(jù)序列還通過Project Aria的先進機器感知服務提供了眼球注視、頭部姿勢和環(huán)境的3D點云。
此外,Ego-Exo4D提供了多種新的視頻語言資源:
- 相機佩戴者描述自己行動的第一人稱敘述。
- 對每位相機佩戴者行動進行的第三人稱實況描述。
- 對視頻進行評論的第三人稱口頭專家評論。他們是具有特定領域?qū)I(yè)知識的52名教練和老師,根據(jù)相機佩戴者的表現(xiàn)提供建議和評論。
所有這三種語言資源都與視頻時間戳匹配。通過這些新穎的視頻語言資源,AI模型可以了解熟練的人類活動的微妙方面。據(jù)我們所知,以前沒有任何具有如此廣泛且高質(zhì)量的多模態(tài)數(shù)據(jù)的視頻資源。
除了數(shù)據(jù)之外,他們還為自我-外界視頻的基礎任務提供了基準,以推動社區(qū)的努力。
他們提出了四個任務:
- 自我(-外界)識別:從自我(和/或可選的外界)視頻中識別過程活動的微觀關鍵步驟及其結(jié)構(gòu),即使在能量受限的情況下也可以。
- 自我(-外界)熟練估計:推斷一個人執(zhí)行技能的程度。
- 自我-外界關系:通過估計語義對應關系和轉(zhuǎn)換視點,將老師(外界)的動作與學習者(自我)的動作相關聯(lián)。
- 自我姿勢:僅從單眼自我視頻中恢復專業(yè)人士的熟練動作,即3D身體和手勢姿勢。
他們?yōu)槊總€任務的培訓和測試提供了高質(zhì)量的標注,這是超過20萬小時的標注員努力的結(jié)果。為了啟動這些新挑戰(zhàn)的工作,他們還制定了基準模型并報告了它們的結(jié)果。他們計劃在2024年舉辦首個公開基準挑戰(zhàn)。
Ego4D聯(lián)合體是FAIR與全球十幾所大學之間的長期合作。在2021年發(fā)布Ego4D之后,這支由專家教職員、研究生和工業(yè)研究人員組成的團隊重新啟動,推出了Ego-Exo4D項目。該聯(lián)合體的優(yōu)勢既在于其集體的AI才能,也在于其地理廣度,可以在各種視覺環(huán)境中記錄數(shù)據(jù)。
Ego-Exo4D包括來自六個國家和七個美國州的視頻,為AI開發(fā)提供了多樣化的資源。聯(lián)合體成員和FAIR研究人員在整個項目中進行了協(xié)作,從制定倡議范圍,到收集數(shù)據(jù)集的獨特組成部分,再到制定基準任務。該項目還標志著Aria眼鏡在學術(shù)研究社區(qū)的單一最大協(xié)調(diào)部署,涉及12個不同地點的合作伙伴使用了這些眼鏡。
通過發(fā)布這一規(guī)模和多樣性前所未有的資源,該聯(lián)合體旨在為視頻學習中的核心AI挑戰(zhàn)提供支持。隨著這一研究方向的發(fā)展,他們設想未來的AI將使人們在增強現(xiàn)實和混合現(xiàn)實(AR/MR)中學習新技能的方式發(fā)生變革,如何視頻在用戶面前栩栩如生,系統(tǒng)充當虛擬教練,引導他們完成新的程序并提供建議以改進。同樣,他們希望它將使未來的機器人通過觀察熟練的人類專家獲得復雜的靈巧操作洞察。Ego-Exo4D是實現(xiàn)這一未來的關鍵一步,他們迫不及待地期待看到研究社區(qū)如何應用它。
(舉報)