幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

首頁 > 業(yè)界 > 關鍵詞  > Ego-Exo4D最新資訊  > 正文

Meta重磅推出Ego-Exo4D:視頻學習與多模態(tài)感知研究的基礎數(shù)據(jù)集

2023-12-01 09:58 · 稿源:站長之家

劃重點:

  1. ?? 多模態(tài)學習工具發(fā)布: Meta發(fā)布Ego-Exo4D,這是一個支持視頻學習與多模態(tài)感知研究的基礎數(shù)據(jù)集和基準套件,旨在為廣大研究社區(qū)提供探索自我與外界視頻、多模態(tài)活動識別等工具。

  2. ?? 協(xié)作研究背景: 該數(shù)據(jù)集是Meta FAIR(基礎人工智能研究)、Project Aria,以及15所大學合作兩年努力的成果。

  3. ?? 面向未來的AI應用: Ego-Exo4D不僅是最大的公共同步時間的第一人稱和第三人稱視頻數(shù)據(jù)集,還提供多模態(tài)數(shù)據(jù),包括音頻、慣性測量單元、廣角灰度攝像頭等。

站長之家(ChinaZ.com)12月1日 消息:Meta最近宣布推出Ego-Exo4D,這是一項具有重大影響的舉措,為視頻學習和多模態(tài)感知研究提供了一套基礎數(shù)據(jù)集和基準套件。該數(shù)據(jù)集是Meta FAIR(基礎人工智能研究)與Project Aria以及15所大學兩年合作努力的結(jié)晶。

image.png

Ego-Exo4D的獨特之處在于同時捕捉了參與者佩戴的可穿戴相機的第一人稱“自我的”視角和周圍相機的多個“外界”視角。這兩個視角是互補的,第一人稱視角展示了參與者所見和所聽,而外界視角則展示了周圍環(huán)境和上下文。這為AI模型提供了一個窗口,窺視復雜人類技能的奧秘。

通過FAIR和大學合作伙伴的聯(lián)合努力,Ego-Exo4D捕捉了來自美國、日本、哥倫比亞、新加坡、印度和加拿大的800多位熟練參與者的視角。該聯(lián)合體計劃于十二月份開源數(shù)據(jù),包括超過1,400小時的視頻和用于新奇基準任務的標注。明年,他們計劃舉辦首個公開基準挑戰(zhàn),并發(fā)布自我與外界理解的基準模型。

image.png

Ego-Exo4D的關注點是熟練的人類活動,如運動、音樂、烹飪、舞蹈和自行車修理。通過對人類技能在視頻中的理解的進步,可以促使許多應用的發(fā)展。例如,在未來的增強現(xiàn)實(AR)系統(tǒng)中,戴著智能眼鏡的人可以通過虛擬AI教練迅速掌握新技能;在機器人學習中,機器人觀看其環(huán)境中的人們可以通過較少的實際經(jīng)驗獲得新的靈巧操作技能;在社交網(wǎng)絡中,新的社群可以根據(jù)人們在視頻中分享他們的專業(yè)知識和互補技能而形成。

然而,實現(xiàn)這一潛力在今天的數(shù)據(jù)集和學習范式下并不可能?,F(xiàn)有的包含自我和外界視角(即自我-外界)的數(shù)據(jù)集很少,規(guī)模小,缺乏跨相機的同步,或者過于策劃或編輯以抵御現(xiàn)實世界的多樣性。因此,目前關于活動理解的文獻主要只涵蓋自我或外界視角,無法在第一人稱和第三人稱視角之間流暢切換。

Ego-Exo4D構(gòu)成了最大的公共同步時間的第一人稱和第三人稱視頻數(shù)據(jù)集。構(gòu)建這個數(shù)據(jù)集需要招募跨足不同領域的專業(yè)人士,匯集多樣的群體共同創(chuàng)建多方面的AI數(shù)據(jù)集。所有情景都涉及現(xiàn)實世界的專業(yè)人士,相機佩戴者參與者在所展示的技能方面具有特定的資格、培訓或?qū)I(yè)知識。例如,Ego-Exo4D相機佩戴者包括職業(yè)和大學運動員;爵士、薩爾薩和中國民間舞蹈者和教練;競技攀巖者;在工業(yè)規(guī)模廚房工作的專業(yè)廚師;以及每天服務數(shù)十輛自行車的自行車技師。

image.png

Ego-Exo4D不僅是多視圖,還是多模態(tài)的。使用Meta獨特的Aria眼鏡拍攝,所有自我視頻都伴隨著與時間對齊的七通道音頻、慣性測量單元(IMU)和兩個廣角灰度攝像頭等多種傳感器。所有數(shù)據(jù)序列還通過Project Aria的先進機器感知服務提供了眼球注視、頭部姿勢和環(huán)境的3D點云。

此外,Ego-Exo4D提供了多種新的視頻語言資源:

  • 相機佩戴者描述自己行動的第一人稱敘述。
  • 對每位相機佩戴者行動進行的第三人稱實況描述。
  • 對視頻進行評論的第三人稱口頭專家評論。他們是具有特定領域?qū)I(yè)知識的52名教練和老師,根據(jù)相機佩戴者的表現(xiàn)提供建議和評論。

所有這三種語言資源都與視頻時間戳匹配。通過這些新穎的視頻語言資源,AI模型可以了解熟練的人類活動的微妙方面。據(jù)我們所知,以前沒有任何具有如此廣泛且高質(zhì)量的多模態(tài)數(shù)據(jù)的視頻資源。

image.png

除了數(shù)據(jù)之外,他們還為自我-外界視頻的基礎任務提供了基準,以推動社區(qū)的努力。

他們提出了四個任務:

  1. 自我(-外界)識別:從自我(和/或可選的外界)視頻中識別過程活動的微觀關鍵步驟及其結(jié)構(gòu),即使在能量受限的情況下也可以。
  2. 自我(-外界)熟練估計:推斷一個人執(zhí)行技能的程度。
  3. 自我-外界關系:通過估計語義對應關系和轉(zhuǎn)換視點,將老師(外界)的動作與學習者(自我)的動作相關聯(lián)。
  4. 自我姿勢:僅從單眼自我視頻中恢復專業(yè)人士的熟練動作,即3D身體和手勢姿勢。

他們?yōu)槊總€任務的培訓和測試提供了高質(zhì)量的標注,這是超過20萬小時的標注員努力的結(jié)果。為了啟動這些新挑戰(zhàn)的工作,他們還制定了基準模型并報告了它們的結(jié)果。他們計劃在2024年舉辦首個公開基準挑戰(zhàn)。

Ego4D聯(lián)合體是FAIR與全球十幾所大學之間的長期合作。在2021年發(fā)布Ego4D之后,這支由專家教職員、研究生和工業(yè)研究人員組成的團隊重新啟動,推出了Ego-Exo4D項目。該聯(lián)合體的優(yōu)勢既在于其集體的AI才能,也在于其地理廣度,可以在各種視覺環(huán)境中記錄數(shù)據(jù)。

Ego-Exo4D包括來自六個國家和七個美國州的視頻,為AI開發(fā)提供了多樣化的資源。聯(lián)合體成員和FAIR研究人員在整個項目中進行了協(xié)作,從制定倡議范圍,到收集數(shù)據(jù)集的獨特組成部分,再到制定基準任務。該項目還標志著Aria眼鏡在學術(shù)研究社區(qū)的單一最大協(xié)調(diào)部署,涉及12個不同地點的合作伙伴使用了這些眼鏡。

通過發(fā)布這一規(guī)模和多樣性前所未有的資源,該聯(lián)合體旨在為視頻學習中的核心AI挑戰(zhàn)提供支持。隨著這一研究方向的發(fā)展,他們設想未來的AI將使人們在增強現(xiàn)實和混合現(xiàn)實(AR/MR)中學習新技能的方式發(fā)生變革,如何視頻在用戶面前栩栩如生,系統(tǒng)充當虛擬教練,引導他們完成新的程序并提供建議以改進。同樣,他們希望它將使未來的機器人通過觀察熟練的人類專家獲得復雜的靈巧操作洞察。Ego-Exo4D是實現(xiàn)這一未來的關鍵一步,他們迫不及待地期待看到研究社區(qū)如何應用它。

舉報

  • 相關推薦
  • 成都匯陽投資關于Sora 正式上線,多模態(tài)模型的里程碑

    事件12月10日,OpenAl正式上線Sora,并向包括美國在內(nèi)的多數(shù)國家用戶開放,用戶可在OpenAI官網(wǎng)上體驗Sora。Sora被包含在ChatGPTPlus和ChatGPTPro的會員訂閱方案中,用戶無需額外付費。股市有風險,投資需謹慎。

  • 谷歌“狙擊”O(jiān)penAI,發(fā)布新一代大模型,主打Agent+多模態(tài)

    繼量子芯片之后,谷歌又來搶“OpenAI雙12直播”的流量了!就在剛剛,谷歌新一代大模型Gemini2.0突然登場,再次由谷歌CEO皮猜親自官宣。新一代模型專為AIAgent打造,谷歌表示目前已經(jīng)將2.0版本提供給了一些開發(fā)者內(nèi)測,正在迅速將其集成在Gemini和搜索等產(chǎn)品線中。從OpenAI跳槽到谷歌的LoganKilpatrick表示,他們在GoogleAIStudio中創(chuàng)建了一個全新體驗,展示了Gemini2.0視頻理解、原生工具?

  • AI日報:OpenAI重磅上線Sora;智譜AI免費多模態(tài)模型GLM-4V-Flash;騰訊云打造AI代碼助手

    歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領域的熱點內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、OpenAI正式上線Sora,ChatGPTPro用戶可無限生成、最長20秒OpenAI在"ship-mas"系列活動中發(fā)布了SoraTurbo視頻生成AI,支持生成20秒1080p視頻,用戶可通過文本、圖片或視頻進行創(chuàng)作,具有多種風格和剪輯功能。See3D已開源,支持多種3D創(chuàng)作應用。

  • 亞馬遜祭出地表最強全家桶,多模態(tài)Nova卻敗給Claude 3.5!

    【新智元導讀】圍剿英偉達,數(shù)十萬顆自研二代芯片超算在建!亞馬遜祭出地表最強全家桶,多模態(tài)Nova擊敗GPT-4o。亞馬遜推出了號稱最強大的多模態(tài)模型Nova系列。IDC在2023年12月發(fā)布的最新研究報告顯示,英偉達當前在AI芯片市場中占據(jù)著約95%的主導地位。

  • 《黑神話:悟空》首個大版本更新上線騰訊WeGame Steam還得等

    今日,《黑神話:悟空》發(fā)布后的首個大版本更新1.0.12.16581在騰訊Wegame平臺上線,更新補丁大小約4.5GB。由于平臺更新機制,需要保證電腦至少有一磁盤預留約130GB的空余磁盤空間,用于更新文件的臨時存儲。除了新玩法上線外,更新還修復了部分用戶在開啟DLSS幀生成后偶現(xiàn)閃退、修復部分用戶在開啟XeSS后畫面閃爍、修復特定情況下的內(nèi)存泄露等問題,并優(yōu)化了GeForceRTX全景光?

  • GitHub直線漲粉!Home Assistant小米官方集成揭秘

    前兩天,小米公司在官方GitHub上正式公布了HA米家官方集成,為HA高階玩家用戶帶來更安全、更穩(wěn)定的設備控制與管理方案。吸引了大批極客用戶下載使用,截至今天中午,GitHubStar數(shù)量已經(jīng)超7K。小米中樞網(wǎng)關、小米路由器BE6500Pro、小米全屋路由BE3600Pro套裝等設備已支持中樞能力,未來小米還將增加更多支持中樞的設備,進一步提升用戶的智能家居體驗。

  • StarRocks 2024 數(shù)據(jù)技術(shù)峰會圓滿收官,Lakehouse引領數(shù)據(jù)技術(shù)新趨勢

    12月7日,StarRocksSummitAsia2024于北京圓滿落幕。本次峰會以"LakehouseIsAllYouNeed"為主題,匯聚行業(yè)領袖和技術(shù)專家,共同探討DataAI的創(chuàng)新與行業(yè)實踐。正如張友東在演講結(jié)束時所說:“Lakehouse不僅是技術(shù)演進的方向,更是釋放數(shù)據(jù)價值的關鍵,LakehouseisALLyouneed,StarRockswillpoweryourlakehouse!

  • 中國電信發(fā)布全自研視頻生成大模型 完成全模態(tài)體系構(gòu)建

    12月3日,在中國電信“2024數(shù)字科技生態(tài)大會”期間,首屆“TeleAI開發(fā)者大會”在廣州舉辦。TeleAI發(fā)布視頻生成大模型、視覺大模型產(chǎn)用一體化平臺、具身智能、智傳網(wǎng)等一系列創(chuàng)新技術(shù)、產(chǎn)品及科研成果,并發(fā)布開發(fā)者產(chǎn)業(yè)聯(lián)盟計劃。展出了星辰軟件工廠、星辰慧記、星辰智能體產(chǎn)品、中國電信家庭小管家、星辰大模型一體機等一系列智能產(chǎn)品,讓現(xiàn)場觀眾真實感受未來以來,AI就在每個人的身邊。

  • 格局大了!小米官方開源Home Assistant米家集成:更開放地使用IoT設備

    小米公司在GitHub上正式開源了名為HomeAssistant米家集成”的項目。這是由小米官方提供支持的HomeAssistant集成組件,允許用戶在HomeAssistant這一開源家庭自動化平臺中無縫使用小米的IoT智能設備。更多具體詳細信息可以查看官方文檔。

  • RTX 5090D和原版5090硬件沒有差別!和4090D刀法截然不同

    Chiphell論壇消息人士panzerlied透露,中國特供的RTX5090D與原版RTX5090在硬件上沒有區(qū)別,兩者的游戲性能也是相同。這也就意味著RTX5090和RTX5090D將擁有相同的GPU配置和頻率等。至于最初傳聞的特供版RTX5080D,目前基本可以確認RTX5080能夠在國內(nèi)正常發(fā)售,因此RTX5080D也就不會有了。

熱文

  • 3 天
  • 7天