Google AI推出SANPO:多屬性視頻數(shù)據(jù)集助力視覺場景理解

2023-10-16 10:39 · 稿源：站長之家

劃重點:
- Google AI推出了SANPO 數(shù)據(jù)集，用于戶外人類主觀場景理解。
- SANPO包括真實世界和合成數(shù)據(jù)，具有豐富的注釋和多屬性特征。
- 這個數(shù)據(jù)集將有助于研究人員開發(fā)視覺導(dǎo)航系統(tǒng)，支持視障人士，并拓展先進(jìn)的視覺場景理解。

站長之家（ChinaZ.com）10月16日消息:Google AI最近推出了名為SANPO的數(shù)據(jù)集，旨在幫助AI模型更好地理解戶外人類主觀場景。這一數(shù)據(jù)集的重要性在于，它不僅包括真實世界的數(shù)據(jù)，還包括合成數(shù)據(jù)，以及豐富的注釋和多屬性特征。這個數(shù)據(jù)集的推出將有助于解決自動駕駛領(lǐng)域之外的人類主觀場景理解的問題。

SANPO數(shù)據(jù)集的名稱來源于其功能，包括“場景理解、可訪問性、導(dǎo)航、路徑規(guī)劃和障礙物避免”。它由真實世界數(shù)據(jù)和合成數(shù)據(jù)組成，其中真實世界數(shù)據(jù)包括來自兩個立體攝像頭的視頻，支持多視角方法。這個數(shù)據(jù)集還包括了11.4小時的視頻，以每秒15幀的速度捕獲，并具有密集的注釋。

為了保護隱私，Google的研究人員在數(shù)據(jù)采集過程中遵循了當(dāng)?shù)?、城市和州級的法律，并在發(fā)送數(shù)據(jù)進(jìn)行注釋之前，確保刪除了任何個人信息，如人臉和車輛牌照。

為了克服捕捉視頻時的不完美，比如運動模糊和人工評分錯誤，研究人員引入了SANPO-Synthetic，這是一個高質(zhì)量的合成數(shù)據(jù)集，旨在與真實世界的條件相匹配。SANPO-Synthetic包括1961個會話，使用虛擬化的Zed相機錄制，頭部和胸部位置均衡分布。

SANPO數(shù)據(jù)集的另一個特點是對一部分真實世界數(shù)據(jù)和合成數(shù)據(jù)進(jìn)行了全景實例掩模的注釋，為每個像素分配了類別和ID。與真實世界數(shù)據(jù)不同，SANPO-Synthetic每幀包含更多實例。此外，SANPO是唯一一個同時具有全景分割和深度圖像數(shù)據(jù)的數(shù)據(jù)集。

研究人員使用SANPO數(shù)據(jù)集訓(xùn)練了兩個最先進(jìn)的模型，分別用于深度估計和全景分割。他們發(fā)現(xiàn)，這一數(shù)據(jù)集對于密集預(yù)測任務(wù)來說非常具有挑戰(zhàn)性，而合成數(shù)據(jù)的準(zhǔn)確性要高于真實數(shù)據(jù)，這主要是因為真實世界的環(huán)境相對復(fù)雜，而合成數(shù)據(jù)的分割注釋更加精確。

SANPO數(shù)據(jù)集的推出填補了人類主觀場景理解領(lǐng)域缺乏數(shù)據(jù)集的空白，它包括真實世界和合成數(shù)據(jù)，具有豐富的注釋和多屬性特征，以及全景分割和深度信息的獨特組合。此外，研究人員的隱私承諾使這一數(shù)據(jù)集能夠支持其他研究人員開發(fā)面向視障人士的視覺導(dǎo)航系統(tǒng)，并推動先進(jìn)的視覺場景理解領(lǐng)域的發(fā)展。

SANPO博客介紹:https://blog.research.google/2023/10/sanpo-scene-understanding-accessibility.html

（舉報）

相關(guān)推薦

關(guān)鍵詞：

薦Google全新發(fā)布AI視頻Veo2、AI繪圖Imagen3 - 何以凌越。

OpenAI的垃圾直播沒任何看頭，就發(fā)了個個性化的AI搜索。Google沒有預(yù)告、沒有營銷，默默的在X上發(fā)了兩個大貨。

?Veo2
薦沒日沒夜創(chuàng)業(yè)“卷”了20個月、胖了30斤，AI大牛：還是重回Google香！

大模型時代，人人都是開發(fā)者，人人也都想成為創(chuàng)業(yè)者，欲從大模型卷起的浪潮中分得一杯羹。創(chuàng)業(yè)之路有多難?前谷歌大腦高級研究科學(xué)家YiTay在離開Google勇闖AI創(chuàng)業(yè)圈20個月后發(fā)文表示——「為了同時兼顧很多事情，我的身心健康受到了很大的損害，由于高強度的工作和不健康的生活方式，我胖了30斤。AI領(lǐng)域的高速發(fā)展既是一場技術(shù)競賽，也是一場資本的對抗，或許新一輪的

?大模型 ?AI創(chuàng)業(yè) ?開發(fā)者
Google Chat 推出全新即時語音會議功能Huddles

GoogleChat正在推出一項全新的即時語音會議功能，類似于Slack的Huddles。這一功能使得用戶能夠在聊天過程中快速切換到語音或視頻通話，提升了團隊溝通的效率。該功能最初在去年作為GoogleChat更新的一部分宣布，今天起開始陸續(xù)推出，并將在未來幾周內(nèi)面向所有Workspace用戶開放。

?Google ?Chat ?即時語音會議
薦AI日報：字節(jié)重磅推出豆包視覺理解模型；AI“魔改”寵物跳舞爆火；OpenAI開放滿血o1模型API；即夢AI上線海報生成功能

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。9、英偉達(dá)發(fā)布生成式AI超級電腦:僅249美元性能提升1.7倍英偉達(dá)推出的JetsonOrinNanoSuper是一款面向開發(fā)者的生成式人工智能超級電腦，定價249美元，性能提升顯著，適用于多種AI應(yīng)用場景。此次股票出售不僅激勵了員工，也加強了公司與投資者之間的信任關(guān)系，顯示出OpenAI作為創(chuàng)新型公司的潛力與價值。

?人工智能 ?視覺推理 ?大模型
武建集團一期BIP高級版財務(wù)項目成功上線

近日，武夷山崇安建設(shè)集團（簡稱武建集團）一期BIP高級版財務(wù)項目正式上線運行。該項目旨在通過引入用友BIP財務(wù)系統(tǒng)，高效支撐武建集團多元化經(jīng)營和多業(yè)態(tài)統(tǒng)一管理，推動集團財務(wù)管控及職能轉(zhuǎn)型。在大力推進(jìn)現(xiàn)代化產(chǎn)業(yè)體系建設(shè)、加快發(fā)展新質(zhì)生產(chǎn)力的今天，武建集團不斷優(yōu)化市場布局，其業(yè)務(wù)范圍廣泛覆蓋建材施工、水務(wù)、能源、投資、項目管理代建、運輸?shù)榷鄠€

?武夷山崇安建設(shè)集團 ?用友BIP財務(wù)系統(tǒng) ?財務(wù)管控轉(zhuǎn)型
ChatGPT重大更新：新增實時搜索和高級語音

據(jù)報道，OpenAI開啟了第八天技術(shù)分享直播，對ChatGPT搜索功能進(jìn)行了大量更新。此次ChatGPT新增的功能亮點紛呈。有觀點認(rèn)為，這一功能未來有望與餐廳、商城等商業(yè)實體進(jìn)行深度合作，為用戶帶來更加便捷、全面的服務(wù)體驗。

?OpenAI ?ChatGPT ?實時搜索
薦一手實測豆包新發(fā)布的視覺理解大模型，他們真的卷起飛了。

人在字節(jié)火山發(fā)布會現(xiàn)場。眼睜睜看著他們發(fā)了一大堆的模型升級，眼花繚亂，有一種要一股腦把字節(jié)系的AI底牌往桌上亮的感覺。這可能才是，最酷的事吧。

?豆包
特斯拉中國上線高級智能召喚功能支持多種停車位泊出

特斯拉公司今日宣布，其在中國推出了一項名為“高級智能召喚”的新功能，該功能適用于配備增強版自動輔助駕駛和完全自動駕駛能力的特斯拉車型。這項功能使得車主可以通過手機App遠(yuǎn)程“召喚”他們的車輛，車輛能夠從多種停車位自動駛出，來到車主身邊。為推廣這一新功能，特斯拉為置換舊車購買特斯拉的用戶提供了一個特別優(yōu)惠:90天的EAP免費體驗。

?特斯拉 ?智能召喚 ?自動駕駛
字節(jié)跳動正式發(fā)布豆包視覺理解模型：1元可處理近300張高清圖

在今天舉辦的火山引擎Force大會上，字節(jié)跳動正式發(fā)布豆包視覺理解模型，為企業(yè)提供極具性價比的多模態(tài)大模型能力。豆包視覺理解模型千tokens輸入價格僅為3厘，一元錢就可處理284張720P的圖片，比行業(yè)價格便宜85％，以更低成本推動AI技術(shù)普惠和應(yīng)用發(fā)展。值得一提的是，字節(jié)跳動還將在2025年春季將推出具備更長視頻生成能力的豆包視頻生成模型1.5版，豆包端到端實時語音模型也將很快上線目前，豆包大模型已經(jīng)與八成主流汽車品牌合作，并接入到多家手機、PC等智能終端，覆蓋終端設(shè)備約3億臺，來自智能終端的豆包大模型調(diào)用量在半年時間內(nèi)增長100倍。

?多模態(tài)大模型 ?豆包視覺理解 ?火山引擎大會
薦AI日報：張文宏被AI假冒直播帶貨；Kimi視覺思考版上線；微信打擊AI仿冒知名人士行為；Pika2.0可操控視頻內(nèi)容元素

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、微信:將打擊利用AI仿冒知名人士進(jìn)行營銷宣傳行為微信珊瑚安全近期發(fā)布公告，明確表示將嚴(yán)厲打擊利用AI技術(shù)仿冒知名人士進(jìn)行不當(dāng)營銷的行為。通過簡單的設(shè)置，開發(fā)者可以快速啟用這一功能，支持多種編程語言，極大地便利了開發(fā)者的工作。

?人工智能 ?AI產(chǎn)品應(yīng)用 ?網(wǎng)絡(luò)安全

熱文

3 天
7天

站長商機

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

Google AI推出SANPO:多屬性視頻數(shù)據(jù)集助力視覺場景理解

薦Google全新發(fā)布AI視頻Veo2、AI繪圖Imagen3 - 何以凌越。

薦沒日沒夜創(chuàng)業(yè)“卷”了20個月、胖了30斤，AI大牛：還是重回Google香！

Google Chat 推出全新即時語音會議功能Huddles

薦AI日報：字節(jié)重磅推出豆包視覺理解模型；AI“魔改”寵物跳舞爆火；OpenAI開放滿血o1模型API；即夢AI上線海報生成功能

武建集團一期BIP高級版財務(wù)項目成功上線

ChatGPT重大更新：新增實時搜索和高級語音

薦一手實測豆包新發(fā)布的視覺理解大模型，他們真的卷起飛了。

特斯拉中國上線高級智能召喚功能支持多種停車位泊出

字節(jié)跳動正式發(fā)布豆包視覺理解模型：1元可處理近300張高清圖

薦AI日報：張文宏被AI假冒直播帶貨；Kimi視覺思考版上線；微信打擊AI仿冒知名人士行為；Pika2.0可操控視頻內(nèi)容元素

熱文

周鴻祎：AGI發(fā)展遇瓶頸智能體和專業(yè)大模型將扛大旗

雷軍：小米是北方車廠 SU7研發(fā)之初就要做冬季電車?yán)m(xù)航之王

沒網(wǎng)也能聯(lián)絡(luò)！小米15系列星辰無網(wǎng)通12月底升級6km級通話范圍

美團：冬至期間將針對餃子等應(yīng)時食品訂單提供“超時保護”

不得使用惡俗惡趣味微短劇片名！廣電總局出手整治“霸總愛上我

消息稱OpenAI新模型GPT-5研發(fā)未達(dá)到預(yù)期：成本高昂效果欠佳

英偉達(dá)AI芯片最大買家揭曉！微軟力壓同行霸榜

微信朋友圈崩了上熱搜騰訊客服：請嘗試這幾種方法

極越員工萬字怒懟ceo：公關(guān)總監(jiān)徐繼業(yè)怒罵員工蒼蠅

馬斯克將推出X Mail電子郵箱服務(wù)

小紅書封號上熱搜：違規(guī)原因涉及發(fā)布引流、牟利等內(nèi)容

周鴻祎：AGI發(fā)展遇瓶頸智能體和專業(yè)大模型將扛大旗

極越員工善后方案已出爐：員工獲“N+1”賠償由百度吉利出資

螞蟻集團否認(rèn)借殼上市：目前沒有上市計劃

小紅書被吐槽無理由封號客服回應(yīng)：未說明處罰時間就是永封

極越公關(guān)負(fù)責(zé)人被開除本人回應(yīng)：此前未接到任何通知

站長商機