站長(zhǎng)之家(ChinaZ.com)6月12日 消息:上周蘋(píng)果推出的Vision Pro頭戴顯示器引起了很多人的興趣。你能想象一下如果加上人工智能的話,會(huì)是什么樣的體驗(yàn)嗎?
最近,新加坡南洋理工大學(xué)和微軟雷蒙研究所推出了一個(gè)多模態(tài)的人工智能助手——Otter(水獺)。它能夠以視頻作為輸入,完成多模態(tài)的感知、推理和上下文學(xué)習(xí),并經(jīng)過(guò)專門(mén)的指令遵守訓(xùn)練。
它不僅能夠教你打麻將、開(kāi)飛機(jī),還能教你調(diào)酒。它能夠?qū)崟r(shí)識(shí)別現(xiàn)實(shí)場(chǎng)景并回答人類提問(wèn),簡(jiǎn)直是一個(gè)全能型的選手。
Otter支持8種語(yǔ)言,包括中文。在訓(xùn)練過(guò)程中,團(tuán)隊(duì)使用了適用于增強(qiáng)現(xiàn)實(shí)頭戴顯示器的第一人稱視角視頻,明確表示這是為蘋(píng)果頭戴顯示器準(zhǔn)備的。有網(wǎng)友發(fā)現(xiàn),在各種測(cè)試項(xiàng)目中,Otter的平均成績(jī)比傳統(tǒng)的MiniGPT-4、OpenFlamingo等傳統(tǒng)模型高出了十幾個(gè)百分點(diǎn)。
Otter使用視覺(jué)識(shí)別模塊來(lái)分析場(chǎng)景信息,并結(jié)合ChatGPT生成答案。其中,關(guān)鍵的視覺(jué)模塊是基于改良版的LLaVA進(jìn)行訓(xùn)練的。Otter的工作流程大概是這樣的:首先要對(duì)視覺(jué)信息進(jìn)行處理,并結(jié)合系統(tǒng)信息生成激勵(lì)。生成好的激勵(lì)會(huì)被傳遞給ChatGPT,得到指令-回應(yīng)數(shù)據(jù)。這些回應(yīng)數(shù)據(jù)再經(jīng)過(guò)一步篩選器的篩選,由ChatGPT將所選擇的語(yǔ)言進(jìn)行翻譯并輸出。此外,團(tuán)隊(duì)還引入了冷啟動(dòng)機(jī)制,用于發(fā)現(xiàn)可用于數(shù)據(jù)庫(kù)中的情景實(shí)例。
在線體驗(yàn):
https://otter.cliangyu.com/
論文地址:
https://arxiv.org/abs/2306.05425
GitHub頁(yè)面:
https://github.com/Luodian/Otter
(舉報(bào))