谷歌推Scenic：可識(shí)別視頻內(nèi)容并生成詳細(xì)描述

2024-04-07 11:17 · 稿源：站長(zhǎng)之家

劃重點(diǎn):
?? Scenic 是一個(gè)以注意力模型為重點(diǎn)的計(jì)算機(jī)視覺(jué)研究代碼庫(kù)。
?? 提供 SOTA 模型和基線模型，以及共享庫(kù)和項(xiàng)目。
?? Scenic 采用 JAX 和 Flax 進(jìn)行開(kāi)發(fā)，為快速原型設(shè)計(jì)大規(guī)模視覺(jué)模型提供支持。

站長(zhǎng)之家(ChinaZ.com) 4月7日消息:Scenic 是谷歌推出的模型，一個(gè)專(zhuān)注于計(jì)算機(jī)視覺(jué)領(lǐng)域的代碼庫(kù)，主要用于研究基于注意力的模型。

該庫(kù)提供了一系列共享的輕量級(jí)庫(kù)，解決訓(xùn)練大規(guī)模視覺(jué)模型時(shí)常見(jiàn)的任務(wù)，并包含了幾個(gè)使用這些庫(kù)的問(wèn)題特定訓(xùn)練和評(píng)估循環(huán)的項(xiàng)目。Scenic 使用 JAX 和 Flax 進(jìn)行開(kāi)發(fā)，支持開(kāi)發(fā)人員在圖像、視頻、音頻和多模態(tài)組合方面開(kāi)發(fā)分類(lèi)、分割和檢測(cè)模型。Scenic能識(shí)別任意長(zhǎng)度的視頻內(nèi)容，并生成詳細(xì)描述。針對(duì)長(zhǎng)視頻，可以在處理完整個(gè)視頻前，流式預(yù)測(cè)視頻內(nèi)容。

Scenic 提供了一些功能，包括用于啟動(dòng)實(shí)驗(yàn)、摘要編寫(xiě)、日志記錄、性能分析等的樣板代碼;優(yōu)化的訓(xùn)練和評(píng)估循環(huán)、損失函數(shù)、度量、雙部分匹配器等;以及用于流行視覺(jué)數(shù)據(jù)集的輸入管道和強(qiáng)大的非注意力基線模型。

在 Scenic 中，有一些 SOTA 模型和基線模型，這些模型可能是使用 Scenic 開(kāi)發(fā)的，也可能是在 Scenic 中重新實(shí)現(xiàn)的。一些項(xiàng)目包括 ViViT、OmniNet、Attention Bottlenecks for Multimodal Fusion 等。此外，Scenic 還提供了一些重現(xiàn)的基線模型，如（ViT）An Image is Worth16x16Words、(DETR)End-to-End Object Detection with Transformers 等。

Scenic 的目標(biāo)是促進(jìn)大規(guī)模視覺(jué)模型的快速原型設(shè)計(jì)。為了保持代碼簡(jiǎn)單易懂且易于擴(kuò)展，Scenic 更傾向于通過(guò)復(fù)制粘貼而非增加復(fù)雜性或增加抽象來(lái)解決問(wèn)題。只有當(dāng)功能被證明在許多模型和任務(wù)中廣泛有用時(shí)，才可能將其上游到 Scenic 的共享庫(kù)中。

產(chǎn)品入口：https://top.aibase.com/tool/scenic

（舉報(bào)）

相關(guān)推薦

關(guān)鍵詞：

Kimi內(nèi)測(cè)AI視頻生成功能：每天可免費(fèi)生成100秒視頻

據(jù)報(bào)道，Kimi目前正內(nèi)測(cè)AI視頻生成功能Kimi創(chuàng)作空間”，可通過(guò)12種預(yù)設(shè)風(fēng)格模板和自定義創(chuàng)作功能，為用戶制作個(gè)性化音樂(lè)視頻。Kimi創(chuàng)作空間”目前正處于灰度測(cè)試階段，預(yù)示著它距離正式亮相已為期不遠(yuǎn)。無(wú)論是專(zhuān)業(yè)學(xué)術(shù)論文的翻譯與理解是法律問(wèn)題的輔助分析，亦或是發(fā)票的批量整理以及API開(kāi)發(fā)文檔的快速解讀，Kimi都展現(xiàn)出了出色的表現(xiàn)，贏得了廣大用戶的一致好評(píng)。

?AI視頻生成 ?Kimi創(chuàng)作空間 ?個(gè)性化音樂(lè)視頻
迄今最大視頻開(kāi)源模型！騰訊混元文生視頻上線：一句話生成視頻

今日，騰訊混元大模型宣布文生視頻功能上線，一句話就能生成視頻。此次開(kāi)源的視頻生成大模型，參數(shù)量130億，是當(dāng)前最大的視頻開(kāi)源模型。通過(guò)先進(jìn)的圖像視頻混合VAE，讓模型在細(xì)節(jié)表現(xiàn)有明顯提升，特別是小人臉、高速鏡頭等場(chǎng)景。

?騰訊 ?混元大模型 ?視頻生成
薦AI日?qǐng)?bào)：張文宏被AI假冒直播帶貨；Kimi視覺(jué)思考版上線；微信打擊AI仿冒知名人士行為；Pika2.0可操控視頻內(nèi)容元素

歡迎來(lái)到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開(kāi)發(fā)者，助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、微信:將打擊利用AI仿冒知名人士進(jìn)行營(yíng)銷(xiāo)宣傳行為微信珊瑚安全近期發(fā)布公告，明確表示將嚴(yán)厲打擊利用AI技術(shù)仿冒知名人士進(jìn)行不當(dāng)營(yíng)銷(xiāo)的行為。通過(guò)簡(jiǎn)單的設(shè)置，開(kāi)發(fā)者可以快速啟用這一功能，支持多種編程語(yǔ)言，極大地便利了開(kāi)發(fā)者的工作。

?人工智能 ?AI產(chǎn)品應(yīng)用 ?網(wǎng)絡(luò)安全
Sora之后，視頻生成模型的中國(guó)牌局

Sora，自2月16日OpenAI發(fā)布后一直被吐槽是“技術(shù)期貨”，終于在12月10日，正式版Sora露面了，可以生成最高1080p分辨率、最長(zhǎng)20秒的視頻。OpenAICEO奧特曼稱(chēng)，Sora正式版是視頻生成領(lǐng)域的GPT-1時(shí)刻。大模型的牌局，國(guó)內(nèi)企業(yè)正在找到自己的節(jié)奏感。

?視頻生成 ?OpenAI ?AI技術(shù)
力壓Sora！谷歌第二代AI視頻生成模型Veo 2發(fā)布：分辨率可達(dá)4K

據(jù)報(bào)道，谷歌發(fā)布了最新的AI視頻生成模型Veo2。Veo2模型能夠生成最高4K分辨率、時(shí)長(zhǎng)達(dá)到2分鐘的視頻片段，相較于OpenAI的Sora模型，分辨率提升了4倍，視頻時(shí)長(zhǎng)增加了6倍。除了Veo2之外，Google這波還推出了改進(jìn)版的AI繪圖Imagen3模型，生圖細(xì)節(jié)更好、光照更豐富、干擾更少。

?谷歌 ?AI視頻生成 ?Veo
OpenAI正式推出AI視頻生成模型Sora：ChatGPT訂閱用戶免費(fèi)用

在首次公布10個(gè)月之后，OpenAI宣布正式向用戶開(kāi)放人工智能視頻生成模型版本Sora，該系統(tǒng)可以根據(jù)文本提示生成逼真的視頻。OpenAI還推出了Sora的新版本SoraTurbo，稱(chēng)較2月預(yù)覽的版本速度顯著加快，可以生成最長(zhǎng)達(dá)20秒的視頻，并且可以提供這些視頻的多種變體。OpenAI表示，正在針對(duì)不同類(lèi)型的用戶制定量身定制的價(jià)格方案，計(jì)劃于明年年初推出。

?人工智能 ?視頻生成 ?OpenAI
喜相逢集團(tuán)納入MSCI全球小盤(pán)股指數(shù)：調(diào)整已生效

2024 年 11 月 7 日，明晟指數(shù)公司(MSCI)宣布了其全球小盤(pán)股指數(shù)的半年度調(diào)整結(jié)果，喜相逢集團(tuán)(2473.HK)成功納入該指數(shù)，調(diào)整已于 11 月 25 日收盤(pán)后正式生效”。這一納入不僅反映了喜相逢集團(tuán)在市場(chǎng)上的良好表現(xiàn)，也為其帶來(lái)了更多的國(guó)際關(guān)注和潛在的資本流入。喜相逢集團(tuán)是一家專(zhuān)注于直接融資租賃售車(chē)業(yè)務(wù)的公司，公司通過(guò)“以租代購(gòu)”的創(chuàng)新模式，為消費(fèi)者提供了靈活的

?MSCI ?喜相逢集團(tuán) ?全球小盤(pán)股指數(shù)
超薄指紋沒(méi)了！一加Ace 5全系將采用短焦指紋識(shí)別

一加Ace5系列已官宣將于下月發(fā)布，根據(jù)數(shù)碼閑聊站透露，一加Ace5全系將采用短焦光學(xué)指紋識(shí)別方案。一加Ace2Pro通過(guò)引入超薄光學(xué)指紋方案，不僅在技術(shù)上領(lǐng)先同價(jià)位機(jī)型在中端市場(chǎng)中推動(dòng)了超薄光學(xué)指紋技術(shù)的普及。一加Ace5系列的這些配置，無(wú)疑將使其成為市場(chǎng)上的有力競(jìng)爭(zhēng)者。

?一加Ace ?5 ?短焦光學(xué)指紋
薦AI日?qǐng)?bào)：階躍星辰內(nèi)測(cè)視頻大模型Step-Video；即夢(mèng)AI圖片2.1模型支持生成文字；騰訊發(fā)布混元視頻生成大模型

歡迎來(lái)到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開(kāi)發(fā)者，助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、階躍星辰視頻生成大模型Step-Video開(kāi)啟內(nèi)測(cè)可在躍問(wèn)視頻申請(qǐng)階躍星辰的Step-Video模型正式開(kāi)啟內(nèi)測(cè)，用戶可以通過(guò)躍問(wèn)視頻官網(wǎng)申請(qǐng)資格。用戶可在最新版本的WPSOffice中輕松找到?

?人工智能 ?視頻生成 ?技術(shù)趨勢(shì)
讓AI激發(fā)創(chuàng)作！首屆豆包MarsCode AI編程挑戰(zhàn)賽報(bào)名開(kāi)啟

在科技變革浪潮中，編程領(lǐng)域持續(xù)演進(jìn)，AI為其注入無(wú)限活力。我們的目標(biāo)是期望為廣大編程愛(ài)好者與專(zhuān)業(yè)開(kāi)發(fā)者打造一個(gè)開(kāi)放、多元且極具挑戰(zhàn)性的平臺(tái)，促進(jìn)技術(shù)交流與創(chuàng)新思維的碰撞，加速AI技術(shù)在編程領(lǐng)域的深度融合與應(yīng)用落地。立即報(bào)名想?yún)⒓佣拱麺arsCodeAI編程挑戰(zhàn)賽的開(kāi)發(fā)者們請(qǐng)?jiān)?025年1月5日23:59前往官網(wǎng)完成大賽報(bào)名信息的填寫(xiě)和作品提交。

?編程挑戰(zhàn)賽 ?AI ?技術(shù)

熱文

3 天
7天

站長(zhǎng)商機(jī)

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

谷歌推Scenic：可識(shí)別視頻內(nèi)容并生成詳細(xì)描述

Kimi內(nèi)測(cè)AI視頻生成功能：每天可免費(fèi)生成100秒視頻

迄今最大視頻開(kāi)源模型！騰訊混元文生視頻上線：一句話生成視頻

薦AI日?qǐng)?bào)：張文宏被AI假冒直播帶貨；Kimi視覺(jué)思考版上線；微信打擊AI仿冒知名人士行為；Pika2.0可操控視頻內(nèi)容元素

Sora之后，視頻生成模型的中國(guó)牌局

力壓Sora！谷歌第二代AI視頻生成模型Veo 2發(fā)布：分辨率可達(dá)4K

OpenAI正式推出AI視頻生成模型Sora：ChatGPT訂閱用戶免費(fèi)用

喜相逢集團(tuán)納入MSCI全球小盤(pán)股指數(shù)：調(diào)整已生效

超薄指紋沒(méi)了！一加Ace 5全系將采用短焦指紋識(shí)別

薦AI日?qǐng)?bào)：階躍星辰內(nèi)測(cè)視頻大模型Step-Video；即夢(mèng)AI圖片2.1模型支持生成文字；騰訊發(fā)布混元視頻生成大模型

讓AI激發(fā)創(chuàng)作！首屆豆包MarsCode AI編程挑戰(zhàn)賽報(bào)名開(kāi)啟

熱文

小紅書(shū)封號(hào)上熱搜：違規(guī)原因涉及發(fā)布引流、牟利等內(nèi)容

周鴻祎：AGI發(fā)展遇瓶頸智能體和專(zhuān)業(yè)大模型將扛大旗

小紅書(shū)被吐槽無(wú)理由封號(hào) 客服回應(yīng)：未說(shuō)明處罰時(shí)間就是永封

極越公關(guān)負(fù)責(zé)人被開(kāi)除本人回應(yīng)：此前未接到任何通知

微信緊急提醒：警惕木馬病毒將加強(qiáng)對(duì)此類(lèi)行為打擊

馬斯克稱(chēng)星鏈可實(shí)現(xiàn)火星玩游戲：但存在約4到20分鐘延遲

雷軍：小米是北方車(chē)廠 SU7研發(fā)之初就要做冬季電車(chē)?yán)m(xù)航之王

美團(tuán)：冬至期間將針對(duì)餃子等應(yīng)時(shí)食品訂單提供“超時(shí)保護(hù)”

沒(méi)網(wǎng)也能聯(lián)絡(luò)！小米15系列星辰無(wú)網(wǎng)通12月底升級(jí)6km級(jí)通話范圍

不得使用惡俗惡趣味微短劇片名！廣電總局出手整治“霸總愛(ài)上我

英偉達(dá)AI芯片最大買(mǎi)家揭曉！微軟力壓同行霸榜

微信朋友圈崩了上熱搜騰訊客服：請(qǐng)嘗試這幾種方法

極越員工萬(wàn)字怒懟ceo：公關(guān)總監(jiān)徐繼業(yè)怒罵員工蒼蠅

馬斯克將推出X Mail電子郵箱服務(wù)

百度回應(yīng)進(jìn)軍短劇：當(dāng)前內(nèi)容生態(tài)的一個(gè)重點(diǎn)發(fā)展方向

小紅書(shū)封號(hào)上熱搜：違規(guī)原因涉及發(fā)布引流、牟利等內(nèi)容

極越員工善后方案已出爐：?jiǎn)T工獲“N+1”賠償由百度吉利出資

螞蟻集團(tuán)否認(rèn)借殼上市：目前沒(méi)有上市計(jì)劃

周鴻祎：AGI發(fā)展遇瓶頸智能體和專(zhuān)業(yè)大模型將扛大旗

阿里74億元出售銀泰！銀泰集團(tuán)回應(yīng)：與銀泰百貨無(wú)直接關(guān)聯(lián)

站長(zhǎng)商機(jī)

谷歌推Scenic：可識(shí)別視頻內(nèi)容 并生成詳細(xì)描述

熱文

站長(zhǎng)商機(jī)

谷歌推Scenic：可識(shí)別視頻內(nèi)容并生成詳細(xì)描述