幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

首頁(yè) > 業(yè)界 > 關(guān)鍵詞  > Scenic最新資訊  > 正文

谷歌推Scenic:可識(shí)別視頻內(nèi)容 并生成詳細(xì)描述

2024-04-07 11:17 · 稿源:站長(zhǎng)之家

劃重點(diǎn):

?? Scenic 是一個(gè)以注意力模型為重點(diǎn)的計(jì)算機(jī)視覺(jué)研究代碼庫(kù)。

?? 提供 SOTA 模型和基線模型,以及共享庫(kù)和項(xiàng)目。

?? Scenic 采用 JAX 和 Flax 進(jìn)行開(kāi)發(fā),為快速原型設(shè)計(jì)大規(guī)模視覺(jué)模型提供支持。

站長(zhǎng)之家(ChinaZ.com) 4月7日 消息:Scenic 是谷歌推出的模型,一個(gè)專(zhuān)注于計(jì)算機(jī)視覺(jué)領(lǐng)域的代碼庫(kù),主要用于研究基于注意力的模型。

該庫(kù)提供了一系列共享的輕量級(jí)庫(kù),解決訓(xùn)練大規(guī)模視覺(jué)模型時(shí)常見(jiàn)的任務(wù),并包含了幾個(gè)使用這些庫(kù)的問(wèn)題特定訓(xùn)練和評(píng)估循環(huán)的項(xiàng)目。Scenic 使用 JAX 和 Flax 進(jìn)行開(kāi)發(fā),支持開(kāi)發(fā)人員在圖像、視頻、音頻和多模態(tài)組合方面開(kāi)發(fā)分類(lèi)、分割和檢測(cè)模型。Scenic能識(shí)別任意長(zhǎng)度的視頻內(nèi)容,并生成詳細(xì)描述。針對(duì)長(zhǎng)視頻,可以在處理完整個(gè)視頻前,流式預(yù)測(cè)視頻內(nèi)容。

image.png

Scenic 提供了一些功能,包括用于啟動(dòng)實(shí)驗(yàn)、摘要編寫(xiě)、日志記錄、性能分析等的樣板代碼;優(yōu)化的訓(xùn)練和評(píng)估循環(huán)、損失函數(shù)、度量、雙部分匹配器等;以及用于流行視覺(jué)數(shù)據(jù)集的輸入管道和強(qiáng)大的非注意力基線模型。

在 Scenic 中,有一些 SOTA 模型和基線模型,這些模型可能是使用 Scenic 開(kāi)發(fā)的,也可能是在 Scenic 中重新實(shí)現(xiàn)的。一些項(xiàng)目包括 ViViT、OmniNet、Attention Bottlenecks for Multimodal Fusion 等。此外,Scenic 還提供了一些重現(xiàn)的基線模型,如(ViT)An Image is Worth16x16Words、(DETR)End-to-End Object Detection with Transformers 等。

Scenic 的目標(biāo)是促進(jìn)大規(guī)模視覺(jué)模型的快速原型設(shè)計(jì)。為了保持代碼簡(jiǎn)單易懂且易于擴(kuò)展,Scenic 更傾向于通過(guò)復(fù)制粘貼而非增加復(fù)雜性或增加抽象來(lái)解決問(wèn)題。只有當(dāng)功能被證明在許多模型和任務(wù)中廣泛有用時(shí),才可能將其上游到 Scenic 的共享庫(kù)中。

產(chǎn)品入口:https://top.aibase.com/tool/scenic

舉報(bào)

  • 相關(guān)推薦

熱文

  • 3 天
  • 7天