劃重點(diǎn):
?? Scenic 是一個(gè)以注意力模型為重點(diǎn)的計(jì)算機(jī)視覺(jué)研究代碼庫(kù)。
?? 提供 SOTA 模型和基線模型,以及共享庫(kù)和項(xiàng)目。
?? Scenic 采用 JAX 和 Flax 進(jìn)行開(kāi)發(fā),為快速原型設(shè)計(jì)大規(guī)模視覺(jué)模型提供支持。
站長(zhǎng)之家(ChinaZ.com) 4月7日 消息:Scenic 是谷歌推出的模型,一個(gè)專(zhuān)注于計(jì)算機(jī)視覺(jué)領(lǐng)域的代碼庫(kù),主要用于研究基于注意力的模型。
該庫(kù)提供了一系列共享的輕量級(jí)庫(kù),解決訓(xùn)練大規(guī)模視覺(jué)模型時(shí)常見(jiàn)的任務(wù),并包含了幾個(gè)使用這些庫(kù)的問(wèn)題特定訓(xùn)練和評(píng)估循環(huán)的項(xiàng)目。Scenic 使用 JAX 和 Flax 進(jìn)行開(kāi)發(fā),支持開(kāi)發(fā)人員在圖像、視頻、音頻和多模態(tài)組合方面開(kāi)發(fā)分類(lèi)、分割和檢測(cè)模型。Scenic能識(shí)別任意長(zhǎng)度的視頻內(nèi)容,并生成詳細(xì)描述。針對(duì)長(zhǎng)視頻,可以在處理完整個(gè)視頻前,流式預(yù)測(cè)視頻內(nèi)容。
Scenic 提供了一些功能,包括用于啟動(dòng)實(shí)驗(yàn)、摘要編寫(xiě)、日志記錄、性能分析等的樣板代碼;優(yōu)化的訓(xùn)練和評(píng)估循環(huán)、損失函數(shù)、度量、雙部分匹配器等;以及用于流行視覺(jué)數(shù)據(jù)集的輸入管道和強(qiáng)大的非注意力基線模型。
在 Scenic 中,有一些 SOTA 模型和基線模型,這些模型可能是使用 Scenic 開(kāi)發(fā)的,也可能是在 Scenic 中重新實(shí)現(xiàn)的。一些項(xiàng)目包括 ViViT、OmniNet、Attention Bottlenecks for Multimodal Fusion 等。此外,Scenic 還提供了一些重現(xiàn)的基線模型,如(ViT)An Image is Worth16x16Words、(DETR)End-to-End Object Detection with Transformers 等。
Scenic 的目標(biāo)是促進(jìn)大規(guī)模視覺(jué)模型的快速原型設(shè)計(jì)。為了保持代碼簡(jiǎn)單易懂且易于擴(kuò)展,Scenic 更傾向于通過(guò)復(fù)制粘貼而非增加復(fù)雜性或增加抽象來(lái)解決問(wèn)題。只有當(dāng)功能被證明在許多模型和任務(wù)中廣泛有用時(shí),才可能將其上游到 Scenic 的共享庫(kù)中。
產(chǎn)品入口:https://top.aibase.com/tool/scenic
(舉報(bào))