一張顯卡看遍天下電影！智源聯(lián)合高校開源Video-XL打破長(zhǎng)視頻理解極限，95%準(zhǔn)確率刷爆紀(jì)錄

2024-10-28 17:14 · 稿源：新智元公眾號(hào)

聲明:本文來自于微信公眾號(hào) 新智元，作者:新智元，授權(quán)站長(zhǎng)之家轉(zhuǎn)載發(fā)布。

【新智元導(dǎo)讀】長(zhǎng)視頻理解迎來新紀(jì)元!智源聯(lián)手國(guó)內(nèi)多所頂尖高校，推出了超長(zhǎng)視頻理解大模型Video-XL。僅用一張80G顯卡處理小時(shí)級(jí)視頻，未來AI看懂電影再也不是難事。

長(zhǎng)視頻理解是多模態(tài)大模型的核心能力之一，也是邁向通用人工智能（AGI）的關(guān)鍵一步。然而，現(xiàn)有的多模態(tài)大模型在處理10分鐘以上的超長(zhǎng)視頻時(shí)，仍然面臨性能差和效率低的雙重挑戰(zhàn)。

對(duì)此，智源研究院聯(lián)合上海交通大學(xué)、中國(guó)人民大學(xué)、北京大學(xué)和北京郵電大學(xué)等多所高校，推出了小時(shí)級(jí)的超長(zhǎng)視頻理解大模型Video-XL。

Video-XL借助語言模型（LLM）的原生能力對(duì)長(zhǎng)視覺序列進(jìn)行壓縮，不僅保留了短視頻理解的能力，而且在長(zhǎng)視頻理解上展現(xiàn)了出色的泛化能力。

Video-XL相較于同等參數(shù)規(guī)模的模型，在多個(gè)主流長(zhǎng)視頻理解基準(zhǔn)評(píng)測(cè)的多項(xiàng)任務(wù)中排名第一。

此外，Video-XL在效率與性能之間實(shí)現(xiàn)了良好的平衡，僅需一塊80G顯存的顯卡即可處理2048幀輸入（對(duì)小時(shí)級(jí)長(zhǎng)度視頻采樣），并在視頻「大海撈針」任務(wù)中取得了接近95%的準(zhǔn)確率。

僅需幾秒鐘，VideoXL便可以準(zhǔn)確檢索長(zhǎng)視頻中植入的廣告內(nèi)容（https://github.com/VectorSpaceLab/Video-XL/tree/main/examples），也可以像人類一樣準(zhǔn)確理解電影中發(fā)生的主要事件(本視頻僅用于學(xué)術(shù)研究，如有問題，請(qǐng)隨時(shí)聯(lián)系)

未來，Video-XL有望在電影摘要、視頻異常檢測(cè)、廣告植入檢測(cè)等應(yīng)用場(chǎng)景中展現(xiàn)出廣泛的應(yīng)用價(jià)值，成為得力的長(zhǎng)視頻理解助手。

論文標(biāo)題:Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding

論文鏈接:https://arxiv.org/abs/2409.14485

模型鏈接:https://huggingface.co/sy1998/Video_XL

項(xiàng)目鏈接:https://github.com/VectorSpaceLab/Video-XL

圖1不同長(zhǎng)視頻模型在單塊80G顯卡上支持的最大幀數(shù)及在Video-MME上的表現(xiàn)

背景介紹

使用MLLM進(jìn)行長(zhǎng)視頻理解具有極大的研究和應(yīng)用前景。然而，當(dāng)前的視頻理解模型往往只能處理較短的視頻，無法處理十分鐘以上的視頻。

盡管最近研究社區(qū)出現(xiàn)了一些長(zhǎng)視頻理解模型，但這些工作主要存在以下問題:

壓縮視覺token帶來的信息損失

為了使語言模型的固定窗口長(zhǎng)度適應(yīng)長(zhǎng)視頻帶來的大量視覺token，眾多方法嘗試設(shè)計(jì)機(jī)制對(duì)視覺token進(jìn)行壓縮，例如LLaMA-VID主要降低token的數(shù)量，而MovieChat，MALMM則設(shè)計(jì)memory模塊對(duì)幀信息進(jìn)行壓縮。然而，壓縮視覺信息不可避免帶來信息的損失和性能降低。

性能和效率的不平衡

相關(guān)工作LongVA嘗試finetune語言模型擴(kuò)大其上下文窗口，并成功將短視頻理解能力泛化到了長(zhǎng)視頻上。LongVila優(yōu)化了長(zhǎng)視頻訓(xùn)練的開銷，提出了高效訓(xùn)練長(zhǎng)視頻訓(xùn)練的范式。然而，這些工作并未考慮推理時(shí)視頻幀數(shù)增加帶來的計(jì)算開銷。

方法介紹

1.模型結(jié)構(gòu)

圖2Video-XL模型結(jié)構(gòu)圖

如圖2所示，Video-XL的整體模型結(jié)構(gòu)和主流的MLLMs結(jié)構(gòu)相似，由視覺編碼器（CLIP），視覺-語言映射器(2-layer MLP)以及語言模型(Qwen-7B)構(gòu)成。

特別之處在于，為了處理各種格式的多模態(tài)數(shù)據(jù)（單圖，多圖和視頻），Video-XL建立了一個(gè)統(tǒng)一的視覺編碼機(jī)制。

針對(duì)多圖和視頻數(shù)據(jù)，將每幀分別輸入CLIP;
針對(duì)單圖，將其劃分為多個(gè)圖像塊，并將圖像塊輸入CLIP進(jìn)行編碼。

因此，一個(gè)N幀的視頻或者一個(gè)N圖像塊的圖片都將統(tǒng)一標(biāo)記成N×M視覺token。

2.視覺上下文隱空間壓縮

相比于以往長(zhǎng)視頻模型直接對(duì)視覺token壓縮，Video-XL嘗試?yán)谜Z言模型對(duì)上下文的建模能力對(duì)長(zhǎng)視覺序列進(jìn)行無損壓縮。對(duì)于視覺語言連接器輸出的視覺信號(hào)序列:

其中n為視覺token的數(shù)量。Video-XL的目標(biāo)在于將X壓縮成更為緊湊的視覺表示C （|C|<|X|）。在下文中將詳細(xì)介紹視覺上下文隱空間壓縮的原理。

受到Activation Beacon的啟發(fā)，Video-XL引入了一種新的特殊標(biāo)記，稱為視覺摘要標(biāo)記（VST），記為<vs>?；诖丝梢詫⒁曈X信號(hào)的隱層特征壓縮到VST在LLM中的激活表示中(每層的Key和Value值)。

具體而言，首先將視覺信號(hào)序列X分成大小為w的窗口（默認(rèn)每個(gè)窗口長(zhǎng)度為1440）:

接著，對(duì)每個(gè)窗口首先確定壓縮比，并插入一組VST標(biāo)記，以交替的方式在視覺標(biāo)記序列中插入。

在該過程中，視覺token表示的變化可以由以下公式表達(dá):

LLM將逐個(gè)處理每個(gè)窗口進(jìn)行編碼，并使用額外的投影矩陣在每層自注意力模塊中處理VST的隱藏值。

編碼完成后，普通視覺標(biāo)記的激活值被丟棄，而VST的激活值被保留并累積，作為處理后續(xù)窗口時(shí)的視覺信號(hào)代理。

3.模型訓(xùn)練方式

Video-XL通過優(yōu)化在壓縮視覺信號(hào)下的生成質(zhì)量來進(jìn)行訓(xùn)練。

下一個(gè)token的預(yù)測(cè)通過以下公式進(jìn)行計(jì)算:

其中Θ代表模型所有優(yōu)化的參數(shù)，包含語言模型，視覺編碼器、視覺語言連接器、VST的投影矩陣，以及VST的token embedding。

模型通過最小化標(biāo)準(zhǔn)的自回歸損失進(jìn)行訓(xùn)練，訓(xùn)練過程中不計(jì)算VST標(biāo)記的損失（其標(biāo)簽設(shè)為-100），因?yàn)樗鼈儍H用于壓縮。

同時(shí)，為了靈活支持不同的壓縮粒度，訓(xùn)練時(shí)每個(gè)窗口的壓縮比會(huì)從{2，4，8，12，16}中隨機(jī)抽取。在推理時(shí)，可以根據(jù)具體的效率需求選擇一個(gè)壓縮比并應(yīng)用于所有窗口。

4.模型訓(xùn)練數(shù)據(jù)

在預(yù)訓(xùn)練階段，Video-XL使用Laion-2M數(shù)據(jù)集優(yōu)化視覺語言連接器。

在微調(diào)階段，Video-XL充分利用了MLLM在各種多模態(tài)數(shù)據(jù)集上的能力。

對(duì)于單圖像數(shù)據(jù)，使用了Bunny695k和Sharegpt-4o的57k張圖片。
對(duì)于多圖像數(shù)據(jù)，使用了從MMDU提取的5k個(gè)數(shù)據(jù)。
對(duì)于視頻數(shù)據(jù)，收集了不同時(shí)長(zhǎng)的視頻樣本，包括來自NExT-QA的32k樣本，Sharegpt-4o的2k視頻樣本，CinePile的10k樣本以及11k個(gè)帶有GPT-4V視頻字幕注釋的私有數(shù)據(jù)。

為了增強(qiáng)長(zhǎng)視頻理解能力并釋放視覺壓縮機(jī)制的潛力，本工作開發(fā)了一個(gè)自動(dòng)化的長(zhǎng)視頻數(shù)據(jù)生產(chǎn)流程，并創(chuàng)建了一個(gè)高質(zhì)量數(shù)據(jù)集——視覺線索順序數(shù)據(jù)（VICO）。

該流程首先從CinePile數(shù)據(jù)或YouTube等視頻平臺(tái)獲取長(zhǎng)視頻，涵蓋電影、紀(jì)錄片、游戲、體育等開放領(lǐng)域的內(nèi)容。每個(gè)長(zhǎng)視頻被分割成14秒的片段。

對(duì)于每個(gè)片段，本工作使用VILA-1.540B模型生成詳細(xì)描述，包括動(dòng)作序列和關(guān)鍵事件?；谶@些描述，本工作利用ChatGPT將線索按時(shí)間順序排列。

VICO數(shù)據(jù)集通過要求模型檢索關(guān)鍵幀并檢測(cè)時(shí)間變化，提升其長(zhǎng)視頻理解能力。

實(shí)驗(yàn)

1.評(píng)測(cè)基準(zhǔn)

Video-XL選用多個(gè)主流視頻理解評(píng)測(cè)基準(zhǔn)，對(duì)于長(zhǎng)視頻理解任務(wù)，評(píng)測(cè)了VNBench、LongVideoBench、MLVU和Video-MME;對(duì)于短視頻理解任務(wù)，評(píng)測(cè)了MVBench和Next-QA。

2.評(píng)測(cè)結(jié)果

長(zhǎng)視頻理解:

表1Video-XL在MLVU和VideoMME的性能

表2Video-XL在VNBench和LongVideoBench上的性能

如表1和表2所示Video-XL在多個(gè)主流的長(zhǎng)視頻評(píng)測(cè)基準(zhǔn)上展現(xiàn)了卓越性能。

在VNBench上準(zhǔn)確率超過了目前最好的長(zhǎng)視頻模型大約10%;
在MLVU的驗(yàn)證集上，僅僅具有7B參數(shù)的Video-XL甚至在單項(xiàng)選擇任務(wù)上超越了GPT-4o模型;
在Video-MME和LongVideoBench等數(shù)據(jù)集上，Video-XL也在同等量級(jí)規(guī)模的長(zhǎng)視頻理解模型中排名第一。

超長(zhǎng)視頻理解:

Video-XL通過進(jìn)行了視頻「大海撈針」測(cè)試來評(píng)估其處理超長(zhǎng)上下文的能力。

LLaVA-NexT-Video和LongLLaVA都采用了簡(jiǎn)單的位置信息外推算法，但在輸入更多上下文時(shí)，仍然難以理解關(guān)鍵信息。雖然LongVA通過微調(diào)LLM來處理更長(zhǎng)的輸入，但高昂的計(jì)算成本限制了其在單塊80G GPU上處理約400幀的能力。

相比之下，Video-XL在相同硬件條件下，以16倍壓縮比和2048幀輸入，達(dá)到了近95%的準(zhǔn)確率。這表明，Video-XL在準(zhǔn)確性和計(jì)算效率之間實(shí)現(xiàn)了最佳平衡。

短視頻理解:

盡管Video-XL的設(shè)計(jì)主要面向長(zhǎng)視頻，但它保留了短視頻理解的能力。在MVBench和Next-QA任務(wù)評(píng)測(cè)中，Video-XL取得了和目前SOTA模型相當(dāng)?shù)男Ч?/p>

3.消融實(shí)驗(yàn)

表3Video-XL的消融實(shí)驗(yàn)

Video-XL對(duì)所提出的視覺壓縮機(jī)制和VICO數(shù)據(jù)集進(jìn)行了消融實(shí)驗(yàn)，如表3所示。

視覺壓縮的有效性

Video-XL使用Bunny695k數(shù)據(jù)集訓(xùn)練了兩個(gè)模型:一個(gè)不使用壓縮，另一個(gè)使用隨機(jī)壓縮比（從{2，8，16}中選?。?/p>

對(duì)于壓縮模型，在視頻基準(zhǔn)MLVU和圖像基準(zhǔn)MME、MMBench上測(cè)試時(shí)應(yīng)用了不同的壓縮比。

值得注意的是，即使使用16的壓縮比，壓縮模型在仍表現(xiàn)出較好的效果，接近甚至超越了基線模型。

VICO數(shù)據(jù)集的有效性

Video-XL使用不同數(shù)據(jù)集訓(xùn)練了四個(gè)模型:（a）僅使用Bunny695k;(b)Bunny695k結(jié)合NeXTQA32k;(c)Bunny695k結(jié)合CinePile10k;(d)Bunny695k結(jié)合長(zhǎng)視頻字幕5k;(e)Bunny695k結(jié)合VICO5k。

值得注意的是，即使僅使用5k的VICO數(shù)據(jù)，Video-XL也超過了使用NeXTQA32k訓(xùn)練的模型。

此外，主要事件/動(dòng)作排序任務(wù)比字幕生成任務(wù)帶來了更顯著的提升，因?yàn)樗偈鼓Ｐ蛷拈L(zhǎng)序列中提取關(guān)鍵片段并進(jìn)行理解。

可視化結(jié)果

圖3Video-XL 在長(zhǎng)視頻理解任務(wù)上的可視化結(jié)果

如圖3所示，Video-XL在電影摘要、視頻異常檢測(cè)、廣告植入檢測(cè)等長(zhǎng)視頻任務(wù)上展現(xiàn)了良好的性能。

總結(jié)

該工作提出了Video-XL模型，利用語言模型的壓縮能力，僅需一塊80G顯卡即可理解小時(shí)級(jí)別的視頻;除此之外，Video-XL在多個(gè)主流長(zhǎng)視頻理解基準(zhǔn)評(píng)測(cè)上表現(xiàn)優(yōu)異。

Video-XL有望在多個(gè)長(zhǎng)視頻理解的應(yīng)用場(chǎng)景中展現(xiàn)出廣泛的應(yīng)用價(jià)值，成為得力的長(zhǎng)視頻理解助手。

目前，Video-XL的模型代碼均已開源，以促進(jìn)全球多模態(tài)視頻理解研究社區(qū)的合作和技術(shù)共享。

參考資料:

https://arxiv.org/abs/2409.14485

（舉報(bào)）

相關(guān)推薦
大家在看

關(guān)鍵詞：

【騰訊云】11.11云上盛惠！云服務(wù)器首年1.8折起，買1年送3個(gè)月！

11.11云上盛惠！海量產(chǎn)品 · 輕松上云！云服務(wù)器首年1.8折起，買1年送3個(gè)月！超值優(yōu)惠，性能穩(wěn)定，讓您的云端之旅更加暢享。快來騰訊云選購(gòu)吧！

Docker容器鏡像
去看看

Docker容器鏡像 60元/15天

爆款產(chǎn)品組合購(gòu)
去看看

爆款產(chǎn)品組合購(gòu) 低至1元

騰訊云x NVIDIA加速計(jì)劃
去看看

騰訊云x NVIDIA加速計(jì)劃最高獲贈(zèng)10萬元扶持基金

2核2G云服務(wù)器
去看看

2核2G云服務(wù)器 112元/1年

查看更多相關(guān)信息>>

騰訊云 12-20

廣告
一塊顯卡理解一部電影，最新超長(zhǎng)視頻理解大模型出爐！“大海撈針”準(zhǔn)確率近95%，代碼已開源

僅需1塊80G顯卡，大模型理解小時(shí)級(jí)超長(zhǎng)視頻。智源研究院聯(lián)合上海交通大學(xué)、中國(guó)人民大學(xué)、北京大學(xué)和北京郵電大學(xué)等多所高校帶來最新成果超長(zhǎng)視頻理解大模型Video-XL。Video-XL的模型代碼均已開源，以促進(jìn)全球多模態(tài)視頻理解研究社區(qū)的合作和技術(shù)共享。

?大模型
菜鳥自主研發(fā)快遞分揀機(jī)啟用：每小時(shí)8000件準(zhǔn)確率99.99%

近年來，快遞行業(yè)快速邁向自動(dòng)化時(shí)代，不過，受限于場(chǎng)地、資金、技術(shù)等因素，很多快遞一線網(wǎng)點(diǎn)依然處在人工分揀時(shí)代。由菜鳥自主研發(fā)的直線窄帶分揀機(jī)開始批量應(yīng)用，極大的提高了快遞分揀速度。包括申通、AliExpress等在內(nèi)的多家企業(yè)已在國(guó)內(nèi)部署該產(chǎn)品，分揀效率均得到不同程度的優(yōu)化提升。

?快遞自動(dòng)化 ?菜鳥分揀機(jī) ?物流技術(shù)
明年開始試用！AI預(yù)測(cè)人類壽命準(zhǔn)確率達(dá)百分之78

英國(guó)國(guó)家醫(yī)療服務(wù)體系即將啟動(dòng)一項(xiàng)新試驗(yàn)，使用一款名為AIRE的人工智能程序，該程序基于心電圖測(cè)試結(jié)果預(yù)測(cè)患者的預(yù)期壽命。AIRE的AI算法能夠迅速分析心電圖數(shù)據(jù)，識(shí)別出患者心臟問題的早期跡象，包括心律失常和心力衰竭，甚至能夠發(fā)現(xiàn)人類醫(yī)生可能忽略的隱藏風(fēng)險(xiǎn)。這項(xiàng)技術(shù)的發(fā)展和應(yīng)用有望為醫(yī)療領(lǐng)域帶來革命性的變化，提高心臟病患者的診斷和治療效率。

?人工智能 ?心電圖 ?NHS
IPO觀察：深化產(chǎn)學(xué)研合作，嘉立創(chuàng)與全國(guó)超335所高校建立“電子設(shè)計(jì)聯(lián)合實(shí)驗(yàn)室

近日，嘉立創(chuàng)EDA宣布與全國(guó)超過 335 所高校成功建立“電子設(shè)計(jì)聯(lián)合實(shí)驗(yàn)室”，這一舉措不僅彰顯了公司在技術(shù)創(chuàng)新與人才培養(yǎng)方面的雄厚實(shí)力，也為其嘉立創(chuàng)未來發(fā)展奠定了堅(jiān)實(shí)基礎(chǔ)。嘉立創(chuàng)EDA自成立以來，始終致力于推動(dòng)電子設(shè)計(jì)自動(dòng)化技術(shù)的發(fā)展與應(yīng)用。隨著科技的飛速進(jìn)步和行業(yè)需求的不斷變化，嘉立創(chuàng)EDA深刻認(rèn)識(shí)到，只有與高校緊密合作，才能培養(yǎng)出更多符合市場(chǎng)需

?電子設(shè)計(jì) ?高校合作 ?人才培養(yǎng)
內(nèi)部員工稱蘋果AI至少落后2年：ChatGPT準(zhǔn)確率比Siri高出約25%

在最新一期的PowerOn節(jié)目中，MarkGurman透露，蘋果公司內(nèi)部員工普遍認(rèn)為，蘋果在人工智能領(lǐng)域的發(fā)展落后于行業(yè)領(lǐng)導(dǎo)者大約兩年時(shí)間。蘋果的內(nèi)部研究顯示，與蘋果的Siri相比，ChatGPT的準(zhǔn)確率要高出大約25%，并且能夠回答的問題也多出約30%。盡管目前蘋果在AI技術(shù)上可能存在一些差距，但公司正致力于通過創(chuàng)新和改進(jìn)來縮小這一差距，并為用戶帶來更加智能化的產(chǎn)品和服務(wù)。

?蘋果 ?人工智能 ?Siri
全球高校數(shù)據(jù)科學(xué)日：與知名高校教授探索數(shù)據(jù)科學(xué)與AI前沿技術(shù)

全球高校數(shù)據(jù)科學(xué)日推動(dòng)更好的數(shù)據(jù)驅(qū)動(dòng)決策11月7日下午4:00丨全球直播會(huì)議作為全球計(jì)算智能的領(lǐng)導(dǎo)者，Altair致力于消除數(shù)據(jù)挖掘的技術(shù)壁壘，構(gòu)建高效的數(shù)據(jù)分析與AI平臺(tái)。Altair每年舉辦全球數(shù)據(jù)科學(xué)日直播會(huì)議。公司總部位于美國(guó)密歇根州，服務(wù)于16000多家全球企業(yè)，應(yīng)用行業(yè)包括汽車、消費(fèi)電子、航空航天、能源、機(jī)車車輛、造船、國(guó)防軍工、金融、零售等。

?全球高校 ?數(shù)據(jù)科學(xué)日 ?數(shù)據(jù)驅(qū)動(dòng)決策
薦AI日?qǐng)?bào)：快手推“可靈AI”獨(dú)立APP；百度將推AI智能眼鏡；智譜AI開源CogVideoX v1.5并上線“新清影”；Krea AI上線Lora訓(xùn)練功能

歡迎來到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、快手推出“可靈AI”獨(dú)立APP加碼移動(dòng)端AI創(chuàng)作布局快手最近推出了“可靈AI”獨(dú)立APP，致力于在移動(dòng)端擴(kuò)展AI創(chuàng)作領(lǐng)域。用戶可以享受到更愉悅和個(gè)性化的電子郵件管理體驗(yàn)。

?人工智能 ?AI產(chǎn)品 ?移動(dòng)端創(chuàng)作
向佐回應(yīng)頭像被用來拍照簽到高校：說不讓用一定不會(huì)用

10月22日，向佐JackyHeung在社交媒體上發(fā)表了一則聲明，表達(dá)了他對(duì)河南鄭州西亞斯學(xué)院的深厚感情。他提到自己曾訪問過這所大學(xué)，并對(duì)其有著良好的印象。如果向佐不希望使用他的形象，學(xué)校將嚴(yán)格遵守這一點(diǎn)，并會(huì)依法依規(guī)進(jìn)行處理。

?向佐聲明 ?河南鄭州西亞斯學(xué)院 ?學(xué)校問題
高校老師讓學(xué)生模仿向佐摸鼻梁簽到學(xué)生：老師的課充滿樂趣

10月16日，在河南鄭州，一位高校老師以一種新穎幽默的方式讓學(xué)生模仿演員向佐標(biāo)志性的摸鼻梁動(dòng)作進(jìn)行簽到，這一趣味橫生的教學(xué)方法在網(wǎng)上引發(fā)了網(wǎng)友的廣泛關(guān)注和討論。他們的英語老師非常幽默，上她的課總是充滿了樂趣。一些高校甚至將向佐的這一經(jīng)典形象用于課堂簽到各地文旅官方賬號(hào)也利用這一熱點(diǎn)進(jìn)行宣傳，引發(fā)了網(wǎng)友的廣泛關(guān)注和討論。

?高校教學(xué) ?幽默教育 ?英語課堂
薦長(zhǎng)視頻，陷入「產(chǎn)能過?！勾髸r(shí)代

2024年步入最后一個(gè)季度。相比上半年，在頭部劇集戰(zhàn)績(jī)斐然的帶領(lǐng)之下，長(zhǎng)視頻實(shí)現(xiàn)一片喧囂從暑期檔開始的下半年就明顯能感覺到長(zhǎng)視頻的疲軟，即便是吸引了大部分注意力的奧運(yùn)會(huì)已經(jīng)過去兩個(gè)多月時(shí)間，依然沒有太多能夠引發(fā)話題的長(zhǎng)視頻內(nèi)容出現(xiàn)。畢竟這個(gè)時(shí)代最不缺的便是內(nèi)容如何更多維度的聚焦內(nèi)容不同面向才是唯一能讓長(zhǎng)視頻做到區(qū)別于其他渠道的生存之道。

?長(zhǎng)視頻 ?劇集市場(chǎng) ?內(nèi)容疲軟

Editor Usage:監(jiān)控和管理您的Cursor編輯器使用情況

Editor Usage 是一款為macOS設(shè)計(jì)的菜單欄應(yīng)用程序，旨在幫助用戶監(jiān)控和管理他們的Cursor編輯器使用情況。該應(yīng)用程序能夠追蹤高級(jí)、普通和特殊請(qǐng)求的使用情況，并在接近使用限制時(shí)提供警告。它允許用戶從菜單欄快速查看剩余的請(qǐng)求次數(shù)，從而確保用戶始終了解他們的使用情況，并避免因超出限制而受到影響。這款應(yīng)用的主要優(yōu)點(diǎn)包括詳細(xì)的使用監(jiān)控、可定制的警告設(shè)置以及快速便捷的訪問方式。它適合需要管理多個(gè)項(xiàng)目或希望實(shí)時(shí)監(jiān)控請(qǐng)求使用情況的用戶。

監(jiān)控管理編輯器

Yepic Studio:在線視頻制作平臺(tái)，提供AI虛擬形象和視頻制作服務(wù)。

Yepic Studio是一個(gè)在線視頻制作平臺(tái)，它通過使用人工智能技術(shù)，允許用戶創(chuàng)建和編輯視頻內(nèi)容，包括制作會(huì)說話的照片視頻、專業(yè)視頻以及AI虛擬形象。該平臺(tái)的主要優(yōu)點(diǎn)在于能夠快速生成高質(zhì)量的視頻內(nèi)容，同時(shí)提供個(gè)性化的AI虛擬形象，滿足不同商業(yè)需求。產(chǎn)品背景信息顯示，Yepic Studio旨在為內(nèi)容創(chuàng)作者和企業(yè)提供一個(gè)簡(jiǎn)單易用的在線視頻制作工具，以提高內(nèi)容生產(chǎn)的效率和質(zhì)量。關(guān)于價(jià)格，頁(yè)面顯示用戶為'Guest'且'Credits'為0，暗示可能有免費(fèi)試用或基礎(chǔ)免費(fèi)服務(wù)，具體定價(jià)需進(jìn)一步查看。

視頻編輯 AI虛擬形象在線視頻制作

Jumper:是一個(gè)強(qiáng)大的AI視頻搜索工具，幫助編輯者快速找到視頻素材。

Jumper是一個(gè)專為視頻編輯者設(shè)計(jì)的AI搜索工具，它能夠讓用戶在眨眼間搜索自己的視頻素材。Jumper集成到了用戶的非線性編輯器（NLE）中，無需離開編輯工作流程即可找到所需素材。Jumper支持多語言搜索，能夠快速定位特定詞匯或短語在視頻中的位置，支持多機(jī)位和同步剪輯，并且完全在設(shè)備上運(yùn)行，保護(hù)用戶隱私，無需上傳素材至云端。Jumper的主要優(yōu)點(diǎn)包括快速搜索、完全離線工作、保護(hù)隱私和兼容性強(qiáng)。產(chǎn)品背景信息顯示，Jumper由Witchcraft Software AB開發(fā)，旨在通過AI技術(shù)提高視頻編輯的效率和創(chuàng)造力。

AI 視頻編輯搜索

CogVideoX1.5-5B-SAT:開源視頻生成模型，支持10秒視頻和更高分辨率。

CogVideoX1.5-5B-SAT是由清華大學(xué)知識(shí)工程與數(shù)據(jù)挖掘團(tuán)隊(duì)開發(fā)的開源視頻生成模型，是CogVideoX模型的升級(jí)版。該模型支持生成10秒視頻，并支持更高分辨率的視頻生成。模型包含Transformer、VAE和Text Encoder等模塊，能夠根據(jù)文本描述生成視頻內(nèi)容。CogVideoX1.5-5B-SAT模型以其強(qiáng)大的視頻生成能力和高分辨率支持，為視頻內(nèi)容創(chuàng)作者提供了一個(gè)強(qiáng)大的工具，尤其在教育、娛樂和商業(yè)領(lǐng)域有著廣泛的應(yīng)用前景。

視頻生成文本到視頻高分辨率

Ask The Post AI:華盛頓郵報(bào)的AI問答產(chǎn)品

Ask The Post AI是華盛頓郵報(bào)推出的一款基于人工智能的產(chǎn)品，它允許讀者就自2016年以來發(fā)布的所有報(bào)道提出問題。該產(chǎn)品利用生成式AI技術(shù)和對(duì)話格式，依托華盛頓郵報(bào)長(zhǎng)期以來基于事實(shí)、深入報(bào)道的新聞傳統(tǒng)，以新的方式取悅并通知讀者。Ask The Post AI通過機(jī)器學(xué)習(xí)團(tuán)隊(duì)對(duì)Climate Answers工具的數(shù)據(jù)進(jìn)行提煉，優(yōu)化了如何檢索和匹配自2016年以來新聞室發(fā)布的所有報(bào)道中與用戶查詢相關(guān)的相關(guān)文章。

AI 問答新聞

Mistral Moderation API:AI內(nèi)容審核服務(wù)，保護(hù)下游部署安全。

Mistral Moderation API是Mistral AI推出的內(nèi)容審核服務(wù)，旨在幫助用戶檢測(cè)和過濾不受歡迎的文本內(nèi)容。該API是Le Chat中使用的審核服務(wù)的同一技術(shù)，現(xiàn)在對(duì)外開放，以便用戶可以根據(jù)特定的應(yīng)用和安全標(biāo)準(zhǔn)定制和使用這一工具。該模型是一個(gè)基于LLM（大型語言模型）的分類器，能夠?qū)⑽谋据斎敕诸惖?個(gè)預(yù)定義的類別中。Mistral AI的這一API支持原生多語言，特別針對(duì)阿拉伯語、中文、英語、法語、德語、意大利語、日語、韓語、葡萄牙語、俄語和西班牙語進(jìn)行了訓(xùn)練。該API的主要優(yōu)點(diǎn)包括提高審核的可擴(kuò)展性和魯棒性，以及通過技術(shù)文檔提供的詳細(xì)政策定義和啟動(dòng)指南，幫助用戶有效實(shí)施系統(tǒng)級(jí)的安全防護(hù)。

內(nèi)容審核 AI 多語言支持

Medio AI:AI編輯工具，助力企業(yè)視頻營(yíng)銷本地化。

Medio AI是一個(gè)為企業(yè)提供AI編輯工具的平臺(tái)，專注于視頻翻譯和視頻配音，幫助企業(yè)無畏全球擴(kuò)張，實(shí)現(xiàn)視頻營(yíng)銷的本地化。產(chǎn)品背景信息顯示，Medio AI旨在幫助企業(yè)探索更多海外市場(chǎng)，通過AI技術(shù)提升視頻編輯效率，增強(qiáng)產(chǎn)品在國(guó)際市場(chǎng)上的競(jìng)爭(zhēng)力。產(chǎn)品的主要優(yōu)點(diǎn)包括無需下載、在線使用、一鍵去除視頻水印、產(chǎn)品翻譯、視頻配音等。價(jià)格方面，Medio AI提供免費(fèi)試用，并根據(jù)不同的功能需求提供不同的付費(fèi)版本。

AI編輯視頻營(yíng)銷本地化

PodExtra AI:釋放播客的力量，用AI提升播客收聽體驗(yàn)

PodExtra AI是一款先進(jìn)的AI工具，專為播客收聽和知識(shí)獲取設(shè)計(jì)。它通過生成播客內(nèi)容的摘要、思維導(dǎo)圖、大綱、亮點(diǎn)和要點(diǎn)，幫助用戶快速把握播客的核心內(nèi)容。產(chǎn)品背景信息顯示，播客愛好者平均每周消費(fèi)超過8集，全球有超過400萬的節(jié)目可供選擇。PodExtra AI通過AI技術(shù)，使得用戶能夠快速瀏覽內(nèi)容，節(jié)省時(shí)間，提高效率。產(chǎn)品定位于幫助用戶從海量播客內(nèi)容中快速獲取有價(jià)值的信息，特別適合時(shí)間緊張但希望從播客中獲取知識(shí)的人群。

播客 AI 知識(shí)管理

語鯨:，智能語言處理平臺(tái)

語鯨是一個(gè)專注于語言處理的平臺(tái)，它利用先進(jìn)的自然語言處理技術(shù)，為用戶提供文本分析、翻譯、校對(duì)等服務(wù)。產(chǎn)品背景信息顯示，語鯨旨在幫助用戶提高寫作效率和質(zhì)量，特別是在多語言環(huán)境中。語鯨的價(jià)格定位尚未明確，但考慮到其提供的服務(wù)，可能會(huì)有免費(fèi)試用和付費(fèi)版本。

自然語言處理文本分析翻譯

CR-Mentor:AI驅(qū)動(dòng)的代碼審查導(dǎo)師，提升代碼質(zhì)量和審查效率。

CR-Mentor AI CodeReview Mentor是一個(gè)基于人工智能的代碼審查工具，它通過積累的最佳實(shí)踐知識(shí)庫(kù)和大型語言模型（LLM）分析，為主流編程語言提供智能代碼審查。該產(chǎn)品支持自定義的代碼審查標(biāo)準(zhǔn)，能夠?yàn)閱蝹€(gè)文件代碼變更提供專業(yè)評(píng)分和改進(jìn)建議，并通過LLM生成全面的審查報(bào)告，包括代碼走查、變更描述和時(shí)序圖。它與GitHub工作流程深度集成，實(shí)現(xiàn)自動(dòng)化代碼審查，支持多語言反饋，幫助整個(gè)團(tuán)隊(duì)提升代碼質(zhì)量和審查效率。

代碼審查人工智能 GitHub集成

Srcbook:開源、自托管、AI驅(qū)動(dòng)的應(yīng)用構(gòu)建器。

Srcbook是一個(gè)開源、自托管的AI驅(qū)動(dòng)應(yīng)用構(gòu)建器，它允許用戶快速構(gòu)建和部署各種應(yīng)用程序。產(chǎn)品背景信息顯示，Srcbook旨在提供一個(gè)平臺(tái)，讓開發(fā)者和非技術(shù)用戶都能夠輕松地構(gòu)建應(yīng)用程序，從而提高生產(chǎn)力和創(chuàng)新能力。它支持多種應(yīng)用場(chǎng)景，如項(xiàng)目管理工具、音樂發(fā)現(xiàn)頁(yè)面、技術(shù)文檔網(wǎng)站等。Srcbook的主要優(yōu)點(diǎn)包括開源性、靈活性和易用性，用戶可以根據(jù)自己的需求定制和擴(kuò)展功能。

開源自托管 AI

ReCapture:用戶視頻的生成性視頻攝像機(jī)控制

ReCapture是一種從單一用戶提供的視頻生成新視頻和新穎攝像機(jī)軌跡的方法。該技術(shù)允許我們從完全不同的角度重新生成源視頻，并帶有電影級(jí)別的攝像機(jī)運(yùn)動(dòng)。ReCapture通過使用多視圖擴(kuò)散模型或基于深度的點(diǎn)云渲染生成帶有新攝像機(jī)軌跡的嘈雜錨視頻，然后通過我們提出的掩蔽視頻微調(diào)技術(shù)將錨視頻重新生成為干凈且時(shí)間上一致的重新角度視頻。這種技術(shù)的重要性在于它能夠利用視頻模型的強(qiáng)大先驗(yàn)，將近似的視頻重新生成為時(shí)間上一致且美觀的視頻。

視頻生成攝像機(jī)控制多視圖擴(kuò)散模型

AI Tattoo Generator.net:快速創(chuàng)建個(gè)性化紋身設(shè)計(jì)

AI Tattoo Generator是一個(gè)利用人工智能技術(shù)幫助用戶快速創(chuàng)建個(gè)性化紋身設(shè)計(jì)的在線平臺(tái)。該平臺(tái)使用先進(jìn)的機(jī)器學(xué)習(xí)算法，根據(jù)用戶輸入生成具有各種風(fēng)格的現(xiàn)實(shí)感紋身概念圖，確保用戶的想法以視覺上引人入勝的方式呈現(xiàn)。它不僅能夠提供即時(shí)的設(shè)計(jì)結(jié)果，還能讓用戶根據(jù)自己的偏好進(jìn)一步定制和細(xì)化設(shè)計(jì)，滿足個(gè)性化需求。

AI設(shè)計(jì) 紋身個(gè)性化

Unfaked:AI生成的逼真圖片庫(kù)

Unfaked是一個(gè)提供由人工智能生成的逼真圖片的網(wǎng)站，這些圖片幾乎可以以假亂真。用戶可以免費(fèi)下載并自由使用這些圖片。每周都會(huì)更新更多的圖片。這個(gè)平臺(tái)的重要性在于它為設(shè)計(jì)師、內(nèi)容創(chuàng)作者和營(yíng)銷人員提供了一個(gè)免費(fèi)的資源庫(kù)，他們可以在這里找到高質(zhì)量的圖片資源，而無需擔(dān)心版權(quán)問題。

AI生成免費(fèi)圖片版權(quán)免費(fèi)

ComfyUI-GIMM-VFI:基于GIMM-VFI的ComfyUI幀插值工具

ComfyUI-GIMM-VFI是一個(gè)基于GIMM-VFI算法的幀插值工具，使用戶能夠在圖像和視頻處理中實(shí)現(xiàn)高質(zhì)量的幀插值效果。該技術(shù)通過在連續(xù)幀之間插入新的幀來提高視頻的幀率，從而使得動(dòng)作看起來更加流暢。這對(duì)于視頻游戲、電影后期制作和其他需要高幀率視頻的應(yīng)用場(chǎng)景尤為重要。產(chǎn)品背景信息顯示，它是基于Python開發(fā)的，并且依賴于CuPy庫(kù)，特別適用于需要進(jìn)行高性能計(jì)算的場(chǎng)景。

幀插值視頻處理圖像處理

5ire:簡(jiǎn)單易用，釋放AI的強(qiáng)大力量

5ire是一個(gè)以簡(jiǎn)潔和用戶友好為核心的AI產(chǎn)品，旨在讓即使是初學(xué)者也能輕松利用大型語言模型。它支持多種文檔格式的解析和向量化，具備本地知識(shí)庫(kù)、使用分析、提示庫(kù)、書簽和快速關(guān)鍵詞搜索等功能。作為一個(gè)開源項(xiàng)目，5ire提供免費(fèi)下載，并且提供了按需付費(fèi)的大型語言模型API服務(wù)。

AI 大型語言模型開源

AI Hear:一款在您電腦本地運(yùn)行的私有軟件，提供多語種實(shí)時(shí)翻譯。

AI Hear是一款在電腦本地運(yùn)行的私有軟件，它通過一鍵開啟多語種實(shí)時(shí)翻譯功能，幫助用戶管理音頻、譯文和時(shí)間軸。產(chǎn)品不收集數(shù)據(jù)，保護(hù)用戶隱私。它適用于多種場(chǎng)景，如線上會(huì)議、網(wǎng)課播客、游戲直播等，并且完全本地運(yùn)行，相比市面上的實(shí)時(shí)翻譯產(chǎn)品更具性價(jià)比。

實(shí)時(shí)翻譯音頻管理隱私保護(hù)

SD Image:使用最新的Stable Diffusion 3.5模型生成高質(zhì)量圖像。

SD Image的Stable Diffusion 3.5 Image Generator是一個(gè)在線圖像生成器，它利用最新的Stable Diffusion 3.5模型，包括Medium, Large, Large Turbo，來生成高質(zhì)量的圖像。這項(xiàng)技術(shù)的重要性在于它能夠通過文本提示（prompt）快速生成圖像，為設(shè)計(jì)師、藝術(shù)家和創(chuàng)意工作者提供靈感和便利。產(chǎn)品背景信息顯示，SD Image是一個(gè)在線平臺(tái)，用戶可以通過它找到靈感、生成圖像、探索不同的prompt和模型。目前，該產(chǎn)品提供免費(fèi)試用，適合需要快速生成圖像的用戶。

圖像生成 AI藝術(shù) 創(chuàng)意工具

AI Homeworkify:下一代AI作業(yè)助手，免費(fèi)獲取作業(yè)答案

AI Homeworkify是一個(gè)基于人工智能的在線問答平臺(tái)，旨在幫助學(xué)生通過提供詳細(xì)的答案和解題步驟來學(xué)習(xí)和理解各種學(xué)術(shù)問題。該平臺(tái)不涉及版權(quán)侵犯，注重教育平等，提供免費(fèi)、即時(shí)的作業(yè)幫助，支持多種學(xué)科和語言。AI Homeworkify的主要優(yōu)點(diǎn)包括完全免費(fèi)、無需注冊(cè)、即時(shí)答案、全天候服務(wù)、多設(shè)備兼容、隱私保護(hù)和逐步解決方案。產(chǎn)品背景信息顯示，AI Homeworkify致力于通過技術(shù)手段減少教育不平等，為全球?qū)W生提供免費(fèi)的優(yōu)質(zhì)學(xué)習(xí)輔助服務(wù)。

AI 教育作業(yè)幫助

AI Voice Lab:在線將文字轉(zhuǎn)換為逼真的語音

AI Voice Lab免費(fèi) AI 文字轉(zhuǎn)語音神器是一個(gè)利用最新的類GPT AI語音模型技術(shù)，提供超級(jí)逼真的配音結(jié)果，支持20+種語言和100+種聲音，每天提供免費(fèi)使用次數(shù)，適用于視頻、音頻制作等多種場(chǎng)景，提高內(nèi)容吸引力。

AI語音文字轉(zhuǎn)語音配音

今日大家都在搜的詞：

熱文

3 天
7天

站長(zhǎng)商機(jī)

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

一張顯卡看遍天下電影！智源聯(lián)合高校開源Video-XL打破長(zhǎng)視頻理解極限，95%準(zhǔn)確率刷爆紀(jì)錄