智譜AI的AutoGLM后，Google和微軟也下場(chǎng)來(lái)做“賈維斯”了。

2024-10-30 13:47 · 稿源：數(shù)字生命卡茲克公眾號(hào)

聲明:本文來(lái)自于微信公眾號(hào) 數(shù)字生命卡茲克，授權(quán)站長(zhǎng)之家轉(zhuǎn)載發(fā)布。

昨天，微軟忽然發(fā)布了一個(gè)新的模型，能夠用于網(wǎng)頁(yè)自動(dòng)化操作。

他們也正式開卷跟智譜AutoGLM一樣自主人工智能了。

而前天，我也在The Information網(wǎng)站上看到一個(gè)消息:

標(biāo)題Google Preps AI That Takes Over Computers，翻譯過(guò)來(lái)就是:

谷歌準(zhǔn)備推出接管計(jì)算機(jī)的人工智能。

上周三Claude、周五智譜AI、周末Google，然后微軟。

短短一周內(nèi)，已經(jīng)有四個(gè)公司爆出來(lái)要發(fā)布類似的產(chǎn)品了，其中三個(gè)已經(jīng)悄悄發(fā)布產(chǎn)品:Anthropic的Claude，智譜的AutoGLM和微軟的OmniParser。這些產(chǎn)品的能力有目共睹。

Goolge雖然也只是個(gè)爆料，但是大概率今年就能出來(lái)，非常心急，想把坑先占上。

而且，我知道的消息是，OpenAI內(nèi)部肯定也在做，就看什么時(shí)候掏出來(lái)了。

二級(jí)市場(chǎng)對(duì)于這種自主人工智能，反饋也非常的正。上周五智譜的AutoGLM出來(lái)之后，在金融圈直接爆了，連智譜AI概念股都出來(lái)了。

自主人工智能，好像瞬間點(diǎn)燃了AI圈的熱情。

又開啟了新一輪的用戶心智的搶占。

畢竟剛剛開卷，哪家最早發(fā)，哪家確實(shí)就是會(huì)有優(yōu)勢(shì)。

不過(guò)自主人工智能的熱度確實(shí)有點(diǎn)超乎了我的想象。

不過(guò)也能理解，類似于這種你發(fā)個(gè)指令他就會(huì)全自動(dòng)化去處理的AI，才符合我們對(duì)人工智能的真正的期待，才有一點(diǎn)，那種AI變成現(xiàn)實(shí)的感覺。

現(xiàn)在的AI，坦率的講，雖然有一些智能，但是遠(yuǎn)遠(yuǎn)離不開人工，完全沒有達(dá)到解放雙手的目的，絕大多數(shù)時(shí)候都是“人工”+“智能”。

而且對(duì)于各家AI公司來(lái)說(shuō)，底層模型的能力已經(jīng)卷到一定的瓶頸了，看現(xiàn)在大模型的一些榜單，大家也一點(diǎn)不關(guān)心了。

需要一些更科幻的，更新鮮的刺激。

所以這個(gè)時(shí)候，自主人工智能過(guò)來(lái)接棒，就很香。

而自主人工智能完成任務(wù)的一個(gè)大致流程是:

理解用戶的需求-》系統(tǒng)規(guī)劃-》調(diào)用工具執(zhí)行任務(wù)-》目標(biāo)完成

這個(gè)流程看起來(lái)其實(shí)不復(fù)雜。

一年多前，就有人在做了，最經(jīng)典的那個(gè)項(xiàng)目，github上狂攬十六萬(wàn)星的噬星狂魔AutoGPT。

但是AutoGPT到后面開始沉寂，其實(shí)有個(gè)很大的問(wèn)題，就是完全基于大語(yǔ)言模型做的。

這個(gè)就有很多的局限性。

比如，純粹的語(yǔ)言模型只能處理文本，而現(xiàn)在很多任務(wù)比如點(diǎn)外賣，打車都需要讀取屏幕信息。大語(yǔ)言模型本身不能直接處理，往往需要多加一步將圖片轉(zhuǎn)換為文本輸入。

而圖片轉(zhuǎn)換為文字后，對(duì)于大語(yǔ)言模型又會(huì)丟失很多信息。

好比你被蒙著雙眼，只是語(yǔ)言告訴你屋里有些什么，無(wú)論語(yǔ)言描述多么細(xì)節(jié)，你想象力多么豐富，腦海里都無(wú)法還原得與真實(shí)一模一樣。

模型的可控性比較差，模型就容易懵逼，導(dǎo)致任務(wù)中斷，或干脆給你隨機(jī)發(fā)揮，聽天由命。

所以AutoGPT能做到的事情還是比較少，效果也沒有那么好，慢慢就淡出大家的視野了。

直到最近這波新的自主人工智能浪潮。

但是我也挺好奇一個(gè)問(wèn)題，就是這將近一年半的時(shí)間，自主人工智能為啥都什么消息，直到最近，才開始密集發(fā)聲?

是各家都在卷其他賽道，無(wú)暇顧及，還是都在做，只不過(guò)遇到了瓶頸，最近才有所突破?

我就去密集咨詢幾家國(guó)內(nèi)AI大廠的朋友。

其實(shí)大家口徑也都出奇的一致。

就是大家都在穩(wěn)步推進(jìn)，只是最近剛好到了一個(gè)可以拿出來(lái)用的時(shí)間點(diǎn)，而且大家的進(jìn)展其實(shí)也沒有差異太多。

而這一年半，自主人工智能沒咋出現(xiàn)在公眾視野，看起來(lái)進(jìn)展很緩慢的樣子，其實(shí)有兩個(gè)最主要的原因。

多模態(tài)模型不夠成熟。

2. 缺太多行為數(shù)據(jù)了。

第一個(gè)點(diǎn)其實(shí)很好理解。

就是你不能讓模型蒙著眼睛去規(guī)劃任務(wù)，他都不知道屏幕上面的元素長(zhǎng)啥樣，純粹靠文字來(lái)描述，這個(gè)效果肯定很差。

所以推進(jìn)這塊，必須要有很強(qiáng)的多模態(tài)模型的基座能力作為基礎(chǔ)。

而多模態(tài)的模型，訓(xùn)起來(lái)其實(shí)就比純粹的大語(yǔ)言模型復(fù)雜多了。數(shù)據(jù)量、資源的消耗都是指數(shù)級(jí)增長(zhǎng)。本身就是慢，連Claude都是今年3月才上線多模態(tài)能力的。

所以在模型基座上，就是會(huì)很拖沓，這個(gè)是客觀的事實(shí)，不過(guò)最近幾個(gè)月，大家的多模態(tài)模型已經(jīng)基本都能用了，所以基座模型層面，其實(shí)就是剛好到了一個(gè)節(jié)點(diǎn)。

去調(diào)研的智譜的大佬，也給出了我們同樣的答案。

第二個(gè)原因，其實(shí)就是數(shù)據(jù)上。

雖然互聯(lián)網(wǎng)包含大量的人類知識(shí)，但主要由靜態(tài)信息（圖片、文字）組成，這些靜態(tài)信息無(wú)法反應(yīng)一些動(dòng)態(tài)的過(guò)程。

比如，模型可以學(xué)習(xí)理解外賣界面上的脆皮炸雞是多少錢。因?yàn)榫W(wǎng)上有大量的靜態(tài)數(shù)據(jù)教會(huì)它錢是什么、能干什么。模型可以理解“錢是能買到炸雞的”。

但缺乏動(dòng)態(tài)數(shù)據(jù)教它怎么“找到美團(tuán)App，點(diǎn)開App，如何搜索脆皮炸雞，然后點(diǎn)擊下單”的這樣一個(gè)動(dòng)態(tài)過(guò)程。

這個(gè)其實(shí)就跟o1的那套推理的路很像，模型不僅要知道結(jié)果，還要知道其中的過(guò)程。

整個(gè)自主人工智能的操作路徑，其實(shí)就是一個(gè)多模態(tài)的巨型思維鏈。

o1和claude給大家打了個(gè)樣，證明了強(qiáng)化學(xué)習(xí)這條路是對(duì)的，那強(qiáng)化基座模型的推理能力是一個(gè)應(yīng)用方向，而做這種真正的Agent，又是一個(gè)強(qiáng)化學(xué)習(xí)應(yīng)用的典型場(chǎng)景。

一個(gè)偏基模，一個(gè)偏應(yīng)用。

而這套通過(guò)強(qiáng)化學(xué)習(xí)補(bǔ)充數(shù)據(jù)的范式，其實(shí)也就是今年3、4月以后，才逐漸形成的業(yè)內(nèi)共識(shí)。

所以，著就能解釋，為什么過(guò)去一年半的時(shí)候，這種自主人工智能一直沒啥進(jìn)展，直到最近才密集發(fā)聲，其實(shí)就是多模態(tài)基座和數(shù)據(jù)的原因。

最后，再簡(jiǎn)單說(shuō)說(shuō)AutoGLM這種能力，大概是怎么實(shí)現(xiàn)的，具體細(xì)節(jié)他們也都沒透露，我只能根據(jù)我的調(diào)研結(jié)果，進(jìn)行一些猜測(cè)，不過(guò)AutoGLM團(tuán)隊(duì)最近應(yīng)該會(huì)發(fā)個(gè)技術(shù)報(bào)告，到時(shí)候可以關(guān)注一下。

比如一個(gè)最簡(jiǎn)的例子，說(shuō):微信發(fā)送“今天瘋狂星期四V我50”的消息給鮮蝦包。

那么大模型拿到任務(wù)后，會(huì)一邊看當(dāng)前屏幕的界面，一邊利用思維鏈一步一步推理:

任務(wù)可以在當(dāng)前的UI界面下繼續(xù)進(jìn)行嗎?是的話進(jìn)行第2步，否的話就會(huì)思考“應(yīng)該打開什么界面”然后進(jìn)行下一步動(dòng)作。
分析當(dāng)前UI和最終任務(wù)的關(guān)系，分解成一步一步的動(dòng)作”

現(xiàn)在首先需要填充輸入框“今天瘋狂星期四V我50”
然后點(diǎn)擊“發(fā)送”

然后思考問(wèn)題是否最終被解決?如果是的話結(jié)束，如果否的話回到第1步繼續(xù)循環(huán)。

這一切，都建立在模型能看到屏幕，能理解屏幕上那些亂七八糟的元素的基礎(chǔ)上。他不僅需要復(fù)雜的規(guī)劃能力，還需要直到這個(gè)是按鈕，這個(gè)是單選控件，這個(gè)是表單，這個(gè)是開關(guān)等等。

而滑動(dòng)這個(gè)操作，反而是最麻煩的，人看起來(lái)很簡(jiǎn)單，是因?yàn)槿藢?duì)于UI界面，已經(jīng)有數(shù)十年的經(jīng)驗(yàn)了，滑動(dòng)本身就是預(yù)測(cè)的過(guò)程，我們根據(jù)我的經(jīng)驗(yàn)，大概能猜到這一屏如果沒有我要的信息，那他可能是在下一屏。

所以我們會(huì)進(jìn)行一個(gè)滑動(dòng)操作，但是對(duì)于AI來(lái)說(shuō)，這個(gè)預(yù)測(cè)，反而是最難的。

所以后面，需要繼續(xù)灌數(shù)據(jù)，灌大量的行為性數(shù)據(jù)，形成泛化能力。

讓AI，有跟人類一樣的，UI常識(shí)，和對(duì)交互的可預(yù)測(cè)性。

雖然目前不是那么完美。

Claude的Computer Use和智譜的AutoGLM，都有自己的一堆問(wèn)題，也遠(yuǎn)遠(yuǎn)沒到一個(gè)算是完美產(chǎn)品的地步。

但這畢竟也只是剛剛開始。

當(dāng)一切路徑明確。

兩個(gè)月時(shí)間。

可能，一切就變天了。

（舉報(bào)）

相關(guān)推薦
大家在看

關(guān)鍵詞：

【騰訊云】11.11云上盛惠！云服務(wù)器首年1.8折起，買1年送3個(gè)月！

11.11云上盛惠！海量產(chǎn)品 · 輕松上云！云服務(wù)器首年1.8折起，買1年送3個(gè)月！超值優(yōu)惠，性能穩(wěn)定，讓您的云端之旅更加暢享?？靵?lái)騰訊云選購(gòu)吧！

Docker容器鏡像
去看看

Docker容器鏡像 60元/15天

爆款產(chǎn)品組合購(gòu)
去看看

爆款產(chǎn)品組合購(gòu) 低至1元

騰訊云x NVIDIA加速計(jì)劃
去看看

騰訊云x NVIDIA加速計(jì)劃最高獲贈(zèng)10萬(wàn)元扶持基金

2核2G云服務(wù)器
去看看

2核2G云服務(wù)器 112元/1年

查看更多相關(guān)信息>>

騰訊云 12-20

廣告
薦AI日?qǐng)?bào)：AutoGLM智能體可自動(dòng)幫點(diǎn)外賣；敏神重磅更新Flux版ic-light模型；字節(jié)跳動(dòng)PersonaTalk讓AI精準(zhǔn)配音

歡迎來(lái)到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、智譜AI推出AutoGLM智能體:輸入指令即可模擬人類操作手機(jī)智譜技術(shù)團(tuán)隊(duì)最近推出了基于GLM技術(shù)團(tuán)隊(duì)研究成果的新產(chǎn)品AutoGLM，這是一個(gè)智能體，能夠模擬人類操作手機(jī)執(zhí)行各種任務(wù)?

?AutoGLM
薦智譜AI上線4K60幀“新清影”，還要直接開源，我覺得他們瘋了。

智譜宣布全新迭代的AI視頻模型“新清影”，正式上線。10s、4k、60幀能自帶生成挺匹配的AI音效。

?智譜AI ?新清影
微軟正式確認(rèn)！郵件和日歷應(yīng)用今年底停用：用新版Outlook

微軟一直在推動(dòng)用戶從郵件和日歷”應(yīng)用遷移到新版Outlook，并已采取多種方式推動(dòng)這一轉(zhuǎn)變。日前微軟正式確認(rèn)，其郵件和日歷”應(yīng)用將于2024年12月31日停止服務(wù)，用戶將無(wú)法再使用這款應(yīng)用。微軟還是在推廣這款不受歡迎的應(yīng)用，對(duì)于不少人言，轉(zhuǎn)向第三方電子郵件客戶端可能是比新版Outlook更好的選擇。

?微軟 ?Outlook ?郵件和日歷
薦AI日?qǐng)?bào)：特斯拉無(wú)人駕駛出租Cybercab驚艷亮相；Kimi探索版開啟內(nèi)測(cè)；智譜AI搜索重磅升級(jí)

歡迎來(lái)到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、特斯拉推出Cybercab、Robovan車型:無(wú)油門、方向盤售價(jià)低于3萬(wàn)特斯拉在“WE，ROBOT”發(fā)布會(huì)上推出了令人驚艷的Cybercab和Robovan車型，標(biāo)志著無(wú)人駕駛出租車的新時(shí)代。該技術(shù)利用獨(dú)特的擴(kuò)散模型逆繪畫方法，模擬人類藝術(shù)家的創(chuàng)作過(guò)程，引發(fā)了廣泛關(guān)注。

?Cybercab
微軟官方確認(rèn)！經(jīng)典版Outlook存Bug：打開郵件過(guò)多就會(huì)崩潰

微軟近日確認(rèn)了經(jīng)典版Outlook存在的一個(gè)問(wèn)題，當(dāng)用戶同時(shí)打開超過(guò)60封電子郵件時(shí)，可能會(huì)導(dǎo)致程序崩潰。這一問(wèn)題雖然可能并不常見，但對(duì)于需要經(jīng)常處理大量郵件的用戶言，也是一個(gè)不小的困擾。也可以通過(guò)regedit修改USERProcessHandleQuota的注冊(cè)表值來(lái)避免這個(gè)問(wèn)題，其位置為：\HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\WindowsNT\CurrentVersion\Windows其默認(rèn)值為10000”，將其更改為18000”可以理論

?微軟 ?Outlook ?電子郵件
薦AI日?qǐng)?bào)：快手推“可靈AI”獨(dú)立APP；百度將推AI智能眼鏡；智譜AI開源CogVideoX v1.5并上線“新清影”；Krea AI上線Lora訓(xùn)練功能

歡迎來(lái)到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、快手推出“可靈AI”獨(dú)立APP加碼移動(dòng)端AI創(chuàng)作布局快手最近推出了“可靈AI”獨(dú)立APP，致力于在移動(dòng)端擴(kuò)展AI創(chuàng)作領(lǐng)域。用戶可以享受到更愉悅和個(gè)性化的電子郵件管理體驗(yàn)。

?人工智能 ?AI產(chǎn)品 ?移動(dòng)端創(chuàng)作
?微軟宣布：郵件和日歷應(yīng)用將于 2024 年年底停止服務(wù)，轉(zhuǎn)向新版 Outlook

微軟正式確認(rèn)，其郵件和日歷應(yīng)用將于2024年12月31日停止服務(wù)。這一決定標(biāo)志著微軟進(jìn)一步推動(dòng)用戶遷移到新版Outlook的戰(zhàn)略，該公司已經(jīng)采取多種措施來(lái)促進(jìn)這一轉(zhuǎn)變。微軟的這一決定不僅影響到現(xiàn)有的郵件和日歷應(yīng)用用戶，也對(duì)廣大希望通過(guò)電子郵件和日歷管理提高工作效率的用戶提出了新的挑戰(zhàn)。

?微軟郵件應(yīng)用 ?Outlook遷移 ?郵件和日歷停止服務(wù)
薦谷歌版賈維斯即將問(wèn)世，最強(qiáng)Gemini 2.0加持！AI自主操控電腦時(shí)代來(lái)臨

【新智元導(dǎo)讀】科幻中的賈維斯，已經(jīng)離我們不遠(yuǎn)了。Claude3.5接管人類電腦掀起了人機(jī)交互全新范式，爆料稱谷歌同類ProjectJarvis預(yù)計(jì)年底亮相。模型能夠很好地理解和處理移動(dòng)設(shè)備上的用戶界面，即使在沒有額外訓(xùn)練數(shù)據(jù)的情況下也能表現(xiàn)出色。

?Gemini
薦大廠做AI，卷到哪兒了？

距離ChatGPT的誕生過(guò)去了近兩年，期待中的AIGC時(shí)代不僅沒能爆發(fā)，似乎還有了降溫的趨勢(shì)。近期AI圈被熱議的事件之一便是，有AI初創(chuàng)公司傳出“不再大力度投入大模型，轉(zhuǎn)做賺錢的AI應(yīng)用產(chǎn)品”的消息。*應(yīng)受訪者要求，文中秦宇為化名。

?AI
薦做AI捏捏，享賽博解壓。

我最近的短視頻平臺(tái)，就是一個(gè)巨大的賽博解壓聚集地。光是這兩天，我一打開小紅書和抖音，就又雙叒叕看到了一堆AI捏捏視頻。

?AI捏捏

Editor Usage:監(jiān)控和管理您的Cursor編輯器使用情況

Editor Usage 是一款為macOS設(shè)計(jì)的菜單欄應(yīng)用程序，旨在幫助用戶監(jiān)控和管理他們的Cursor編輯器使用情況。該應(yīng)用程序能夠追蹤高級(jí)、普通和特殊請(qǐng)求的使用情況，并在接近使用限制時(shí)提供警告。它允許用戶從菜單欄快速查看剩余的請(qǐng)求次數(shù)，從而確保用戶始終了解他們的使用情況，并避免因超出限制而受到影響。這款應(yīng)用的主要優(yōu)點(diǎn)包括詳細(xì)的使用監(jiān)控、可定制的警告設(shè)置以及快速便捷的訪問(wèn)方式。它適合需要管理多個(gè)項(xiàng)目或希望實(shí)時(shí)監(jiān)控請(qǐng)求使用情況的用戶。

監(jiān)控管理編輯器

Yepic Studio:在線視頻制作平臺(tái)，提供AI虛擬形象和視頻制作服務(wù)。

Yepic Studio是一個(gè)在線視頻制作平臺(tái)，它通過(guò)使用人工智能技術(shù)，允許用戶創(chuàng)建和編輯視頻內(nèi)容，包括制作會(huì)說(shuō)話的照片視頻、專業(yè)視頻以及AI虛擬形象。該平臺(tái)的主要優(yōu)點(diǎn)在于能夠快速生成高質(zhì)量的視頻內(nèi)容，同時(shí)提供個(gè)性化的AI虛擬形象，滿足不同商業(yè)需求。產(chǎn)品背景信息顯示，Yepic Studio旨在為內(nèi)容創(chuàng)作者和企業(yè)提供一個(gè)簡(jiǎn)單易用的在線視頻制作工具，以提高內(nèi)容生產(chǎn)的效率和質(zhì)量。關(guān)于價(jià)格，頁(yè)面顯示用戶為'Guest'且'Credits'為0，暗示可能有免費(fèi)試用或基礎(chǔ)免費(fèi)服務(wù)，具體定價(jià)需進(jìn)一步查看。

視頻編輯 AI虛擬形象在線視頻制作

Jumper:是一個(gè)強(qiáng)大的AI視頻搜索工具，幫助編輯者快速找到視頻素材。

Jumper是一個(gè)專為視頻編輯者設(shè)計(jì)的AI搜索工具，它能夠讓用戶在眨眼間搜索自己的視頻素材。Jumper集成到了用戶的非線性編輯器（NLE）中，無(wú)需離開編輯工作流程即可找到所需素材。Jumper支持多語(yǔ)言搜索，能夠快速定位特定詞匯或短語(yǔ)在視頻中的位置，支持多機(jī)位和同步剪輯，并且完全在設(shè)備上運(yùn)行，保護(hù)用戶隱私，無(wú)需上傳素材至云端。Jumper的主要優(yōu)點(diǎn)包括快速搜索、完全離線工作、保護(hù)隱私和兼容性強(qiáng)。產(chǎn)品背景信息顯示，Jumper由Witchcraft Software AB開發(fā)，旨在通過(guò)AI技術(shù)提高視頻編輯的效率和創(chuàng)造力。

AI 視頻編輯搜索

CogVideoX1.5-5B-SAT:開源視頻生成模型，支持10秒視頻和更高分辨率。

CogVideoX1.5-5B-SAT是由清華大學(xué)知識(shí)工程與數(shù)據(jù)挖掘團(tuán)隊(duì)開發(fā)的開源視頻生成模型，是CogVideoX模型的升級(jí)版。該模型支持生成10秒視頻，并支持更高分辨率的視頻生成。模型包含Transformer、VAE和Text Encoder等模塊，能夠根據(jù)文本描述生成視頻內(nèi)容。CogVideoX1.5-5B-SAT模型以其強(qiáng)大的視頻生成能力和高分辨率支持，為視頻內(nèi)容創(chuàng)作者提供了一個(gè)強(qiáng)大的工具，尤其在教育、娛樂(lè)和商業(yè)領(lǐng)域有著廣泛的應(yīng)用前景。

視頻生成文本到視頻高分辨率

Ask The Post AI:華盛頓郵報(bào)的AI問(wèn)答產(chǎn)品

Ask The Post AI是華盛頓郵報(bào)推出的一款基于人工智能的產(chǎn)品，它允許讀者就自2016年以來(lái)發(fā)布的所有報(bào)道提出問(wèn)題。該產(chǎn)品利用生成式AI技術(shù)和對(duì)話格式，依托華盛頓郵報(bào)長(zhǎng)期以來(lái)基于事實(shí)、深入報(bào)道的新聞傳統(tǒng)，以新的方式取悅并通知讀者。Ask The Post AI通過(guò)機(jī)器學(xué)習(xí)團(tuán)隊(duì)對(duì)Climate Answers工具的數(shù)據(jù)進(jìn)行提煉，優(yōu)化了如何檢索和匹配自2016年以來(lái)新聞室發(fā)布的所有報(bào)道中與用戶查詢相關(guān)的相關(guān)文章。

AI 問(wèn)答新聞

Mistral Moderation API:AI內(nèi)容審核服務(wù)，保護(hù)下游部署安全。

Mistral Moderation API是Mistral AI推出的內(nèi)容審核服務(wù)，旨在幫助用戶檢測(cè)和過(guò)濾不受歡迎的文本內(nèi)容。該API是Le Chat中使用的審核服務(wù)的同一技術(shù)，現(xiàn)在對(duì)外開放，以便用戶可以根據(jù)特定的應(yīng)用和安全標(biāo)準(zhǔn)定制和使用這一工具。該模型是一個(gè)基于LLM（大型語(yǔ)言模型）的分類器，能夠?qū)⑽谋据斎敕诸惖?個(gè)預(yù)定義的類別中。Mistral AI的這一API支持原生多語(yǔ)言，特別針對(duì)阿拉伯語(yǔ)、中文、英語(yǔ)、法語(yǔ)、德語(yǔ)、意大利語(yǔ)、日語(yǔ)、韓語(yǔ)、葡萄牙語(yǔ)、俄語(yǔ)和西班牙語(yǔ)進(jìn)行了訓(xùn)練。該API的主要優(yōu)點(diǎn)包括提高審核的可擴(kuò)展性和魯棒性，以及通過(guò)技術(shù)文檔提供的詳細(xì)政策定義和啟動(dòng)指南，幫助用戶有效實(shí)施系統(tǒng)級(jí)的安全防護(hù)。

內(nèi)容審核 AI 多語(yǔ)言支持

Medio AI:AI編輯工具，助力企業(yè)視頻營(yíng)銷本地化。

Medio AI是一個(gè)為企業(yè)提供AI編輯工具的平臺(tái)，專注于視頻翻譯和視頻配音，幫助企業(yè)無(wú)畏全球擴(kuò)張，實(shí)現(xiàn)視頻營(yíng)銷的本地化。產(chǎn)品背景信息顯示，Medio AI旨在幫助企業(yè)探索更多海外市場(chǎng)，通過(guò)AI技術(shù)提升視頻編輯效率，增強(qiáng)產(chǎn)品在國(guó)際市場(chǎng)上的競(jìng)爭(zhēng)力。產(chǎn)品的主要優(yōu)點(diǎn)包括無(wú)需下載、在線使用、一鍵去除視頻水印、產(chǎn)品翻譯、視頻配音等。價(jià)格方面，Medio AI提供免費(fèi)試用，并根據(jù)不同的功能需求提供不同的付費(fèi)版本。

AI編輯視頻營(yíng)銷本地化

PodExtra AI:釋放播客的力量，用AI提升播客收聽體驗(yàn)

PodExtra AI是一款先進(jìn)的AI工具，專為播客收聽和知識(shí)獲取設(shè)計(jì)。它通過(guò)生成播客內(nèi)容的摘要、思維導(dǎo)圖、大綱、亮點(diǎn)和要點(diǎn)，幫助用戶快速把握播客的核心內(nèi)容。產(chǎn)品背景信息顯示，播客愛好者平均每周消費(fèi)超過(guò)8集，全球有超過(guò)400萬(wàn)的節(jié)目可供選擇。PodExtra AI通過(guò)AI技術(shù)，使得用戶能夠快速瀏覽內(nèi)容，節(jié)省時(shí)間，提高效率。產(chǎn)品定位于幫助用戶從海量播客內(nèi)容中快速獲取有價(jià)值的信息，特別適合時(shí)間緊張但希望從播客中獲取知識(shí)的人群。

播客 AI 知識(shí)管理

語(yǔ)鯨:，智能語(yǔ)言處理平臺(tái)

語(yǔ)鯨是一個(gè)專注于語(yǔ)言處理的平臺(tái)，它利用先進(jìn)的自然語(yǔ)言處理技術(shù)，為用戶提供文本分析、翻譯、校對(duì)等服務(wù)。產(chǎn)品背景信息顯示，語(yǔ)鯨旨在幫助用戶提高寫作效率和質(zhì)量，特別是在多語(yǔ)言環(huán)境中。語(yǔ)鯨的價(jià)格定位尚未明確，但考慮到其提供的服務(wù)，可能會(huì)有免費(fèi)試用和付費(fèi)版本。

自然語(yǔ)言處理文本分析翻譯

CR-Mentor:AI驅(qū)動(dòng)的代碼審查導(dǎo)師，提升代碼質(zhì)量和審查效率。

CR-Mentor AI CodeReview Mentor是一個(gè)基于人工智能的代碼審查工具，它通過(guò)積累的最佳實(shí)踐知識(shí)庫(kù)和大型語(yǔ)言模型（LLM）分析，為主流編程語(yǔ)言提供智能代碼審查。該產(chǎn)品支持自定義的代碼審查標(biāo)準(zhǔn)，能夠?yàn)閱蝹€(gè)文件代碼變更提供專業(yè)評(píng)分和改進(jìn)建議，并通過(guò)LLM生成全面的審查報(bào)告，包括代碼走查、變更描述和時(shí)序圖。它與GitHub工作流程深度集成，實(shí)現(xiàn)自動(dòng)化代碼審查，支持多語(yǔ)言反饋，幫助整個(gè)團(tuán)隊(duì)提升代碼質(zhì)量和審查效率。

代碼審查人工智能 GitHub集成

Srcbook:開源、自托管、AI驅(qū)動(dòng)的應(yīng)用構(gòu)建器。

Srcbook是一個(gè)開源、自托管的AI驅(qū)動(dòng)應(yīng)用構(gòu)建器，它允許用戶快速構(gòu)建和部署各種應(yīng)用程序。產(chǎn)品背景信息顯示，Srcbook旨在提供一個(gè)平臺(tái)，讓開發(fā)者和非技術(shù)用戶都能夠輕松地構(gòu)建應(yīng)用程序，從而提高生產(chǎn)力和創(chuàng)新能力。它支持多種應(yīng)用場(chǎng)景，如項(xiàng)目管理工具、音樂(lè)發(fā)現(xiàn)頁(yè)面、技術(shù)文檔網(wǎng)站等。Srcbook的主要優(yōu)點(diǎn)包括開源性、靈活性和易用性，用戶可以根據(jù)自己的需求定制和擴(kuò)展功能。

開源自托管 AI

ReCapture:用戶視頻的生成性視頻攝像機(jī)控制

ReCapture是一種從單一用戶提供的視頻生成新視頻和新穎攝像機(jī)軌跡的方法。該技術(shù)允許我們從完全不同的角度重新生成源視頻，并帶有電影級(jí)別的攝像機(jī)運(yùn)動(dòng)。ReCapture通過(guò)使用多視圖擴(kuò)散模型或基于深度的點(diǎn)云渲染生成帶有新攝像機(jī)軌跡的嘈雜錨視頻，然后通過(guò)我們提出的掩蔽視頻微調(diào)技術(shù)將錨視頻重新生成為干凈且時(shí)間上一致的重新角度視頻。這種技術(shù)的重要性在于它能夠利用視頻模型的強(qiáng)大先驗(yàn)，將近似的視頻重新生成為時(shí)間上一致且美觀的視頻。

視頻生成攝像機(jī)控制多視圖擴(kuò)散模型

AI Tattoo Generator.net:快速創(chuàng)建個(gè)性化紋身設(shè)計(jì)

AI Tattoo Generator是一個(gè)利用人工智能技術(shù)幫助用戶快速創(chuàng)建個(gè)性化紋身設(shè)計(jì)的在線平臺(tái)。該平臺(tái)使用先進(jìn)的機(jī)器學(xué)習(xí)算法，根據(jù)用戶輸入生成具有各種風(fēng)格的現(xiàn)實(shí)感紋身概念圖，確保用戶的想法以視覺上引人入勝的方式呈現(xiàn)。它不僅能夠提供即時(shí)的設(shè)計(jì)結(jié)果，還能讓用戶根據(jù)自己的偏好進(jìn)一步定制和細(xì)化設(shè)計(jì)，滿足個(gè)性化需求。

AI設(shè)計(jì) 紋身個(gè)性化

Unfaked:AI生成的逼真圖片庫(kù)

Unfaked是一個(gè)提供由人工智能生成的逼真圖片的網(wǎng)站，這些圖片幾乎可以以假亂真。用戶可以免費(fèi)下載并自由使用這些圖片。每周都會(huì)更新更多的圖片。這個(gè)平臺(tái)的重要性在于它為設(shè)計(jì)師、內(nèi)容創(chuàng)作者和營(yíng)銷人員提供了一個(gè)免費(fèi)的資源庫(kù)，他們可以在這里找到高質(zhì)量的圖片資源，而無(wú)需擔(dān)心版權(quán)問(wèn)題。

AI生成免費(fèi)圖片版權(quán)免費(fèi)

ComfyUI-GIMM-VFI:基于GIMM-VFI的ComfyUI幀插值工具

ComfyUI-GIMM-VFI是一個(gè)基于GIMM-VFI算法的幀插值工具，使用戶能夠在圖像和視頻處理中實(shí)現(xiàn)高質(zhì)量的幀插值效果。該技術(shù)通過(guò)在連續(xù)幀之間插入新的幀來(lái)提高視頻的幀率，從而使得動(dòng)作看起來(lái)更加流暢。這對(duì)于視頻游戲、電影后期制作和其他需要高幀率視頻的應(yīng)用場(chǎng)景尤為重要。產(chǎn)品背景信息顯示，它是基于Python開發(fā)的，并且依賴于CuPy庫(kù)，特別適用于需要進(jìn)行高性能計(jì)算的場(chǎng)景。

幀插值視頻處理圖像處理

5ire:簡(jiǎn)單易用，釋放AI的強(qiáng)大力量

5ire是一個(gè)以簡(jiǎn)潔和用戶友好為核心的AI產(chǎn)品，旨在讓即使是初學(xué)者也能輕松利用大型語(yǔ)言模型。它支持多種文檔格式的解析和向量化，具備本地知識(shí)庫(kù)、使用分析、提示庫(kù)、書簽和快速關(guān)鍵詞搜索等功能。作為一個(gè)開源項(xiàng)目，5ire提供免費(fèi)下載，并且提供了按需付費(fèi)的大型語(yǔ)言模型API服務(wù)。

AI 大型語(yǔ)言模型開源

AI Hear:一款在您電腦本地運(yùn)行的私有軟件，提供多語(yǔ)種實(shí)時(shí)翻譯。

AI Hear是一款在電腦本地運(yùn)行的私有軟件，它通過(guò)一鍵開啟多語(yǔ)種實(shí)時(shí)翻譯功能，幫助用戶管理音頻、譯文和時(shí)間軸。產(chǎn)品不收集數(shù)據(jù)，保護(hù)用戶隱私。它適用于多種場(chǎng)景，如線上會(huì)議、網(wǎng)課播客、游戲直播等，并且完全本地運(yùn)行，相比市面上的實(shí)時(shí)翻譯產(chǎn)品更具性價(jià)比。

實(shí)時(shí)翻譯音頻管理隱私保護(hù)

SD Image:使用最新的Stable Diffusion 3.5模型生成高質(zhì)量圖像。

SD Image的Stable Diffusion 3.5 Image Generator是一個(gè)在線圖像生成器，它利用最新的Stable Diffusion 3.5模型，包括Medium, Large, Large Turbo，來(lái)生成高質(zhì)量的圖像。這項(xiàng)技術(shù)的重要性在于它能夠通過(guò)文本提示（prompt）快速生成圖像，為設(shè)計(jì)師、藝術(shù)家和創(chuàng)意工作者提供靈感和便利。產(chǎn)品背景信息顯示，SD Image是一個(gè)在線平臺(tái)，用戶可以通過(guò)它找到靈感、生成圖像、探索不同的prompt和模型。目前，該產(chǎn)品提供免費(fèi)試用，適合需要快速生成圖像的用戶。

圖像生成 AI藝術(shù) 創(chuàng)意工具

AI Homeworkify:下一代AI作業(yè)助手，免費(fèi)獲取作業(yè)答案

AI Homeworkify是一個(gè)基于人工智能的在線問(wèn)答平臺(tái)，旨在幫助學(xué)生通過(guò)提供詳細(xì)的答案和解題步驟來(lái)學(xué)習(xí)和理解各種學(xué)術(shù)問(wèn)題。該平臺(tái)不涉及版權(quán)侵犯，注重教育平等，提供免費(fèi)、即時(shí)的作業(yè)幫助，支持多種學(xué)科和語(yǔ)言。AI Homeworkify的主要優(yōu)點(diǎn)包括完全免費(fèi)、無(wú)需注冊(cè)、即時(shí)答案、全天候服務(wù)、多設(shè)備兼容、隱私保護(hù)和逐步解決方案。產(chǎn)品背景信息顯示，AI Homeworkify致力于通過(guò)技術(shù)手段減少教育不平等，為全球?qū)W生提供免費(fèi)的優(yōu)質(zhì)學(xué)習(xí)輔助服務(wù)。

AI 教育作業(yè)幫助

AI Voice Lab:在線將文字轉(zhuǎn)換為逼真的語(yǔ)音

AI Voice Lab免費(fèi) AI 文字轉(zhuǎn)語(yǔ)音神器是一個(gè)利用最新的類GPT AI語(yǔ)音模型技術(shù)，提供超級(jí)逼真的配音結(jié)果，支持20+種語(yǔ)言和100+種聲音，每天提供免費(fèi)使用次數(shù)，適用于視頻、音頻制作等多種場(chǎng)景，提高內(nèi)容吸引力。

AI語(yǔ)音文字轉(zhuǎn)語(yǔ)音配音

今日大家都在搜的詞：

熱文

3 天
7天

站長(zhǎng)商機(jī)

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

智譜AI的AutoGLM后，Google和微軟也下場(chǎng)來(lái)做“賈維斯”了。

今日大家都在搜的詞：

熱文

站長(zhǎng)商機(jī)

智譜AI的AutoGLM后，Google和微軟也下場(chǎng)來(lái)做“賈維斯”了。