OpenAI錯(cuò)過的7個(gè)月，智能體2.0借終端爆發(fā)？

2024-11-05 16:29 · 稿源：光錐智能公眾號(hào)

聲明:本文來自于微信公眾號(hào)光錐智能，作者:魏琳華劉俊宏，授權(quán)站長(zhǎng)之家轉(zhuǎn)載發(fā)布。

2024年3月，OpenAI關(guān)停僅運(yùn)營(yíng)兩個(gè)月的GPT Store。

時(shí)隔僅7個(gè)月，同樣是做Agent平臺(tái)，OpenAI現(xiàn)任董事會(huì)主席Bret Taylor創(chuàng)立的新公司，融了45億美元。整個(gè)AI界在前后發(fā)布的Claude的“Computer Use”和智譜的AutoGLM智能體下，開始了一場(chǎng)“丟下”O(jiān)penAI的狂歡。

10月26日，微軟開源了基于純視覺的GUI屏幕解析工具OmniParser，谷歌的同類產(chǎn)品“Project Jarvis”也有望在12月上線。

加入狂歡的不止是大模型廠商。和智譜宣布達(dá)成深度合作的一個(gè)月后，榮耀也交出了自己的答卷。10月30日，榮耀CEO趙明展示了AI智能體YOYO自主處理任務(wù)的能力，只需要對(duì)手機(jī)說一句“訂2000杯咖啡”，YOYO就幫他在附近下單成功，忙壞了周圍的咖啡店和外賣員。

無論是電腦端還是手機(jī)端，Agent開始真正實(shí)現(xiàn)了“自主性”:從點(diǎn)咖啡到買牙膏，無需人類操作，一句指令就能讓AI完成所有任務(wù)。和前一代只能提建議的Agent相比，AutoGLM實(shí)現(xiàn)了從1.0到2.0的進(jìn)階。

二級(jí)市場(chǎng)的熱度，也被智能體點(diǎn)燃。發(fā)布AutoGLM后，一眾投資、參股智譜，或是和智譜合作密切的公司股價(jià)明顯上漲，“智譜概念股”走強(qiáng)。上周開始，智譜概念股持續(xù)活躍，豆神教育、思美傳媒、常山北明等相關(guān)概念股一度漲停。

當(dāng)端側(cè)大模型開始落地到手機(jī)端，苦于落地的大模型廠商，不僅僅只將目光放在了軟件能力上，從智能體到做以大模型為能力中心的“AI OS”，大模型創(chuàng)企們找到了AI大模型商業(yè)化的新道路。

在OpenAI錯(cuò)過的7個(gè)月中間，Agent到底發(fā)生了什么變化?

AIAgent進(jìn)入2.0時(shí)代

為什么智能體突然點(diǎn)燃了二級(jí)市場(chǎng)的熱情?

華泰證券指出，AI Agent已經(jīng)解決了大模型從“言”到“行”的突破。

對(duì)比上一代“只動(dòng)嘴皮子”的Agent，無論是Computer Use還是Phone Use，上述智能體產(chǎn)品均實(shí)現(xiàn)了AI端的自主操作:接收到指令后，AI將親自接管設(shè)備，包括點(diǎn)擊、輸入等交互功能。

以Anthropic發(fā)布的“Computer Use”為例。演示中，無需人類操作，它完成了“填寫公司表格數(shù)據(jù)”的任務(wù)。

接到上述任務(wù)后，AI將工作拆分為多個(gè)步驟:

1、首先，查找已有表格中是否有所需公司的相關(guān)數(shù)據(jù);

2、在查詢不到結(jié)果后，AI打開搜索界面，自行查找相關(guān)公司的數(shù)據(jù)信息;

3、最后，它對(duì)應(yīng)著表格的空缺部分逐個(gè)完成數(shù)據(jù)的輸入。

通過在對(duì)話欄輸入指令，AI自主根據(jù)表格信息情況完成填寫

在展示視頻中，智譜發(fā)布的AutoGLM 調(diào)用手機(jī)上的多個(gè)App也很絲滑，當(dāng)用戶要求購買瑞幸的美式咖啡，AutoGLM打開美團(tuán)搜索品牌，并把想要的商品自動(dòng)加入購物車，并跳轉(zhuǎn)至結(jié)算界面。交給用戶的，只有選擇“下單”按鈕。

根據(jù)用戶的需求，AI自主選定咖啡的口味

微軟也在近日開源了一個(gè)用于識(shí)別Web端視覺界面的工具產(chǎn)品OmniParser。在Github展示頁的示例視頻中，OmniParser也做到了自主操作的能力:

當(dāng)交付給它一個(gè)收集素食餐廳的任務(wù)時(shí)，OmniParser通過解析界面元素，在網(wǎng)頁中定位到“餐廳”字樣。檢索不符合要求后，它再自動(dòng)拉起搜索框，根據(jù)關(guān)鍵詞定位到相關(guān)餐廳，并完成勾選

這些對(duì)人類來說非常簡(jiǎn)單的操作，交給AI，需要克服的障礙不少:

首先，無論是電腦端還是手機(jī)端的交互，Agent均需要完成點(diǎn)擊、劃動(dòng)、查找等步驟，如何讓模型學(xué)會(huì)并做到精準(zhǔn)操作，這是阻礙Agent進(jìn)化的一大難題。

而這個(gè)難題的突破，得益于基礎(chǔ)大模型發(fā)展帶來的能力躍遷。

比如，如何讓AI理解GUI（圖形用戶界面）并完成操作?

Agent的核心系統(tǒng)分為感知-規(guī)劃-記憶-行動(dòng)-工具五個(gè)部分，其中，感知系統(tǒng)負(fù)責(zé)捕捉外界的視覺、聽覺、文本信息，并加以分析。通過對(duì)上述信息的完整認(rèn)知，Agent會(huì)結(jié)合這些信息對(duì)接受到的任務(wù)進(jìn)行規(guī)劃，也就是用CoT（思維鏈）的方式拆解成多個(gè)步驟，依次執(zhí)行。

但在2023年，大語言模型仍然停留在文本能力階段，在視頻、語音等多模態(tài)能力發(fā)展尚未突破的時(shí)候，Agent受底層基座能力的限制，尚且無法完整感知環(huán)境，從而在多個(gè)任務(wù)上的執(zhí)行過程中犯錯(cuò)，自然也難以達(dá)到應(yīng)用階段的水準(zhǔn)。

對(duì)此，微軟的解決方案是，通過屏幕截圖的方式，將屏幕中的所有可交互圖標(biāo)和按鈕一一標(biāo)注出來，將它們提取為信息，再根據(jù)識(shí)別的內(nèi)容進(jìn)行定義，讓AI理解每個(gè)交互點(diǎn)的作用，從而實(shí)現(xiàn)自主操作。而智譜AutoGLM在手機(jī)端的操作應(yīng)用，同樣借助了多模態(tài)能力來完成對(duì)UI的識(shí)別解讀。

而在上述基礎(chǔ)上，針對(duì)數(shù)據(jù)不足、策略分布漂移等問題，智譜也找到了問題的解法。

比如，受制于軌跡數(shù)據(jù)獲取成本高昂和數(shù)據(jù)不足的問題，無法對(duì)大模型智能體完成充分的動(dòng)作執(zhí)行能力訓(xùn)練。

為此，他們?cè)贏utoGLM中引入自研的“基礎(chǔ)智能體解耦合中間界面”設(shè)計(jì)。以“提交訂單”為例，把AutoGLM作為中間界面，將「任務(wù)規(guī)劃」與「動(dòng)作執(zhí)行」兩個(gè)階段通過自然語言中間界面進(jìn)行解耦合。

對(duì)比過往端到端智能體的直接處理，這種方式將AI的操作準(zhǔn)確度提升了將近一倍。

除了實(shí)現(xiàn)精準(zhǔn)交互操作的需求之外，面對(duì)種類繁多的復(fù)雜任務(wù)，智能體還需要具備即時(shí)規(guī)劃和糾正能力，從而在遇到問題的時(shí)候及時(shí)給出有效的解決方法。

對(duì)此，AutoGLM上應(yīng)用了“自進(jìn)化在線課程強(qiáng)化學(xué)習(xí)框架”技術(shù)，讓智能體在基于手機(jī)和電腦的環(huán)境中不斷學(xué)習(xí)和提升應(yīng)對(duì)能力。

“就像一個(gè)人，在成長(zhǎng)過程中，不斷獲取新技能?！睆堸i解釋道。

在上述兩種能力的加持下，AutoGLM 在 Phone Use 和 Web Browser Use 上都取得了大幅的性能提升。官方數(shù)據(jù)顯示，在 WebArena-Lite 評(píng)測(cè)基準(zhǔn)中，AutoGLM 更是相對(duì) GPT-4o 取得了約200% 的性能提升。

總體來看，在大語言模型和多模態(tài)模型進(jìn)化一年之后，AI Agent終于實(shí)現(xiàn)了從單體智能，向使用工具方向邁進(jìn)，完成了2.0的進(jìn)階。

學(xué)會(huì)使用工具

人工智能進(jìn)入L3階段

縱觀人工智能的發(fā)展史，人工智能和人類的進(jìn)化路徑何其類似，正在經(jīng)歷從學(xué)會(huì)“語言”，到“解決問題”，再到“使用工具”。

3個(gè)多月前，OpenAI將通往AGI之路劃分為五個(gè)階段。AutoGLM上線當(dāng)天，智譜也向外界公示了自己的技術(shù)路線圖。

首先在L1階段，AI的重點(diǎn)在于學(xué)會(huì)使用“語言”，包括語音、文字還有視覺。

回顧兩年前，從ChatGPT誕生開始，人們對(duì)AI的注意力開始轉(zhuǎn)移到生成式AI上。在短短半年的時(shí)間里，大語言模型頻頻涌現(xiàn):GPT、Claude、GLM等系列大模型出現(xiàn)并持續(xù)更新?lián)Q代，它們均圍繞語言理解、邏輯能力等指標(biāo)完成進(jìn)化。

在大語言模型之外，AI廠商還把關(guān)注點(diǎn)放在了另一座高峰——多模態(tài)大模型上。圍繞視覺、聽覺等能力，實(shí)現(xiàn)了從無到有的突破:

從今年上半年開始，端到端語音模型開始先后發(fā)布，它讓AI能夠“聽到”人的情緒，并完成有溫度的交流。

今年4月，GPT-4o的發(fā)布會(huì)向人們展示了和AI實(shí)時(shí)對(duì)話的魅力。和以往模型相比，端到端語音模型將過往的多個(gè)大模型串聯(lián)完成的任務(wù)壓縮到一個(gè)模型中完成，降低時(shí)延的同時(shí)，還能完整保留人聲的情緒、停頓等信息，可以隨時(shí)打斷它并繼續(xù)交流。

多模態(tài)模型則讓大模型裝上了“眼睛”，看到并理解現(xiàn)實(shí)世界環(huán)境的變化。

以智譜的GLM-4V-Plus為例，它不僅能夠完成大語言模型的對(duì)話能力，同時(shí)，在視頻、圖像的理解能力上提升明顯。智譜還推出了視頻通話API接口GLM-4-Plus-VideoCall，讓大模型能夠和人類打“視頻通話”，識(shí)別周邊物品并對(duì)答如流。

“大腦是一個(gè)非常復(fù)雜的系統(tǒng)，包括聽覺、視覺、味覺、語言等多模態(tài)的感知與理解能力，有短期和長(zhǎng)期記憶能力，深度思考和推理能力，以及情感和想象力?！睆堸i說。

可以看到，當(dāng)前階段下，大模型能力開始能夠模擬人腦的一些功能，包括視覺、聽覺、語言理解等能力。

智譜方面透露，在他們規(guī)劃的五個(gè)階段中，L1能力“已經(jīng)達(dá)到了80-90%”。

在聽說讀寫等基本能力的進(jìn)化過程中，代表L2的邏輯思維能力，也在快速進(jìn)化。

L2的一個(gè)里程碑就是OpenAI發(fā)布的o1模型，跳脫出過往的GPT大家族，專注于CoT（思維鏈）能力上精進(jìn)，它學(xué)會(huì)了慢思考:在應(yīng)用思維鏈，將指令拆分為多個(gè)簡(jiǎn)單步驟完成的同時(shí)，o1用強(qiáng)化學(xué)習(xí)的能力，用于識(shí)別和糾正錯(cuò)誤。

OpenAI表示，隨著強(qiáng)化學(xué)習(xí)的增加和思考時(shí)間的增加，o1的性能會(huì)持續(xù)提高。官方數(shù)據(jù)顯示，在Codeforces主辦的編程競(jìng)賽上，o1取得了超越93%參賽者的成績(jī)，并在物理、化學(xué)、生物等基礎(chǔ)學(xué)科的能力指標(biāo)上取得了超過博士生的水準(zhǔn)。

因此，o1也被視為人類在L2邏輯思維能力上取得的新進(jìn)化，開始展現(xiàn)和人類旗鼓相當(dāng)?shù)耐评砟芰Α?/p>

當(dāng)L1語言和多模態(tài)能力基本打通后，基于上述底層能力，才能涌現(xiàn)出達(dá)到L2邏輯思維能力和L3工具能力級(jí)別的新產(chǎn)品。

而這次升級(jí)的智能體操控智能終端的能力，實(shí)際上在L3階段。

正如哲學(xué)家恩格斯所言，人類和動(dòng)物，最本質(zhì)的區(qū)別就是——能否制造和使用工具。

智能體2.0的升級(jí)，也代表著人類在通往AGI的路線上，又拿下了一城。

“AutoGLM 可以看作是智譜在 L3工具能力方面的探索和嘗試”，張鵬表示。

展望L4和L5，OpenAI認(rèn)為，L4階段，AI能夠自我完成創(chuàng)新;L5階段，AI則具備融入或自成組織的能力。

而智譜也對(duì)L4和L5階段給出了新的定義，相對(duì)于OpenAI，智譜對(duì)AGI的期待更加激進(jìn)。

“我們認(rèn)為 L4級(jí)人工智能意味著 AI 可以實(shí)現(xiàn)自我學(xué)習(xí)、自我反思和自我改進(jìn)。L5則意味著人工智能全面超越人類，具備探究科學(xué)規(guī)律、世界起源等終極問題的能力?！睆堸i表示。

端側(cè)大模型

AI落地的新高地

當(dāng)AI進(jìn)階至L3階段，大模型廠商們?cè)谏虡I(yè)化的進(jìn)程上也按下了“加速鍵”。

事實(shí)上，終端硬件和大模型廠商們正在雙向奔赴。觀察今年發(fā)布的AI硬件，是否搭載Agent，對(duì)應(yīng)著產(chǎn)品AI能力的“天差地別”。

最顯著的對(duì)比，是10月30日發(fā)布的，搭載YOYO智能體的榮耀Magic7。

基于智能體可直接執(zhí)行任務(wù)的特性，趙明一句2000杯飲料的需求，爆單了附近所有咖啡店。從“一步步”交互，到智能體“脫手自動(dòng)執(zhí)行”，趙明自豪地宣布道，“手機(jī)進(jìn)入自動(dòng)駕駛時(shí)代”。

為了挖掘硬件端和AI能力結(jié)合的潛力，智能終端廠商和大模型公司的聯(lián)姻早已見怪不怪。

其中，智譜是當(dāng)前國(guó)內(nèi)大模型創(chuàng)企中和手機(jī)廠商聯(lián)動(dòng)最多的一家。此前，智譜已經(jīng)和榮耀官宣戰(zhàn)略合作，而在最近半年的時(shí)間中，其先后和三星、英特爾、高通聯(lián)手，通過提供底層AI能力支持終端智能化升級(jí)。

同樣，蘋果就認(rèn)為，Apple Intelligence的智能體將直接改善蘋果手機(jī)的銷量。在剛剛結(jié)束的蘋果2024年四季度財(cái)報(bào)電話會(huì)中，CEO庫克稱，“iPhone16系列賣得比iPhone15系列更好，Apple Intelligence上線后，用戶升級(jí)iOS18.1版本的積極性都是去年同期的兩倍?！?/p>

加持AI，將是手機(jī)廠商未來多年的重要戰(zhàn)略。根據(jù)IDC預(yù)測(cè)，預(yù)計(jì)2024年AI手機(jī)出貨量將同比增長(zhǎng)363.6%，達(dá)到2.3億部。IDC手機(jī)研究總監(jiān)Anthony Scarsella表示，在2024年實(shí)現(xiàn)三位數(shù)增長(zhǎng)之后，AI手機(jī)將連續(xù)四年實(shí)現(xiàn)兩位數(shù)增長(zhǎng)。

為何硬件終端廠商如此熱衷于智能體的落地?背后是智能體從底層顛覆了硬件廠商與消費(fèi)平臺(tái)之間的權(quán)力地位。

以“趙明點(diǎn)咖啡”為例，在沒有智能體之前，用戶點(diǎn)咖啡大多依賴渠道慣性。用戶需要根據(jù)習(xí)慣、優(yōu)惠券、積分等因素，在美團(tuán)、星巴克小程序、餓了么等平臺(tái)之間選擇下單。而有了替用戶下單的智能體之后，由于平臺(tái)不再直接對(duì)接客戶，智能體有了為平臺(tái)直接分配訂單的權(quán)利。換句話說，通過搭載智能體，AI終端廠商有了向軟件平臺(tái)“征稅”的權(quán)利。

如同蘋果當(dāng)前被無數(shù)廠商“痛”，又無可奈何的“蘋果稅”。正是因?yàn)檎莆樟薃pp Store的分發(fā)和流水，蘋果才能依靠幾乎“躺賺”的商業(yè)模式，才能以平均高達(dá)70%以上毛利率的軟件服務(wù)收入，拉高整個(gè)公司的營(yíng)收質(zhì)量。

據(jù)2024年四季報(bào)顯示，蘋果本季度軟件服務(wù)業(yè)務(wù)的營(yíng)收占比為26%，業(yè)務(wù)毛利率為74%，公司整體毛利率為44%。

看到如此優(yōu)質(zhì)的營(yíng)收，也難怪AI硬件廠商“大干快上”智能體。而看到了這場(chǎng)全新變現(xiàn)模式的大模型公司，也紛紛與AI硬件廠商展開了合作。

除了加碼修圖、文本總結(jié)等AI軟件功能、植入智能體之外，打造端側(cè)大模型，并將其深度融入硬件系統(tǒng)，成為原生能力，是手機(jī)廠商加碼AI能力的下一步。

基于端側(cè)大模型提供的核心能力，AI手機(jī)正在做到更多之前無法完成的事情，用智能體做事還是第一步。

相比之下，智譜還有更加宏大的野心，他們更希望將AI能力深度植入終端，用大模型重塑操作系統(tǒng)。

“希望我們的努力能夠推動(dòng)人機(jī)交互范式實(shí)現(xiàn)新轉(zhuǎn)變，為構(gòu)建 GLM-OS ，即以大模型為中心的通用計(jì)算系統(tǒng)打好基礎(chǔ)。”在發(fā)布AutoGLM時(shí)，張鵬如是說。

不僅智能手機(jī)關(guān)注AI能力的加碼，芯片端也在加速和AI能力的融合。上個(gè)月，高通宣布將智譜GLM-4V端側(cè)視覺大模型搭載到芯片驍龍8至尊版，進(jìn)行深度適配和推理優(yōu)化。其推出的應(yīng)用ChatGLM支持用相機(jī)進(jìn)行實(shí)時(shí)語音對(duì)話，也支持上傳照片和視頻進(jìn)行對(duì)話。

在AI完美落地具身智能之前，手機(jī)、電腦等終端將是AI大模型落地的更佳場(chǎng)景。通過L3工具能力的展現(xiàn)，AutoGLM們將有機(jī)會(huì)撕開新的商業(yè)模式。

不過，智譜的AutoGLM目前還是通過調(diào)用手機(jī)的無障礙權(quán)限實(shí)現(xiàn)跨應(yīng)用調(diào)用，未來如果想要完成更加復(fù)雜的指令，還需要和智能終端廠商以及應(yīng)用開發(fā)商達(dá)成深度合作，從而獲取更多操作權(quán)限。

大模型的“軟”實(shí)力，最終還得“硬”實(shí)現(xiàn)。

目前，大模型的商業(yè)化仍然是以軟件付費(fèi)為主，包括面向C端的訂閱制和面向B端的API接口或者項(xiàng)目制。但在未來，要想真正實(shí)現(xiàn)AGI，以及釋放更強(qiáng)大的能力，還得是通過硬件來和物理世界交互。

智能體在端側(cè)的落地，就像一個(gè)機(jī)遇，幫助大模型公司在硬件上積累了眾多的工程化能力，甚至還能獲得一些不錯(cuò)的邊緣數(shù)據(jù)。這給未來，無論是通過XR設(shè)備還是具身智能機(jī)器人，來完成物理世界的交互，都打下了一個(gè)好的基礎(chǔ)。

未來，在智能終端上的落地，將是大模型技術(shù)和商業(yè)化的新高地。

（舉報(bào)）

相關(guān)推薦
大家在看

關(guān)鍵詞：

【騰訊云】11.11云上盛惠！云服務(wù)器首年1.8折起，買1年送3個(gè)月！

11.11云上盛惠！海量產(chǎn)品 · 輕松上云！云服務(wù)器首年1.8折起，買1年送3個(gè)月！超值優(yōu)惠，性能穩(wěn)定，讓您的云端之旅更加暢享?？靵眚v訊云選購吧！

Docker容器鏡像
去看看

Docker容器鏡像 60元/15天

爆款產(chǎn)品組合購
去看看

爆款產(chǎn)品組合購低至1元

騰訊云x NVIDIA加速計(jì)劃
去看看

騰訊云x NVIDIA加速計(jì)劃最高獲贈(zèng)10萬元扶持基金

2核2G云服務(wù)器
去看看

2核2G云服務(wù)器 112元/1年

查看更多相關(guān)信息>>

騰訊云 12-20

廣告
哈弗猛龍銷量連續(xù)7個(gè)月攀升：最新周銷已達(dá)1956臺(tái)

長(zhǎng)城汽車最近發(fā)布的數(shù)據(jù)顯示，哈弗猛龍?jiān)?0月7日至13日的一周內(nèi)銷量達(dá)到了1956輛。截至10月11日，該車型在2024年1至9月的累計(jì)銷量為37184輛，其中9月份的銷量為7210輛，實(shí)現(xiàn)了自2月以來連續(xù)7個(gè)月的增長(zhǎng)。其中1.5升渦輪增壓發(fā)動(dòng)機(jī)最大功率123千瓦，峰值扭矩243牛米；前后雙電機(jī)最大功率分別為70千瓦和150千瓦，峰值扭矩分別為160牛米和350牛米。

?哈弗猛龍 ?長(zhǎng)城汽車 ?汽車銷量
同級(jí)罕有對(duì)手理想L6上市7個(gè)月交付破15萬臺(tái)：月均破2萬

小米官宣量產(chǎn)破10萬之后，理想汽車也宣布稱，品牌旗下車型L6上市7個(gè)月交付超過15萬臺(tái)！7個(gè)月15萬，月均超2萬臺(tái)，這絕對(duì)是國(guó)產(chǎn)新勢(shì)力里最熱門最暢銷的SUV了，究其原因，就在于25萬級(jí)里，理想L6真的沒有什么對(duì)手。自上市以來，理想L6迅速成為了25萬級(jí)最為暢銷的國(guó)產(chǎn)新能源SUV，也成為了理想今年最為走量的品牌車型和銷量支撐，在上一周，理想單周銷量11660臺(tái)，其中L6賣出了6260臺(tái)，占比53%。

?理想汽車 ?L6銷量 ?國(guó)產(chǎn)SUV
薦直面消費(fèi)者，智能體正在成為新“官網(wǎng)”

從電信時(shí)代的黃頁、互聯(lián)網(wǎng)時(shí)代的“官網(wǎng)”、移動(dòng)互聯(lián)網(wǎng)時(shí)代的APP和“官號(hào)”，到現(xiàn)在AI時(shí)代的智能體，每一次技術(shù)浪潮發(fā)生時(shí)，“所有生意都可以重做一遍”。在11月12日的百度世界大會(huì)上，李彥宏直言智能體即將迎來爆發(fā)點(diǎn)，他將做智能體類比為PC時(shí)代做網(wǎng)站、或是移動(dòng)時(shí)代做自媒體賬號(hào)，“不同之處是智能體更像人、更智能，更像你的銷售、客服和助理。除了上述智能體已

?智能體
薦OpenAI變深，百度變寬

距離ChatGPT發(fā)布整整兩年后，中美兩地的大模型代表廠商，仍在完善模型產(chǎn)品功能和使用體驗(yàn)上不斷發(fā)力:11月初，OpenAI在ChatGPT中上線了AI搜索;11月中旬，百度則推出了一系列智能體應(yīng)用，嘗試構(gòu)建AI應(yīng)用生態(tài)。行業(yè)領(lǐng)頭羊的不同思考，得以讓外界一窺它們?cè)诖竽Ｐ皖I(lǐng)域的共識(shí)和分歧。當(dāng)用的人逐漸變多，李彥宏口中“智能體即將迎來爆發(fā)點(diǎn)”的判斷，才有望越早到來。

?OpenAI
AI日?qǐng)?bào)：OpenAI將推首款自主AI代理Operator；騰訊元寶2.0版本上線；AI全面加持蘋果Final Cut Pro 11

歡迎來到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、OpenAI計(jì)劃明年推首款自主AI代理“Operator”O(jiān)penAI計(jì)劃在明年一月推出名為“Operator”的自主AI代理，這將是一款具備控制計(jì)算機(jī)執(zhí)行任務(wù)能力的產(chǎn)品。盡管企業(yè)在應(yīng)用人工智能技術(shù)?

?人工智能 ?OpenAI ?自主AI代理
佳績(jī)不斷市場(chǎng)易AI營(yíng)銷智能體斬獲多項(xiàng)殊榮！

2024年，機(jī)遇與挑戰(zhàn)并存，更是AI落地應(yīng)用爆發(fā)的關(guān)鍵之年。Custouch市場(chǎng)易順勢(shì)為，緊跟技術(shù)潮流，重磅推出市場(chǎng)易AI營(yíng)銷智能體，為B2B品牌營(yíng)銷注入強(qiáng)大動(dòng)力，助力實(shí)現(xiàn)降本增效。如您對(duì)我們提供的解決方案感興趣，可通過以下方式與我們?nèi)〉寐?lián)系。

?AI營(yíng)銷 ?B2B品牌 ?市場(chǎng)易
成都匯陽投資關(guān)于智能體時(shí)代來臨，具身智能有望成為最佳載體

具身智能是一種基于物理身體進(jìn)行感知和行動(dòng)的智能系統(tǒng)，其通過智能體與環(huán)境的交互獲取信息、理解問題、做出決策并實(shí)現(xiàn)行動(dòng)。具身智能的核心要素包括本體和智能體。所涉及個(gè)股僅作投資參考和學(xué)習(xí)交流，不作為買賣依據(jù)。

?具身智能 ?自我決策 ?智能體
甲子光年對(duì)話RockAI劉凡平：以群體智能挑戰(zhàn)OpenAI的造神之路

相比于單體智能，群體智能才是智能的本質(zhì)。作者|甲小姐田思奇???ChatGPT呼嘯來的近兩年，市場(chǎng)的大共識(shí)是AI即未來。我們相信基礎(chǔ)層的創(chuàng)新能對(duì)應(yīng)用層和未來的市場(chǎng)價(jià)值帶來巨大的改變，所以我們?cè)敢馊プ鲆患覄?chuàng)新的科技企業(yè)。

?群體智能 ?單體智能 ?Transformer機(jī)制
薦OpenAI前CTO被曝吸金7億創(chuàng)業(yè)，招聘首先挖角老東家

OpenAI前CTOMiraMurati出走后，動(dòng)向進(jìn)一步明確——被曝籌備新公司，吸金超1億美元，且和她同一天離開OpenAI的BarretZoph也可能入局。此前就有消息稱，Mira離職后一直在向前司OpenAI的員工拋出橄欖枝。按照之前的說法，年底Brockman就該結(jié)束他的長(zhǎng)假期了。

?OpenAI ?人工智能
薦比GPT-4強(qiáng)100倍！OpenAI將在12月發(fā)布新模型—獵戶座

知名科技媒體theverge消息，OpenAI將在ChatGPT發(fā)布兩周年之際12月左右，推出傳說中的大模型——Orion。Orion會(huì)使用o1模型生成的合成數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練會(huì)使用一些其他類型的模型混合在一起使用，性能比GPT-4強(qiáng)100倍非常接近AGI。情緒價(jià)值在這一刻猶如洪水猛獸，變得一發(fā)不可收拾。

?OpenAI ?ChatGPT ?Orion大模型

Jazon lyzr:全球首個(gè)真正智能的AI銷售開發(fā)代表

Jazon是一款A(yù)I驅(qū)動(dòng)的銷售開發(fā)代表(SDR)工具，它通過結(jié)合人工智能、自動(dòng)化和智能集成來簡(jiǎn)化整個(gè)銷售流程。Jazon不僅管理電子郵件活動(dòng)，還進(jìn)行深入研究、個(gè)性化溝通和后續(xù)跟進(jìn)，實(shí)現(xiàn)端到端的自動(dòng)化，減少人工干預(yù)的需求。Jazon的主要優(yōu)點(diǎn)包括高度定制化、隱私保護(hù)和無縫集成，旨在滿足獨(dú)特的業(yè)務(wù)需求。它通過持續(xù)學(xué)習(xí)和適應(yīng)，優(yōu)化銷售策略，提供詳細(xì)的報(bào)告和洞察，幫助企業(yè)提高效率和轉(zhuǎn)化率。

AI 自動(dòng)化銷售

.NET 9:，跨平臺(tái)開發(fā)的最新力作。

.NET 9是微軟推出的最新跨平臺(tái)開發(fā)框架，它集成了數(shù)千項(xiàng)性能、安全性和功能改進(jìn)，使得開發(fā)者能夠以統(tǒng)一的平臺(tái)構(gòu)建應(yīng)用程序，并輕松地將AI融入應(yīng)用。.NET 9不僅提升了運(yùn)行時(shí)性能，還增強(qiáng)了對(duì)AI的支持，改進(jìn)了ASP.NET Core和Blazor框架，以及對(duì).NET MAUI的多平臺(tái)應(yīng)用開發(fā)進(jìn)行了增強(qiáng)。

跨平臺(tái) AI集成性能優(yōu)化

Qwen2.5-Coder-14B-Instruct-AWQ:開源代碼生成與推理的大型語言模型

Qwen2.5-Coder是一系列特定于代碼的大型語言模型，覆蓋了從0.5億到32億參數(shù)的不同模型大小，以滿足不同開發(fā)者的需求。該模型在代碼生成、代碼推理和代碼修復(fù)方面有顯著提升，基于強(qiáng)大的Qwen2.5，訓(xùn)練令牌擴(kuò)展到5.5萬億，包括源代碼、文本代碼基礎(chǔ)、合成數(shù)據(jù)等。Qwen2.5-Coder-32B是目前最先進(jìn)的開源代碼生成大型語言模型，其編碼能力與GPT-4o相匹配。此外，該模型還支持長(zhǎng)達(dá)128K令牌的長(zhǎng)上下文，并采用AWQ 4-bit量化技術(shù)，以提高模型的效率和性能。

代碼生成代碼推理代碼修復(fù)

Functions for AI:AI代理與功能連接平臺(tái)

Functions for AI是一個(gè)將AI代理與各種功能連接的平臺(tái)，使用戶能夠通過預(yù)測(cè)API獲取正確的功能，收集用戶認(rèn)證，展示審核界面等。該產(chǎn)品通過集成多種應(yīng)用程序的功能，增強(qiáng)AI的執(zhí)行和驗(yàn)證能力，同時(shí)提供用戶界面以確保交互的準(zhǔn)確性和有效性。它支持無代碼或少代碼的快速集成開發(fā)，減少工程負(fù)擔(dān)，并提供全面的合規(guī)性和數(shù)據(jù)安全保障。

AI 集成自動(dòng)化

Kalavai:AI云平臺(tái)，為所有人服務(wù)

Kalavai是一個(gè)AI云平臺(tái)，旨在為所有人提供服務(wù)。它通過集成各種AI技術(shù)，使得用戶能夠構(gòu)建、部署和運(yùn)行AI應(yīng)用。Kalavai平臺(tái)的主要優(yōu)點(diǎn)是其易用性和靈活性，用戶無需深入了解復(fù)雜的AI技術(shù)，即可快速構(gòu)建自己的AI應(yīng)用。平臺(tái)背景信息顯示，它支持多種語言和框架，適合不同層次的開發(fā)者使用。目前，Kalavai提供免費(fèi)試用，具體價(jià)格和定位需要進(jìn)一步了解。

AI 云計(jì)算開發(fā)平臺(tái)

千圖網(wǎng)AI繪畫:AI技術(shù)驅(qū)動(dòng)的圖片創(chuàng)作平臺(tái)，將文字轉(zhuǎn)化為圖片。

千圖網(wǎng)AI繪畫是一個(gè)利用人工智能技術(shù)，將用戶的文字描述轉(zhuǎn)化為圖像的平臺(tái)。它通過深度學(xué)習(xí)算法，理解用戶的創(chuàng)意需求，并生成相應(yīng)的視覺內(nèi)容。這種技術(shù)的重要性在于它極大地降低了藝術(shù)創(chuàng)作的門檻，使得非專業(yè)人士也能輕松創(chuàng)作出專業(yè)級(jí)別的圖像作品。產(chǎn)品背景信息顯示，千圖網(wǎng)AI繪畫旨在釋放用戶的想象力與創(chuàng)造力，為用戶提供一個(gè)簡(jiǎn)單易用的AI創(chuàng)意工具庫。價(jià)格方面，千圖網(wǎng)AI繪畫提供免費(fèi)試用，用戶可以體驗(yàn)AI繪畫的魅力，同時(shí)也提供付費(fèi)服務(wù)以滿足更專業(yè)的需求。

AI繪畫圖像生成創(chuàng)意工具

潮汐 AI: 提供即時(shí)答案和創(chuàng)意靈感。

潮汐 AI 是一個(gè)基于大型語言模型的聊天平臺(tái)，旨在為用戶提供高效的問答服務(wù)。它的主要優(yōu)點(diǎn)包括快速響應(yīng)、豐富的知識(shí)庫和用戶友好的界面。該產(chǎn)品適合需要快速獲取信息和靈感的用戶，定位于教育和生產(chǎn)力領(lǐng)域。

AI 聊天問答

Speek:AI助手，通過語音和動(dòng)畫指導(dǎo)用戶，提升網(wǎng)站交互體驗(yàn)。

Speek是一款A(yù)I驅(qū)動(dòng)的助手，通過語音和動(dòng)畫鼠標(biāo)指針指導(dǎo)用戶在網(wǎng)站上的操作，幫助解答問題、引導(dǎo)用戶了解網(wǎng)站功能，并簡(jiǎn)化購買決策。它通過提供實(shí)時(shí)幫助，結(jié)合支持和引導(dǎo)，快速安裝并立即開始工作，改善用戶體驗(yàn)，提升銷售，并減少客戶支持查詢。

AI助手用戶指導(dǎo) 語音交互

CountAnything:使用先進(jìn)計(jì)算機(jī)視覺算法進(jìn)行自動(dòng)、準(zhǔn)確計(jì)數(shù)的應(yīng)用。

CountAnything是一個(gè)前沿應(yīng)用，利用先進(jìn)的計(jì)算機(jī)視覺算法實(shí)現(xiàn)自動(dòng)、準(zhǔn)確的物體計(jì)數(shù)。它適用于多種場(chǎng)景，包括工業(yè)、養(yǎng)殖業(yè)、建筑、醫(yī)藥和零售等。該產(chǎn)品的主要優(yōu)點(diǎn)在于其高精度和高效率，能夠顯著提升計(jì)數(shù)工作的準(zhǔn)確性和速度。產(chǎn)品背景信息顯示，CountAnything目前已開放給非中國(guó)大陸地區(qū)用戶使用，并且提供免費(fèi)試用。

計(jì)算機(jī)視覺物體計(jì)數(shù) 自動(dòng)化

Windsurf Editor:首款A(yù)I代理型集成開發(fā)環(huán)境（IDE），讓開發(fā)者與AI的協(xié)作流暢無間。

Windsurf Editor是Codeium推出的首款A(yù)I代理型IDE，它不僅集成了Codeium的所有功能，還提供了無與倫比的性能和用戶體驗(yàn)，讓開發(fā)者能夠與AI無縫協(xié)作。該產(chǎn)品代表了編程領(lǐng)域的最新技術(shù)，通過AI的深度集成，提供了代碼自動(dòng)補(bǔ)全、代碼理解和重構(gòu)、命令建議和執(zhí)行等高級(jí)功能，極大地提高了開發(fā)效率和代碼質(zhì)量。Windsurf Editor的定價(jià)策略和市場(chǎng)定位旨在為專業(yè)開發(fā)者提供高端的編程工具，以滿足他們對(duì)高性能和高效率的需求。

AI編程集成開發(fā)環(huán)境代碼自動(dòng)補(bǔ)全

ElevenLabs Projects:將書籍轉(zhuǎn)化為有聲書，腳本轉(zhuǎn)化為播客的全面工作流程

ElevenLabs Projects 是一個(gè)專注于長(zhǎng)音頻內(nèi)容制作的平臺(tái)，它允許用戶將書籍和腳本轉(zhuǎn)換成有聲書和播客。該產(chǎn)品支持多種文件格式，擁有廣泛的語音庫，并提供情感范圍和上下文適應(yīng)的AI語音技術(shù)。它還提供了一系列高級(jí)功能，如多語言支持、特定文本片段的語音分配和片段編輯。ElevenLabs Projects 以其高質(zhì)量的AI音頻技術(shù)，幫助創(chuàng)作者和企業(yè)在全球范圍內(nèi)傳播他們的故事。

AI音頻有聲書播客

Anthropic Prompt Improver:提升AI模型響應(yīng)質(zhì)量的開發(fā)者控制臺(tái)

Anthropic Console是一個(gè)開發(fā)者控制臺(tái)，它通過引入改進(jìn)提示和直接管理示例的功能，幫助開發(fā)者利用先進(jìn)的提示工程技術(shù)來優(yōu)化AI模型的響應(yīng)。該控制臺(tái)支持鏈?zhǔn)剿伎?、示例?biāo)準(zhǔn)化、示例增強(qiáng)、重寫和預(yù)填充等功能，以提高AI模型的準(zhǔn)確性和可靠性。Anthropic Console的背景是隨著AI技術(shù)的發(fā)展，對(duì)于更高效、準(zhǔn)確的AI應(yīng)用需求的增加，特別是在多標(biāo)簽分類測(cè)試和文本摘要任務(wù)中，通過使用Anthropic Console，可以顯著提高模型的準(zhǔn)確性和輸出的字?jǐn)?shù)控制。

AI模型提示工程 XML格式

Qwen2.5-Coder-32B-Instruct-GPTQ-Int8:開源代碼生成語言模型

Qwen2.5-Coder-32B-Instruct-GPTQ-Int8是Qwen系列中針對(duì)代碼生成優(yōu)化的大型語言模型，擁有32億參數(shù)，支持長(zhǎng)文本處理，是當(dāng)前開源代碼生成領(lǐng)域最先進(jìn)的模型之一。該模型基于Qwen2.5進(jìn)行了進(jìn)一步的訓(xùn)練和優(yōu)化，不僅在代碼生成、推理和修復(fù)方面有顯著提升，而且在數(shù)學(xué)和通用能力上也保持了優(yōu)勢(shì)。模型采用GPTQ 8-bit量化技術(shù)，以減少模型大小并提高運(yùn)行效率。

代碼生成長(zhǎng)文本處理量化技術(shù)

Qwen2.5-Coder-32B-Instruct-GPTQ-Int4:開源的32億參數(shù)代碼生成語言模型

Qwen2.5-Coder-32B-Instruct-GPTQ-Int4是基于Qwen2.5的代碼生成大型語言模型，具有32.5億參數(shù)量，支持長(zhǎng)文本處理，最大支持128K tokens。該模型在代碼生成、代碼推理和代碼修復(fù)方面有顯著提升，是當(dāng)前開源代碼語言模型中的佼佼者。它不僅增強(qiáng)了編碼能力，還保持了在數(shù)學(xué)和通用能力方面的優(yōu)勢(shì)。

代碼生成代碼推理代碼修復(fù)

MikuDance:基于擴(kuò)散的混合運(yùn)動(dòng)動(dòng)態(tài)角色藝術(shù)動(dòng)畫生成工具

MikuDance是一個(gè)基于擴(kuò)散的動(dòng)畫生成管道，它結(jié)合了混合運(yùn)動(dòng)動(dòng)態(tài)來動(dòng)畫化風(fēng)格化的角色藝術(shù)。該技術(shù)通過混合運(yùn)動(dòng)建模和混合控制擴(kuò)散兩大關(guān)鍵技術(shù)，解決了高動(dòng)態(tài)運(yùn)動(dòng)和參考引導(dǎo)錯(cuò)位在角色藝術(shù)動(dòng)畫中的挑戰(zhàn)。MikuDance通過場(chǎng)景運(yùn)動(dòng)跟蹤策略顯式地在像素級(jí)空間中建模動(dòng)態(tài)相機(jī)，實(shí)現(xiàn)統(tǒng)一的角色場(chǎng)景運(yùn)動(dòng)建模。在此基礎(chǔ)上，混合控制擴(kuò)散隱式地對(duì)不同角色的尺度和體型進(jìn)行對(duì)齊，允許靈活控制局部角色運(yùn)動(dòng)。此外，還加入了運(yùn)動(dòng)自適應(yīng)歸一化模塊，有效注入全局場(chǎng)景運(yùn)動(dòng)，為全面的角色藝術(shù)動(dòng)畫鋪平了道路。通過廣泛的實(shí)驗(yàn)，MikuDance在各種角色藝術(shù)和運(yùn)動(dòng)引導(dǎo)下展示了其有效性和泛化能力，始終如一地產(chǎn)生具有顯著運(yùn)動(dòng)動(dòng)態(tài)的高質(zhì)量動(dòng)畫。

動(dòng)畫角色藝術(shù) 混合運(yùn)動(dòng)動(dòng)態(tài)

Argil article to video:將文章轉(zhuǎn)化為引人入勝的視頻

Argil article to video是一個(gè)在線平臺(tái)，利用人工智能技術(shù)將文章內(nèi)容快速轉(zhuǎn)化為視頻，以提高搜索引擎排名、增加用戶停留時(shí)間，并開辟新的獲取渠道。該產(chǎn)品通過自動(dòng)化編輯視頻，添加字幕、媒體素材和音樂等，幫助用戶以極低的成本或零成本創(chuàng)建視頻內(nèi)容。

內(nèi)容轉(zhuǎn)化視頻制作 SEO

Recall.ai Output Media:實(shí)時(shí)AI代理，將音頻視頻直接集成至視頻會(huì)議。

Recall.ai Output Media是一個(gè)創(chuàng)新的AI技術(shù)，它允許用戶將任何基于Web的AI應(yīng)用實(shí)時(shí)集成到視頻會(huì)議中。這項(xiàng)技術(shù)通過渲染超低延遲的音頻和視頻，并通過機(jī)器人將其流式傳輸?shù)揭曨l會(huì)議中，極大地?cái)U(kuò)展了AI在會(huì)議場(chǎng)景中的應(yīng)用。Recall.ai的這項(xiàng)技術(shù)不僅提高了會(huì)議的互動(dòng)性，還為各種行業(yè)提供了構(gòu)建實(shí)時(shí)、互動(dòng)AI代理的可能性，如銷售代理、教練、招聘人員、項(xiàng)目經(jīng)理等。

AI 視頻會(huì)議實(shí)時(shí)音頻

超能文獻(xiàn)·文檔翻譯:AI驅(qū)動(dòng)的醫(yī)學(xué)文獻(xiàn)搜索引擎，一鍵翻譯多種文檔格式。

超能文獻(xiàn)是一個(gè)AI驅(qū)動(dòng)的醫(yī)學(xué)文獻(xiàn)搜索引擎，提供文檔翻譯服務(wù)，支持PDF、PPTX、XLSX、DOCX、TXT、HTML等多種文件格式的一鍵翻譯。產(chǎn)品背景信息顯示，它旨在幫助用戶快速準(zhǔn)確地翻譯醫(yī)學(xué)文獻(xiàn)，提高工作效率。產(chǎn)品的主要優(yōu)點(diǎn)包括內(nèi)容專業(yè)精準(zhǔn)、版式完美如初、一鍵下載和自由編輯。此外，產(chǎn)品還提供了新用戶注冊(cè)贈(zèng)送7天會(huì)員權(quán)益、注冊(cè)即送500積分以及每日登錄贈(zèng)送100積分等優(yōu)惠活動(dòng)。

醫(yī)學(xué)文獻(xiàn) 文檔翻譯 AI驅(qū)動(dòng)

Pyramid Flow miniFLUX:高效率自回歸視頻生成模型

Pyramid Flow miniFLUX是一個(gè)基于流匹配的自回歸視頻生成方法，專注于訓(xùn)練效率和開源數(shù)據(jù)集的使用。該模型能夠生成高質(zhì)量的10秒768p分辨率、24幀每秒的視頻，并自然支持圖像到視頻的生成。它是視頻內(nèi)容創(chuàng)作和研究領(lǐng)域的一個(gè)重要工具，尤其在需要生成連貫動(dòng)態(tài)圖像的場(chǎng)合。

自回歸視頻生成流匹配圖像到視頻

ZEPIC:AI驅(qū)動(dòng)的客戶參與和營(yíng)銷自動(dòng)化平臺(tái)

ZEPIC是一個(gè)AI驅(qū)動(dòng)的客戶參與和營(yíng)銷自動(dòng)化平臺(tái)，它通過統(tǒng)一數(shù)據(jù)和渠道，賦予營(yíng)銷人員建立更深層次聯(lián)系和推動(dòng)實(shí)際業(yè)務(wù)影響的能力，更快、更智能。ZEPIC提供了一個(gè)內(nèi)置的客戶數(shù)據(jù)平臺(tái)（CDP），通過集成來自50多個(gè)工具的數(shù)據(jù)，創(chuàng)建每個(gè)客戶的全面360度視圖。它的實(shí)時(shí)跟蹤和統(tǒng)一檔案確保用戶始終擁有最新的信息。ZEPIC的主要優(yōu)點(diǎn)包括AI驅(qū)動(dòng)的營(yíng)銷自動(dòng)化、客戶數(shù)據(jù)的集中管理、跨渠道的個(gè)性化客戶體驗(yàn)以及實(shí)時(shí)的洞察和報(bào)告。產(chǎn)品定位于幫助企業(yè)提升營(yíng)銷效率和客戶滿意度，通過智能化工具降低運(yùn)營(yíng)成本。

AI營(yíng)銷客戶數(shù)據(jù)平臺(tái) 營(yíng)銷自動(dòng)化

OpenAI錯(cuò)過的7個(gè)月，智能體2.0借終端爆發(fā)？

今日大家都在搜的詞：

熱文

站長(zhǎng)商機(jī)

OpenAI錯(cuò)過的7個(gè)月，智能體2.0借終端爆發(fā)？