聲明:本文來自于微信公眾號(hào)光錐智能,作者:魏琳華劉俊宏,授權(quán)站長(zhǎng)之家轉(zhuǎn)載發(fā)布。
2024年3月,OpenAI關(guān)停僅運(yùn)營(yíng)兩個(gè)月的GPT Store。
時(shí)隔僅7個(gè)月,同樣是做Agent平臺(tái),OpenAI現(xiàn)任董事會(huì)主席Bret Taylor創(chuàng)立的新公司,融了45億美元。整個(gè)AI界在前后發(fā)布的Claude的“Computer Use”和智譜的AutoGLM智能體下,開始了一場(chǎng)“丟下”O(jiān)penAI的狂歡。
10月26日,微軟開源了基于純視覺的GUI屏幕解析工具OmniParser,谷歌的同類產(chǎn)品“Project Jarvis”也有望在12月上線。
加入狂歡的不止是大模型廠商。和智譜宣布達(dá)成深度合作的一個(gè)月后,榮耀也交出了自己的答卷。10月30日,榮耀CEO趙明展示了AI智能體YOYO自主處理任務(wù)的能力,只需要對(duì)手機(jī)說一句“訂2000杯咖啡”,YOYO就幫他在附近下單成功,忙壞了周圍的咖啡店和外賣員。
無論是電腦端還是手機(jī)端,Agent開始真正實(shí)現(xiàn)了“自主性”:從點(diǎn)咖啡到買牙膏,無需人類操作,一句指令就能讓AI完成所有任務(wù)。和前一代只能提建議的Agent相比,AutoGLM實(shí)現(xiàn)了從1.0到2.0的進(jìn)階。
二級(jí)市場(chǎng)的熱度,也被智能體點(diǎn)燃。發(fā)布AutoGLM后,一眾投資、參股智譜,或是和智譜合作密切的公司股價(jià)明顯上漲,“智譜概念股”走強(qiáng)。上周開始,智譜概念股持續(xù)活躍,豆神教育、思美傳媒、常山北明等相關(guān)概念股一度漲停。
當(dāng)端側(cè)大模型開始落地到手機(jī)端,苦于落地的大模型廠商,不僅僅只將目光放在了軟件能力上,從智能體到做以大模型為能力中心的“AI OS”,大模型創(chuàng)企們找到了AI大模型商業(yè)化的新道路。
在OpenAI錯(cuò)過的7個(gè)月中間,Agent到底發(fā)生了什么變化?
AIAgent進(jìn)入2.0時(shí)代
為什么智能體突然點(diǎn)燃了二級(jí)市場(chǎng)的熱情?
華泰證券指出,AI Agent已經(jīng)解決了大模型從“言”到“行”的突破。
對(duì)比上一代“只動(dòng)嘴皮子”的Agent,無論是Computer Use還是Phone Use,上述智能體產(chǎn)品均實(shí)現(xiàn)了AI端的自主操作:接收到指令后,AI將親自接管設(shè)備,包括點(diǎn)擊、輸入等交互功能。
以Anthropic發(fā)布的“Computer Use”為例。演示中,無需人類操作,它完成了“填寫公司表格數(shù)據(jù)”的任務(wù)。
接到上述任務(wù)后,AI將工作拆分為多個(gè)步驟:
1、首先,查找已有表格中是否有所需公司的相關(guān)數(shù)據(jù);
2、在查詢不到結(jié)果后,AI打開搜索界面,自行查找相關(guān)公司的數(shù)據(jù)信息;
3、最后,它對(duì)應(yīng)著表格的空缺部分逐個(gè)完成數(shù)據(jù)的輸入。
通過在對(duì)話欄輸入指令,AI自主根據(jù)表格信息情況完成填寫
在展示視頻中,智譜發(fā)布的AutoGLM 調(diào)用手機(jī)上的多個(gè)App也很絲滑,當(dāng)用戶要求購買瑞幸的美式咖啡,AutoGLM打開美團(tuán)搜索品牌,并把想要的商品自動(dòng)加入購物車,并跳轉(zhuǎn)至結(jié)算界面。交給用戶的,只有選擇“下單”按鈕。
根據(jù)用戶的需求,AI自主選定咖啡的口味
微軟也在近日開源了一個(gè)用于識(shí)別Web端視覺界面的工具產(chǎn)品OmniParser。在Github展示頁的示例視頻中,OmniParser也做到了自主操作的能力:
當(dāng)交付給它一個(gè)收集素食餐廳的任務(wù)時(shí),OmniParser通過解析界面元素,在網(wǎng)頁中定位到“餐廳”字樣。檢索不符合要求后,它再自動(dòng)拉起搜索框,根據(jù)關(guān)鍵詞定位到相關(guān)餐廳,并完成勾選
這些對(duì)人類來說非常簡(jiǎn)單的操作,交給AI,需要克服的障礙不少:
首先,無論是電腦端還是手機(jī)端的交互,Agent均需要完成點(diǎn)擊、劃動(dòng)、查找等步驟,如何讓模型學(xué)會(huì)并做到精準(zhǔn)操作,這是阻礙Agent進(jìn)化的一大難題。
而這個(gè)難題的突破,得益于基礎(chǔ)大模型發(fā)展帶來的能力躍遷。
比如,如何讓AI理解GUI(圖形用戶界面)并完成操作?
Agent的核心系統(tǒng)分為感知-規(guī)劃-記憶-行動(dòng)-工具五個(gè)部分,其中,感知系統(tǒng)負(fù)責(zé)捕捉外界的視覺、聽覺、文本信息,并加以分析。通過對(duì)上述信息的完整認(rèn)知,Agent會(huì)結(jié)合這些信息對(duì)接受到的任務(wù)進(jìn)行規(guī)劃,也就是用CoT(思維鏈)的方式拆解成多個(gè)步驟,依次執(zhí)行。
但在2023年,大語言模型仍然停留在文本能力階段,在視頻、語音等多模態(tài)能力發(fā)展尚未突破的時(shí)候,Agent受底層基座能力的限制,尚且無法完整感知環(huán)境,從而在多個(gè)任務(wù)上的執(zhí)行過程中犯錯(cuò),自然也難以達(dá)到應(yīng)用階段的水準(zhǔn)。
對(duì)此,微軟的解決方案是,通過屏幕截圖的方式,將屏幕中的所有可交互圖標(biāo)和按鈕一一標(biāo)注出來,將它們提取為信息,再根據(jù)識(shí)別的內(nèi)容進(jìn)行定義,讓AI理解每個(gè)交互點(diǎn)的作用,從而實(shí)現(xiàn)自主操作。而智譜AutoGLM在手機(jī)端的操作應(yīng)用,同樣借助了多模態(tài)能力來完成對(duì)UI的識(shí)別解讀。
而在上述基礎(chǔ)上,針對(duì)數(shù)據(jù)不足、策略分布漂移等問題,智譜也找到了問題的解法。
比如,受制于軌跡數(shù)據(jù)獲取成本高昂和數(shù)據(jù)不足的問題,無法對(duì)大模型智能體完成充分的動(dòng)作執(zhí)行能力訓(xùn)練。
為此,他們?cè)贏utoGLM中引入自研的“基礎(chǔ)智能體解耦合中間界面”設(shè)計(jì)。以“提交訂單”為例,把AutoGLM作為中間界面,將「任務(wù)規(guī)劃」與「動(dòng)作執(zhí)行」兩個(gè)階段通過自然語言中間界面進(jìn)行解耦合。
對(duì)比過往端到端智能體的直接處理,這種方式將AI的操作準(zhǔn)確度提升了將近一倍。
除了實(shí)現(xiàn)精準(zhǔn)交互操作的需求之外,面對(duì)種類繁多的復(fù)雜任務(wù),智能體還需要具備即時(shí)規(guī)劃和糾正能力,從而在遇到問題的時(shí)候及時(shí)給出有效的解決方法。
對(duì)此,AutoGLM上應(yīng)用了“自進(jìn)化在線課程強(qiáng)化學(xué)習(xí)框架”技術(shù),讓智能體在基于手機(jī)和電腦的環(huán)境中不斷學(xué)習(xí)和提升應(yīng)對(duì)能力。
“就像一個(gè)人,在成長(zhǎng)過程中,不斷獲取新技能?!睆堸i解釋道。
在上述兩種能力的加持下,AutoGLM 在 Phone Use 和 Web Browser Use 上都取得了大幅的性能提升。官方數(shù)據(jù)顯示,在 WebArena-Lite 評(píng)測(cè)基準(zhǔn)中,AutoGLM 更是相對(duì) GPT-4o 取得了約200% 的性能提升。
總體來看,在大語言模型和多模態(tài)模型進(jìn)化一年之后,AI Agent終于實(shí)現(xiàn)了從單體智能,向使用工具方向邁進(jìn),完成了2.0的進(jìn)階。
學(xué)會(huì)使用工具
人工智能進(jìn)入L3階段
縱觀人工智能的發(fā)展史,人工智能和人類的進(jìn)化路徑何其類似,正在經(jīng)歷從學(xué)會(huì)“語言”,到“解決問題”,再到“使用工具”。
3個(gè)多月前,OpenAI將通往AGI之路劃分為五個(gè)階段。AutoGLM上線當(dāng)天,智譜也向外界公示了自己的技術(shù)路線圖。
首先在L1階段,AI的重點(diǎn)在于學(xué)會(huì)使用“語言”,包括語音、文字還有視覺。
回顧兩年前,從ChatGPT誕生開始,人們對(duì)AI的注意力開始轉(zhuǎn)移到生成式AI上。在短短半年的時(shí)間里,大語言模型頻頻涌現(xiàn):GPT、Claude、GLM等系列大模型出現(xiàn)并持續(xù)更新?lián)Q代,它們均圍繞語言理解、邏輯能力等指標(biāo)完成進(jìn)化。
在大語言模型之外,AI廠商還把關(guān)注點(diǎn)放在了另一座高峰——多模態(tài)大模型上。圍繞視覺、聽覺等能力,實(shí)現(xiàn)了從無到有的突破:
從今年上半年開始,端到端語音模型開始先后發(fā)布,它讓AI能夠“聽到”人的情緒,并完成有溫度的交流。
今年4月,GPT-4o的發(fā)布會(huì)向人們展示了和AI實(shí)時(shí)對(duì)話的魅力。和以往模型相比,端到端語音模型將過往的多個(gè)大模型串聯(lián)完成的任務(wù)壓縮到一個(gè)模型中完成,降低時(shí)延的同時(shí),還能完整保留人聲的情緒、停頓等信息,可以隨時(shí)打斷它并繼續(xù)交流。
多模態(tài)模型則讓大模型裝上了“眼睛”,看到并理解現(xiàn)實(shí)世界環(huán)境的變化。
以智譜的GLM-4V-Plus為例,它不僅能夠完成大語言模型的對(duì)話能力,同時(shí),在視頻、圖像的理解能力上提升明顯。智譜還推出了視頻通話API接口GLM-4-Plus-VideoCall,讓大模型能夠和人類打“視頻通話”,識(shí)別周邊物品并對(duì)答如流。
“大腦是一個(gè)非常復(fù)雜的系統(tǒng),包括聽覺、視覺、味覺、語言等多模態(tài)的感知與理解能力,有短期和長(zhǎng)期記憶能力,深度思考和推理能力,以及情感和想象力?!睆堸i說。
可以看到,當(dāng)前階段下,大模型能力開始能夠模擬人腦的一些功能,包括視覺、聽覺、語言理解等能力。
智譜方面透露,在他們規(guī)劃的五個(gè)階段中,L1能力“已經(jīng)達(dá)到了80-90%”。
在聽說讀寫等基本能力的進(jìn)化過程中,代表L2的邏輯思維能力,也在快速進(jìn)化。
L2的一個(gè)里程碑就是OpenAI發(fā)布的o1模型,跳脫出過往的GPT大家族,專注于CoT(思維鏈)能力上精進(jìn),它學(xué)會(huì)了慢思考:在應(yīng)用思維鏈,將指令拆分為多個(gè)簡(jiǎn)單步驟完成的同時(shí),o1用強(qiáng)化學(xué)習(xí)的能力,用于識(shí)別和糾正錯(cuò)誤。
OpenAI表示,隨著強(qiáng)化學(xué)習(xí)的增加和思考時(shí)間的增加,o1的性能會(huì)持續(xù)提高。官方數(shù)據(jù)顯示,在Codeforces主辦的編程競(jìng)賽上,o1取得了超越93%參賽者的成績(jī),并在物理、化學(xué)、生物等基礎(chǔ)學(xué)科的能力指標(biāo)上取得了超過博士生的水準(zhǔn)。
因此,o1也被視為人類在L2邏輯思維能力上取得的新進(jìn)化,開始展現(xiàn)和人類旗鼓相當(dāng)?shù)耐评砟芰Α?/p>
當(dāng)L1語言和多模態(tài)能力基本打通后,基于上述底層能力,才能涌現(xiàn)出達(dá)到L2邏輯思維能力和L3工具能力級(jí)別的新產(chǎn)品。
而這次升級(jí)的智能體操控智能終端的能力,實(shí)際上在L3階段。
正如哲學(xué)家恩格斯所言,人類和動(dòng)物,最本質(zhì)的區(qū)別就是——能否制造和使用工具。
智能體2.0的升級(jí),也代表著人類在通往AGI的路線上,又拿下了一城。
“AutoGLM 可以看作是智譜在 L3工具能力方面的探索和嘗試”,張鵬表示。
展望L4和L5,OpenAI認(rèn)為,L4階段,AI能夠自我完成創(chuàng)新;L5階段,AI則具備融入或自成組織的能力。
而智譜也對(duì)L4和L5階段給出了新的定義,相對(duì)于OpenAI,智譜對(duì)AGI的期待更加激進(jìn)。
“我們認(rèn)為 L4級(jí)人工智能意味著 AI 可以實(shí)現(xiàn)自我學(xué)習(xí)、自我反思和自我改進(jìn)。L5則意味著人工智能全面超越人類,具備探究科學(xué)規(guī)律、世界起源等終極問題的能力?!睆堸i表示。
端側(cè)大模型
AI落地的新高地
當(dāng)AI進(jìn)階至L3階段,大模型廠商們?cè)谏虡I(yè)化的進(jìn)程上也按下了“加速鍵”。
事實(shí)上,終端硬件和大模型廠商們正在雙向奔赴。觀察今年發(fā)布的AI硬件,是否搭載Agent,對(duì)應(yīng)著產(chǎn)品AI能力的“天差地別”。
最顯著的對(duì)比,是10月30日發(fā)布的,搭載YOYO智能體的榮耀Magic7。
基于智能體可直接執(zhí)行任務(wù)的特性,趙明一句2000杯飲料的需求,爆單了附近所有咖啡店。從“一步步”交互,到智能體“脫手自動(dòng)執(zhí)行”,趙明自豪地宣布道,“手機(jī)進(jìn)入自動(dòng)駕駛時(shí)代”。
為了挖掘硬件端和AI能力結(jié)合的潛力,智能終端廠商和大模型公司的聯(lián)姻早已見怪不怪。
其中,智譜是當(dāng)前國(guó)內(nèi)大模型創(chuàng)企中和手機(jī)廠商聯(lián)動(dòng)最多的一家。此前,智譜已經(jīng)和榮耀官宣戰(zhàn)略合作,而在最近半年的時(shí)間中,其先后和三星、英特爾、高通聯(lián)手,通過提供底層AI能力支持終端智能化升級(jí)。
同樣,蘋果就認(rèn)為,Apple Intelligence的智能體將直接改善蘋果手機(jī)的銷量。在剛剛結(jié)束的蘋果2024年四季度財(cái)報(bào)電話會(huì)中,CEO庫克稱,“iPhone16系列賣得比iPhone15系列更好,Apple Intelligence上線后,用戶升級(jí)iOS18.1版本的積極性都是去年同期的兩倍?!?/p>
加持AI,將是手機(jī)廠商未來多年的重要戰(zhàn)略。根據(jù)IDC預(yù)測(cè),預(yù)計(jì)2024年AI手機(jī)出貨量將同比增長(zhǎng)363.6%,達(dá)到2.3億部。IDC手機(jī)研究總監(jiān)Anthony Scarsella表示,在2024年實(shí)現(xiàn)三位數(shù)增長(zhǎng)之后,AI手機(jī)將連續(xù)四年實(shí)現(xiàn)兩位數(shù)增長(zhǎng)。
為何硬件終端廠商如此熱衷于智能體的落地?背后是智能體從底層顛覆了硬件廠商與消費(fèi)平臺(tái)之間的權(quán)力地位。
以“趙明點(diǎn)咖啡”為例,在沒有智能體之前,用戶點(diǎn)咖啡大多依賴渠道慣性。用戶需要根據(jù)習(xí)慣、優(yōu)惠券、積分等因素,在美團(tuán)、星巴克小程序、餓了么等平臺(tái)之間選擇下單。而有了替用戶下單的智能體之后,由于平臺(tái)不再直接對(duì)接客戶,智能體有了為平臺(tái)直接分配訂單的權(quán)利。換句話說,通過搭載智能體,AI終端廠商有了向軟件平臺(tái)“征稅”的權(quán)利。
如同蘋果當(dāng)前被無數(shù)廠商“痛”,又無可奈何的“蘋果稅”。正是因?yàn)檎莆樟薃pp Store的分發(fā)和流水,蘋果才能依靠幾乎“躺賺”的商業(yè)模式,才能以平均高達(dá)70%以上毛利率的軟件服務(wù)收入,拉高整個(gè)公司的營(yíng)收質(zhì)量。
據(jù)2024年四季報(bào)顯示,蘋果本季度軟件服務(wù)業(yè)務(wù)的營(yíng)收占比為26%,業(yè)務(wù)毛利率為74%,公司整體毛利率為44%。
看到如此優(yōu)質(zhì)的營(yíng)收,也難怪AI硬件廠商“大干快上”智能體。而看到了這場(chǎng)全新變現(xiàn)模式的大模型公司,也紛紛與AI硬件廠商展開了合作。
除了加碼修圖、文本總結(jié)等AI軟件功能、植入智能體之外,打造端側(cè)大模型,并將其深度融入硬件系統(tǒng),成為原生能力,是手機(jī)廠商加碼AI能力的下一步。
基于端側(cè)大模型提供的核心能力,AI手機(jī)正在做到更多之前無法完成的事情,用智能體做事還是第一步。
相比之下,智譜還有更加宏大的野心,他們更希望將AI能力深度植入終端,用大模型重塑操作系統(tǒng)。
“希望我們的努力能夠推動(dòng)人機(jī)交互范式實(shí)現(xiàn)新轉(zhuǎn)變,為構(gòu)建 GLM-OS ,即以大模型為中心的通用計(jì)算系統(tǒng)打好基礎(chǔ)。”在發(fā)布AutoGLM時(shí),張鵬如是說。
不僅智能手機(jī)關(guān)注AI能力的加碼,芯片端也在加速和AI能力的融合。上個(gè)月,高通宣布將智譜GLM-4V端側(cè)視覺大模型搭載到芯片驍龍8至尊版,進(jìn)行深度適配和推理優(yōu)化。其推出的應(yīng)用ChatGLM支持用相機(jī)進(jìn)行實(shí)時(shí)語音對(duì)話,也支持上傳照片和視頻進(jìn)行對(duì)話。
在AI完美落地具身智能之前,手機(jī)、電腦等終端將是AI大模型落地的更佳場(chǎng)景。通過L3工具能力的展現(xiàn),AutoGLM們將有機(jī)會(huì)撕開新的商業(yè)模式。
不過,智譜的AutoGLM目前還是通過調(diào)用手機(jī)的無障礙權(quán)限實(shí)現(xiàn)跨應(yīng)用調(diào)用,未來如果想要完成更加復(fù)雜的指令,還需要和智能終端廠商以及應(yīng)用開發(fā)商達(dá)成深度合作,從而獲取更多操作權(quán)限。
大模型的“軟”實(shí)力,最終還得“硬”實(shí)現(xiàn)。
目前,大模型的商業(yè)化仍然是以軟件付費(fèi)為主,包括面向C端的訂閱制和面向B端的API接口或者項(xiàng)目制。但在未來,要想真正實(shí)現(xiàn)AGI,以及釋放更強(qiáng)大的能力,還得是通過硬件來和物理世界交互。
智能體在端側(cè)的落地,就像一個(gè)機(jī)遇,幫助大模型公司在硬件上積累了眾多的工程化能力,甚至還能獲得一些不錯(cuò)的邊緣數(shù)據(jù)。這給未來,無論是通過XR設(shè)備還是具身智能機(jī)器人,來完成物理世界的交互,都打下了一個(gè)好的基礎(chǔ)。
未來,在智能終端上的落地,將是大模型技術(shù)和商業(yè)化的新高地。
(舉報(bào))