通往AGI先進(jìn)之路,是什么?
這世界,沒有一個(gè)完整的定義,也沒有具體的答案。
此前曝出的OpenAI秘密路線圖,將通往AGI目標(biāo)劃分五級。
而「草莓」o1 模型出世,代表著第二級已經(jīng)實(shí)現(xiàn)。
李飛飛估值 10 億美金獨(dú)角獸World Labs,將「空間智能」看作通向AGI重要的橋梁。
他們計(jì)劃打造出「大世界模型」(LWM),通過對世界建模,讓AI在3D世界中去感知、去生成、去互動(dòng)。
國內(nèi)一家AI初創(chuàng)團(tuán)隊(duì),對此也有不同的看法。
他們認(rèn)為,「群體智能」是邁向更廣泛的通用人工智能的路線。未來,世界每個(gè)設(shè)備都擁有自己的智能,能夠以類人的方式交互。
不過,實(shí)現(xiàn)這一想法的前提是,我們需要一個(gè)創(chuàng)新的算法架構(gòu)。
值得一提的是,這個(gè)團(tuán)隊(duì)卻做了一件「反直覺」的事——首創(chuàng)非Transformer獨(dú)特路線。
基于全新架構(gòu),他們打造的Yan系列模型已經(jīng)植入到樹莓派、機(jī)器人、AIPC等終端設(shè)備中。
恰在RockAI開放日上,多模態(tài)模型Yan1. 3 全面升級,直接擊敗開源Llama 3,「真端側(cè)」比較強(qiáng)大腦誕生了!
模型端到端,秒級實(shí)時(shí)人機(jī)交互
全新迭代后的Yan1.3,支持從文本、音頻、視覺輸入,并以語音、文本方式輸出。
它模擬了人類復(fù)雜的感知系統(tǒng),既能聽懂自然語言、看懂視覺信息,也能通過語音方式表達(dá)。
可以說,它是全球頭個(gè)人機(jī)交互領(lǐng)域中,端到端的多模態(tài)大模型。
憑借出色的架構(gòu)設(shè)計(jì),Yan1. 3 模型在兼容性和性能,取得了特出的表現(xiàn),從低算力到高算力全面覆蓋。
在不同終端上的體驗(yàn),多模態(tài)Yan1. 3 更是實(shí)現(xiàn)了秒級實(shí)時(shí)響應(yīng)。
在CPU上秒級響應(yīng),GPU上更是有百毫秒級的人機(jī)交互,體驗(yàn)非常絲滑趕超云端的大模型。
不如一起來看看,Yan1. 3 在手機(jī)、PC、機(jī)器人、無人機(jī)上,如何無損部署的。
低配 1500 元可跑,真·AI手機(jī)來了
在人手一臺手機(jī)的時(shí)代,搭載一個(gè)本地的大模型,那才是真·AI手機(jī)。
現(xiàn)場演示中,離線部署Yan1.3 3B參數(shù)的手機(jī),直接斷網(wǎng),上演了不用聯(lián)網(wǎng)也能體驗(yàn)LLM的精彩一幕。
告訴語音助手RockAI自己的需求——介紹一下上海。它在遵循指令后,瞬間給出了關(guān)于上海的一些簡單概要。
它還可以跨應(yīng)用,完成系統(tǒng)的調(diào)用。
讓它打開相冊,并找出一張夕陽的照片。
RockAI不僅準(zhǔn)確找到了夕陽照片,還給出了小紅書的風(fēng)格描述,這種費(fèi)腦的事兒,它全部代勞了。
更驚艷的是,告訴它今天是小明生日,并幫自己為其送上祝福。
RockAI直接進(jìn)入短信界面,自動(dòng)生成編輯了一段內(nèi)容,你所做的就是點(diǎn)擊「發(fā)送」了。
可見,一個(gè) 30 億參數(shù)離線模型,同時(shí)具備了以文找圖、以圖生文,Agent、語音助手等能力,強(qiáng)大到足以讓人震撼。
在同等的手機(jī)硬件配置上,Yan1. 3 模型相比Transfomer有30%的性能超越。
或許有的人會問,能夠運(yùn)行這樣的模型,一定需要高配的手機(jī)。
RockAI聯(lián)創(chuàng)鄒佳思稱,從低端¥ 1500 到中端¥ 3000 配置,而且還只是8G運(yùn)行內(nèi)存,都可以無損適配。
懂人話有效助手,AI PC更便利
不僅如此,在個(gè)人PC上,業(yè)界早就掀起了AI PC的概念。
但若是沒有在設(shè)備端完全部署模型,AI能力的使用會嚴(yán)重受限。而且,AI PC根本無法普及到大多數(shù)用戶。
接下來,這段現(xiàn)場演示中,直接為AI PC掐斷了網(wǎng)線。
上傳一段主持人的天氣預(yù)報(bào)音頻,然后AI智能助手將其實(shí)時(shí)轉(zhuǎn)錄成了文字。
轉(zhuǎn)寫完成后,還能幫你立即總結(jié)出一份摘要。
另外,每個(gè)人辦公時(shí)均會遇到一個(gè)困擾,「xxx圖片」誰知道保存到了哪個(gè)文件夾。
現(xiàn)在,這個(gè)煩惱完全可以打消了。
只要一句話,AI智能助手就能直接幫你找到想要的那個(gè)圖片。
而且,它還可以支持以圖搜圖的方式。
這些功能的實(shí)現(xiàn),僅需要一臺配備英特爾Core i5 主機(jī)即可流暢運(yùn)行。
四步成詩,輕松拿捏新中式
Yan1. 3 還在人形機(jī)器人上,實(shí)現(xiàn)了離線運(yùn)行。
我們都知道,構(gòu)成機(jī)器人最核心的三要素,便是大腦、小腦、本體。
如果讓一個(gè)冰冷的機(jī)械,同時(shí)具備「看聽說想動(dòng)」的能力,并基于已有的知識完成決策,最后指揮肢體進(jìn)行行動(dòng)。
這樣的前提,一定是離不開大模型、分層控制算法的植入。
當(dāng)你呼叫小蘇小蘇,你看見了什么?
憑借強(qiáng)大的多模態(tài)認(rèn)知能力,它準(zhǔn)確地描述出了當(dāng)前周圍的環(huán)境和布局。
另外,Yan1.3「大腦」控制的軀體,還能完成各類有效復(fù)雜的任務(wù)。
現(xiàn)場,讓小蘇吟詩一首——關(guān)于冬天的七言絕句,并在 4 步之內(nèi)完成。
只見小蘇一邊走,一邊完成了絕美的創(chuàng)作。
寒風(fēng)凌冽雪紛飛, 萬物蕭疏鳥自棲。 唯有梅花凌雪放, 清香四溢滿庭芳。
有趣的是,當(dāng)小蘇吟詩后離拍攝者太近,讓它讓一讓。
只見,憨態(tài)可掬的它向另一邊慢慢踱步。
其實(shí),在今年世界人工智能大會上,搭載Yan模型,基于樹莓派打造的胖虎機(jī)器人就亮相了。
它在現(xiàn)場七步成詩、詠春拳法等各種精彩演示,吸引了一大波圍觀歪果仁觀看。
城市巡檢拍照,無人機(jī)全包了
而在無人機(jī)方面,搭載Yan1. 3 后的用法就更多了。
它不僅可以治安巡邏、交通巡檢,異常監(jiān)控,還可以當(dāng)那個(gè)為你抓拍美照的「男友」。
當(dāng)然了,智能巡檢這類任務(wù),對于一個(gè)城市管理來說非常重要。
植入離線模型的無人機(jī),可以從多方位感知環(huán)境,快速識別圖像信息,自適應(yīng)調(diào)整飛行高度。
它可以搭配手機(jī),完成「端」和「端」的互聯(lián)操作。
交通巡檢過程中,它可以智能識別違規(guī)車輛,并將信息傳送到手機(jī)上。
當(dāng)你自拍找不到滿意角度,直呼「飛龍,給我拍一張氛圍感滿滿的照片」。它一躍升天,拍下了多種角度的照片,通過對照片的多維度評分,還貼心地幫你選好了最美瞬間。
可見,全新升級的Yan1. 3 已經(jīng)賦予了每個(gè)端側(cè)設(shè)備「靈魂」。
它不僅在無人機(jī)、機(jī)器人、PC、手機(jī)等終端設(shè)備中,絲滑適配,而且模型智能能力迎來了全新升級。
無需閹割模型,讓端側(cè)設(shè)備具備了完整性、可持續(xù)性。
這種類人的輸入輸出過程,不僅大幅地提升人機(jī)交互的質(zhì)量,還為未來教育、醫(yī)療等行業(yè)開辟了更廣闊的應(yīng)用場景。
當(dāng)一個(gè)比較強(qiáng)端側(cè)完成進(jìn)化,那么一群比較強(qiáng)端側(cè)協(xié)作,能夠?qū)崿F(xiàn)什么?
簡言之,群體智能。
群體智能,怎么實(shí)現(xiàn)?
其實(shí),群體智能,很早就存在于生物界。
蟻群會一起搬運(yùn)食物、搭建蟻巢;蜜蜂會各司其職,協(xié)作維護(hù)蜂巢;狼群結(jié)隊(duì),捕獲獵物等等。
這些都是,生物界群體智能的體現(xiàn)。
縱觀生物界的發(fā)展,能夠得出一個(gè)基本規(guī)律——個(gè)體智能化程度越高,群體智能的表現(xiàn)力越強(qiáng)。
就像人類一樣,我們的群體智能,所表達(dá)出的文明程度遠(yuǎn)遠(yuǎn)高于蟻群、蜂群、狼群.......
從中汲取靈感,人工智能也會有「群體智能」。
單元大模型的智慧,能夠反哺整個(gè)大模型群體,進(jìn)而讓AI群體更聰明、更智能。
或許你會說,其實(shí)國外很多研究,早就通過多個(gè)智能體協(xié)作,實(shí)現(xiàn)了高性能群體智能。
其實(shí)不然,它們之間有著本質(zhì)的區(qū)別。
智能體本身,存在一個(gè)很大缺陷——不具備自主學(xué)習(xí)能力。
而且,智能體之間的協(xié)作,也是一個(gè)很小范圍的協(xié)作。
究其根本,是因?yàn)榛赥ransformer架構(gòu)大模型搭建的智能體,實(shí)現(xiàn)自我訓(xùn)練非常困難。
群體智能中最核心的要素便是個(gè)體,也就是「端」。
而基于Transformer架構(gòu)的模型,若想在端上運(yùn)行、并自主學(xué)習(xí),根本不可行。
因?yàn)槟P屯ǔ涣炕眉魤嚎s之后,才會植入端設(shè)備。而被閹割之后的模型,就不再具備學(xué)習(xí)能力。
那該如何破解?
為了實(shí)現(xiàn)群體智能,RockAI經(jīng)過多年的技術(shù)沉淀,創(chuàng)舉了不同于Transformer的MCSD架構(gòu),并且提出了「類腦激活」機(jī)制。
這條路線,與OpenAI、World Labs有著本質(zhì)區(qū)別,是國產(chǎn)公司在AGI前沿另辟蹊徑的嘗試。
Transformer不是僅有路徑
當(dāng)前的現(xiàn)狀是,大模型領(lǐng)域早已呈現(xiàn)出Transformer「一家獨(dú)大」的格局。
用AI大神Karpathy的話說:先進(jìn)的GenAI模型,要么是自回歸訓(xùn)練,要么是擴(kuò)散訓(xùn)練,底層的神經(jīng)網(wǎng)絡(luò)通常都是Transformer架構(gòu)。
雖然Transformer自身有許多優(yōu)秀的特質(zhì),但不可否認(rèn),這仍不是一個(gè)百分百美好的架構(gòu)。
甚至,有很多業(yè)界AI大佬已經(jīng)看到了其中的巨大弊端。
首當(dāng)其沖的,就是被詬病已久的幻覺問題。
Yann LeCun認(rèn)為,LLM的幻覺根源于當(dāng)前所使用的自回歸Transformer架構(gòu)。
「幻覺問題是自回歸LLM架構(gòu)特有的」「自回歸LLM會產(chǎn)生幻覺…幻覺是自回歸生成的本質(zhì)缺陷」
這種架構(gòu)上的本質(zhì)缺陷,注定了有一天我們要走出Transformer生態(tài),就像曾經(jīng) 90 年代末走出SVM生態(tài)、 3 年前走出BERT生態(tài)一樣。
就連提出Transformer核心架構(gòu)作者之一Aidan Gomez認(rèn)為,這世間需要比Transformer更好的東西,希望將其取代,把我們帶向更高的性能高地。
「現(xiàn)在使用了太多計(jì)算資源,做了很多浪費(fèi)的計(jì)算」
部署方面,基于Transformer架構(gòu)模型對終端設(shè)備運(yùn)行內(nèi)存、儲存空間提出了更高要求,同時(shí)壓縮后的模型,在實(shí)際推理上大打折扣。
能源方面,今年 3 月,馬斯克表示, 2025 年AI將耗盡電力和變壓器,用他的話來說,「很諷刺的是,我們需要transformers(變壓器)來運(yùn)行transformers(模型)。」
很明顯,無論是從減少幻覺、推動(dòng)技術(shù)進(jìn)步的角度,還是從環(huán)境保護(hù)、促進(jìn)GenAI發(fā)展可持續(xù)的角度,我們都急需一種能夠跳出Transformer「思維圈」的新架構(gòu)誕生。
國內(nèi)頭個(gè)非Attention機(jī)制
RockAI初次提出的MCSD(Multi-Channel Slope and Decay)架構(gòu)就是跳出Transformer路線的一次較好嘗試。
而MCSD比較大的特點(diǎn),便是替換了Transformer架構(gòu)中的注意力機(jī)制。
隨著序列長度的增加,Transformer架構(gòu)對計(jì)算資源的消耗呈現(xiàn)O(N^2)增長,相比之下,MCSD實(shí)現(xiàn)了線性擴(kuò)展,而且推理速度更快,將空間和時(shí)間復(fù)雜度分別降低到了O(1)和O(N)。
直白講,MCSD全新架構(gòu)能夠?qū)⑺懔ο慕抵粮汀?/p>
也就意味著,基于此架構(gòu)打造的模型,在端側(cè)設(shè)備上運(yùn)行有了新的可能。
論文地址:https://arxiv.org/abs/2406.12230
MCSD的具體架構(gòu)如圖 1 所示,由嵌入層和N個(gè)相同的組合層堆疊而成,每個(gè)組合層中由兩個(gè)殘差連接分別封裝MCSD塊和門控MLP塊,兩者都前置一個(gè)RMS歸一化模塊,并使用GeLU作為激活函數(shù)。
MCSD塊的內(nèi)部結(jié)構(gòu)如圖1(右)所示,集成了slope部分和decay部分,分別通過不同的預(yù)定義矩陣捕捉局部和全局特征。
兩個(gè)部分均采用了雙分支設(shè)計(jì),一個(gè)分支負(fù)責(zé)進(jìn)行線性投影,另一個(gè)通過聚合前面token的上下文信息來提取多通道歷史特征,之后兩個(gè)分支進(jìn)行擾動(dòng)(perturbation)操作。
slope和decay部分主要存在兩方面的區(qū)別,一是預(yù)定義權(quán)重不同,因此在提取歷史信息時(shí)對上下文的感知能力不同,前者更注重短程上下文,后者則更關(guān)注全局上下文。
將slope和decay兩部分的輸出進(jìn)行拼接后就得到了MCSD塊的輸出,這兩者的組合使得模型既能關(guān)注到距離更近的歷史信息,也不會丟失更遠(yuǎn)的長距離上下文,從而同時(shí)增強(qiáng)了局部和全局的特征提取。
此外,論文還提出通過遞歸形式簡化推理計(jì)算,將推理所用的空間和時(shí)間復(fù)雜度分別降低至O(1)和O(N),顯著壓縮了所需算力。
實(shí)驗(yàn)數(shù)據(jù)顯示,隨著序列逐步變長,KV緩存的存在讓Transformer推理的內(nèi)存成本呈線性增加;相比之下,即使是8k的長序列,MCSD消耗的GPU內(nèi)存也幾乎不變。
給定序列長度后,隨著批大小的增加,Transformer的延遲也會顯著增加,而MCSD的延遲則依舊十分穩(wěn)定。
此外,有相同批大小或序列長度時(shí),MCSD的吞吐量性能也遠(yuǎn)遠(yuǎn)好于Transformer架構(gòu)。
除了大大節(jié)約吞吐量、延遲、內(nèi)存消耗等方面的成本,MCSD還在基準(zhǔn)測試上有更佳的性能。
類腦激活機(jī)制
基于MCSD架構(gòu),RockAI實(shí)現(xiàn)了能在「端側(cè)」運(yùn)行群體智能單元大模型。
但這并不代表著,能夠在更多端側(cè)上實(shí)現(xiàn)特出性能。
因此,RockAI還在Yan系列模型中采用了創(chuàng)舉的「類腦激活」機(jī)制,實(shí)現(xiàn)基于仿生神經(jīng)元驅(qū)動(dòng)的選擇算法。
在主流的神經(jīng)網(wǎng)絡(luò)中,每次推理都需要激活全部神經(jīng)元,這會導(dǎo)致大量算力浪費(fèi)。
而人腦的運(yùn)作并非如此。
不同的大腦區(qū)域負(fù)責(zé)不同的認(rèn)知功能,因此不同的執(zhí)行不同的任務(wù)只會造成一部分腦神經(jīng)元的激活,而且激活的區(qū)域也各有不同。
比如開車時(shí),視覺皮層會更加活躍;而寫作時(shí),掌管記憶或邏輯的腦區(qū)激活程度更高。這也許就是為什么,相比調(diào)動(dòng)每個(gè)處理單元的計(jì)算機(jī),大腦明顯更加「節(jié)能」。
因此,模擬大腦中的神經(jīng)元激活模式,可以讓神經(jīng)網(wǎng)絡(luò)更加有效地處理復(fù)雜數(shù)據(jù)和任務(wù),從而顯著提升計(jì)算效率和精度。
通過以上兩種方式結(jié)合,一是用MCSD替換注意力機(jī)制,而是通過選擇性神經(jīng)元計(jì)算,帶了較好的低算力消耗。
正是基于如此強(qiáng)大的「雙機(jī)制」,RockAI在今年 1 月發(fā)布了國內(nèi)頭個(gè)非Transformer架構(gòu)的大模型Yan 1.0。
隨之 7 月,發(fā)布了國內(nèi)頭個(gè)終端多模態(tài)大模型Yan 1.2。
經(jīng)過幾次迭代,目前已經(jīng)升級為端到端的多模態(tài)Yan 1.3,代表著邁向群體智能的新起點(diǎn),是群體智能的單元大模型。
厚積薄發(fā),先進(jìn)目標(biāo)邁向群體智能
要實(shí)現(xiàn)AI的群體智能,并不是一件簡單的事,提出MCSD架構(gòu)和「類腦激活」機(jī)制,只是一個(gè)開始。
為了達(dá)到群體智能,RockAI將這個(gè)大目標(biāo)分解為 4 個(gè)階段的子目標(biāo),一步步穩(wěn)扎穩(wěn)打。
目前,他們已經(jīng)跨越了首先級,正在完成第二級的躍升。
創(chuàng)新基礎(chǔ)架構(gòu),是要跳出Transformer的既定路線,旨在實(shí)現(xiàn)模型性能效率的跨越式發(fā)展;
多元化硬件生態(tài),則是模型部署落地的根本保證,只有適配多終端、多廠商、多型號的硬件,形成成熟的生態(tài),才能為群體智能創(chuàng)造實(shí)現(xiàn)條件。
隨著Yan 1. 3 模型的發(fā)布和廣泛部署適配,意味著前兩個(gè)階段的目標(biāo)已經(jīng)基本實(shí)現(xiàn)。
從Yan 1. 0 到Y(jié)an 1.3,不僅覆蓋了更多設(shè)備,還實(shí)現(xiàn)了端到端的多模態(tài)支持。
輸入輸出形式包含了文本、語音、視覺在內(nèi)的多模態(tài),不但大大方便人機(jī)交互,還能讓多個(gè)AI模型之間更靈活地交流同步。
下一步,RockAI將繼續(xù)發(fā)布Yan2.0,繼續(xù)強(qiáng)化模型的自主學(xué)習(xí)、自我優(yōu)化能力,讓AI更好地和真實(shí)的物理世界交互。
在Yan系列智慧生態(tài)的基礎(chǔ)上,持續(xù)的群體進(jìn)化將成為可能,最終繪制出「群體智能」的未來藍(lán)圖。
(推廣)