編輯部 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
「Scaling Law」和「打臉時(shí)刻」,相對是 2024 年科技智能領(lǐng)域的年度關(guān)鍵詞。
壞消息是,傳統(tǒng)定義上的Scaling Law在放緩,但好消息是又有新的Scaling Law出現(xiàn)。
拉長時(shí)間維度,其實(shí)Scaling Law在AI發(fā)展領(lǐng)域中一直起著作用。
人類在哪個(gè)時(shí)間點(diǎn)上,如果突然之間被打臉了,那就是比較優(yōu)秀時(shí)刻。
不斷打臉,最終才能知道哪個(gè)才是所謂的Killer APP。
這是 20 余位工業(yè)界、學(xué)術(shù)界乃至投資界的頂流大咖,在量子位MEET2025 智能未來大會上反復(fù)提及、探討的話題。
在座無隙地的會場,大牛們的深入討論當(dāng)然沒有只局限于此——
站在諾貝爾獎對AI青睞有加的 2024 年年尾,他們回顧技術(shù)、產(chǎn)品和商業(yè)的發(fā)展,也毫無保留地傳遞對未來的規(guī)劃、已經(jīng)洞察到的機(jī)遇;有人熱心站出來解答了近期熱議的困惑,有人坦白曾因技術(shù)的放緩有過短暫憂慮,也有人為從業(yè)者、愛好者、觀望者指明值得一試的方向。
有深度,夠前瞻,思考碰撞,激情四濺。
320 萬+線上觀眾、1000+現(xiàn)場觀眾和在場嘉賓一起,見證了干貨滿滿的一天。
△連“站票”也很搶手喲
圍繞著「智變千行,慧及百業(yè)」這一主題,本次大會嘉賓們暢聊了關(guān)于「技術(shù)演進(jìn)時(shí)」「無限未來時(shí)」「拐點(diǎn)來臨時(shí)」和「應(yīng)用正當(dāng)時(shí)」的所見所思所想。
來,跟著量子位真人編輯和ChatGPT、Claude等大模型一起劃重點(diǎn)。
技術(shù)演進(jìn)時(shí)
李開復(fù):Scaling Law放緩,AI-First應(yīng)用爆發(fā)加速
MEET2024 智能未來大會以零一萬物首席執(zhí)行官、創(chuàng)新工場董事長李開復(fù)和量子位總編輯李根的深度對話拉開帷幕。
對話中,李開復(fù)透露出OpenAI的瓶頸與挑戰(zhàn):GPT- 5 的訓(xùn)練并非一帆風(fēng)順。大規(guī)模GPU集群的效率遞減、數(shù)據(jù)與算力瓶頸,讓Scaling Law(尺度定律)不再一騎絕塵。OpenAI也面臨著算力投入與商業(yè)回報(bào)的博弈。
壞消息是,傳統(tǒng)定義上的Scaling Law在放緩,但好消息是又有新的Scaling Law(o1 推理范式)出現(xiàn)。
但我們不要忘記,現(xiàn)在的模型雖然還沒有達(dá)到AGI,但已經(jīng)足夠好到解決很多問題。
在李開復(fù)看來,傳統(tǒng)Scaling Law的放緩這并不意味著大模型發(fā)展遭遇天花板,相反,中國AI 2. 0 創(chuàng)新者能在里面找到彎道超車的機(jī)遇。
首先,AI 2. 0 已經(jīng)成為世界各國的“未來之戰(zhàn)”,將重塑經(jīng)濟(jì)版圖和創(chuàng)新格局。中國相對不能放棄大模型預(yù)訓(xùn)練。從國家技術(shù)競爭力角度看,掌握了大模型預(yù)訓(xùn)練就等于掌握模型能力的上限和安全可控的底線。
其次,當(dāng)前大模型已“足夠好、足夠便宜”,中國開發(fā)者應(yīng)抓住應(yīng)用井噴的黃金窗口期,結(jié)合中國巨大的市場需求和落地場景,借鑒移動互聯(lián)網(wǎng)時(shí)代領(lǐng)先世界的工程能力和產(chǎn)品微創(chuàng)新迭代能力,打造“Made in China”的“ChatGPT時(shí)刻”。
他提醒AI 2. 0 創(chuàng)業(yè)者不妨先算一筆賬:自己的基座大模型能力是否有獨(dú)特價(jià)值?自己是否有預(yù)訓(xùn)練技術(shù)優(yōu)勢做出性能位居世界首先梯隊(duì)但又快又便宜的模型?如果自研的模型無法超越開源模型,不妨專注在應(yīng)用創(chuàng)新上。
在商業(yè)策略上,零一萬物打造的預(yù)訓(xùn)練模型Yi-Lightning不僅在國際保障的“大模型競技場”LMSYS盲測中創(chuàng)下中國大模型歷史理想成績,而且推理成本僅為GPT-4o的三十分之一。
零一萬物也積極探索AI 應(yīng)用落地:國內(nèi)以To B為主,海外側(cè)重To C。以多快好省的方式訓(xùn)出世界首先梯隊(duì)模型,同時(shí)用“又快又好”的大模型為應(yīng)用開發(fā)者賦能,打造健康良性的大模型創(chuàng)新生態(tài)。
李開復(fù)相信,未來大模型頭部玩家更應(yīng)聚焦AI-First應(yīng)用端的價(jià)值創(chuàng)造,就像過往PC、移動互聯(lián)網(wǎng)時(shí)代的創(chuàng)新發(fā)展路徑一樣,創(chuàng)造比較大經(jīng)濟(jì)價(jià)值的往往是應(yīng)用層。
智源王仲遠(yuǎn):其實(shí)Scaling Law一直在AI發(fā)展中起作用
北京智源人工智能研究院院長王仲遠(yuǎn)博士指出,當(dāng)前人工智能正處于一個(gè)新的拐點(diǎn)。
大模型的出現(xiàn)標(biāo)志著弱人工智能向通用人工智能的轉(zhuǎn)變。盡管目前的大模型能力仍存在不足,但已能看到它對各行各業(yè)的深遠(yuǎn)影響。
他談到了當(dāng)下最熱門的一個(gè)話題:Scaling Law是否撞墻/失效了?
看過去七、八十年,每一次新的科技浪潮背后都有一些本質(zhì)規(guī)律,即隨著模型參數(shù)、訓(xùn)練數(shù)據(jù)及計(jì)算能力提升,模型效果也會有巨大提升。
也就是說,如果拉長時(shí)間維度,其實(shí)Scaling Law在人工智能發(fā)展領(lǐng)域中一直起著作用。
王仲遠(yuǎn)介紹道,過去六年里,北京智源人工智能研究院建立了一支先進(jìn)的科研團(tuán)隊(duì),在國內(nèi)最早從事大模型研發(fā),并且從 2020 年 10 月開始,就成立了技術(shù)攻關(guān)團(tuán)隊(duì)來持續(xù)推動大模型技術(shù)研發(fā)探索。
至于大模型未來的發(fā)展方向,在他看來,除了文本數(shù)據(jù),世界上還存在大量的圖像、音頻、視頻等多模態(tài)數(shù)據(jù)。如何激發(fā)這些數(shù)據(jù)中的智能,是未來大模型研究的重要方向。
“最終將出現(xiàn)一個(gè)統(tǒng)一的多模態(tài)大模型,實(shí)現(xiàn)人工智能對世界的感知、理解和推理?!蓖踔龠h(yuǎn)說。
螞蟻集團(tuán)王旭:開源社區(qū)為技術(shù)方向提供中立而廣泛的信息
在螞蟻集團(tuán)內(nèi)部,大模型的應(yīng)用已經(jīng)滲透到財(cái)務(wù)數(shù)據(jù)分析領(lǐng)域,極大地提高了處理效率和深度。
螞蟻集團(tuán)開源技術(shù)委員會副主席王旭,站在開源視角進(jìn)行了演講分享——畢竟從ChatGPT掀起滔天巨浪開始,大模型的開閉源之爭就從未停止。
王旭強(qiáng)調(diào),螞蟻集團(tuán)的開源技術(shù)增長團(tuán)隊(duì)十分重視對開源社區(qū)的數(shù)據(jù)洞察,并以此為螞蟻的技術(shù)架構(gòu)和技術(shù)演進(jìn)提供參考。
社區(qū)數(shù)據(jù)雖然不全面,卻能反映外部視角,為技術(shù)方向提供中立而廣泛的信息。
社區(qū)數(shù)據(jù)顯示應(yīng)用的 AI化和AI應(yīng)用框架都在大量涌現(xiàn)。在應(yīng)用方向單單是直接的數(shù)量提升和加速就已經(jīng)可以引發(fā)顯著的變革,比如螞蟻的金融相關(guān)服務(wù)和它們背后的開源多智能體框架 agentUniverse。
他提供了一張可參考的折線統(tǒng)計(jì)圖,其數(shù)據(jù)顯示,在LLaMA模型開源后,相關(guān)項(xiàng)目迎來了爆發(fā)式增長。并且,大部分AI項(xiàng)目使用Python開發(fā)甚至允許用戶不用親手編碼,“這些AI應(yīng)用框架讓用戶能夠以極低的門檻開發(fā)自己的AI應(yīng)用,這反映了AI技術(shù)正逐漸貼近應(yīng)用場景”。
另一個(gè)觀察是,除了硬件資源的變化,軟件基礎(chǔ)設(shè)施也在經(jīng)歷著微妙的變化。王旭表示,雖然分布式系統(tǒng)的基礎(chǔ)架構(gòu)變化不大,但應(yīng)用基礎(chǔ)設(shè)施和場景產(chǎn)生了新的需求。他提道,AI 2. 0 時(shí)代正在形成新一代的LAMP架構(gòu),應(yīng)用會圍繞模型展開,這在基礎(chǔ)設(shè)施的每個(gè)環(huán)節(jié)都引發(fā)了深遠(yuǎn)變化。
最后,王旭鼓勵技術(shù)從業(yè)者根據(jù)時(shí)代的需求調(diào)整軟件架構(gòu),并演進(jìn)自己的基礎(chǔ)設(shè)施。
華為王輝:網(wǎng)絡(luò)與AI之間,就是Network for AI和AI for Network
會上,華為數(shù)據(jù)通信產(chǎn)品線NCE數(shù)據(jù)通信領(lǐng)域總裁王輝圍繞《AI大模型使能網(wǎng)絡(luò)邁向高階自智》這一話題,站在工業(yè)領(lǐng)域和ToB行業(yè)的視角開始了他的分享。
他指出,當(dāng)前各行各業(yè)都面臨“如何讓自己的產(chǎn)品和產(chǎn)業(yè)變得更加智能”的問題,且落地過程面臨諸多挑戰(zhàn)。
在演講中,王輝把網(wǎng)絡(luò)與AI的關(guān)系總結(jié)為兩種:
Network For AI,指如何用網(wǎng)絡(luò)加速AI訓(xùn)練和推理
Al For Network,指用AI手段讓網(wǎng)絡(luò)變得更加穩(wěn)定可靠,助力千行萬業(yè)的發(fā)展
在Network for AI方面,王輝指出網(wǎng)絡(luò)是支撐AI訓(xùn)練規(guī)模演進(jìn)的關(guān)鍵底座;華為通過實(shí)時(shí)動態(tài)的AI集群網(wǎng)絡(luò)均衡負(fù)載和AI識別預(yù)警故障,避免了AI訓(xùn)練中斷,同時(shí)讓AI訓(xùn)練不受跨數(shù)據(jù)中心、跨地域的限制;為大模型的規(guī)?;⒎植际接?xùn)練和推理帶來了本質(zhì)性提升。
在AI for Network領(lǐng)域,王輝以網(wǎng)絡(luò)“自動駕駛”形態(tài)為類比,詮釋了AI在工業(yè)垂直場景的真正挑戰(zhàn):實(shí)時(shí)性、嚴(yán)謹(jǐn)性與場景泛化能力。在網(wǎng)絡(luò)行業(yè)這樣的關(guān)鍵性基礎(chǔ)設(shè)施中,毫秒級響應(yīng),零容錯成為準(zhǔn)確決策的剛性要求。為此,華為提出“一腦、一圖、一網(wǎng)”的三層架構(gòu),讓AI充分賦能網(wǎng)絡(luò),為工業(yè)應(yīng)用提供智能的運(yùn)營保障。
他還強(qiáng)調(diào):
在工業(yè)領(lǐng)域,數(shù)據(jù)質(zhì)量、準(zhǔn)確控制和成熟工具均不可或缺,大模型是其中關(guān)鍵的一環(huán),大模型在逐步規(guī)模應(yīng)用的同時(shí),還會將連接和注智工業(yè)領(lǐng)域各種業(yè)務(wù)管理的核心要素,驅(qū)動千行萬業(yè)邁向“自動駕駛”。
潞晨科技尤洋:視頻大模型需要實(shí)現(xiàn)精細(xì)化文本控制、任意角度拍攝和角色一致性
潞晨科技創(chuàng)始人兼董事長、新加坡國立大學(xué)校長青年教授尤洋,分享了對視頻大模型未來發(fā)展的深度洞察。作為分布式訓(xùn)練技術(shù)領(lǐng)域的專家,他帶領(lǐng)團(tuán)隊(duì)此前已為谷歌、華為等科技巨頭提供了大模型訓(xùn)練優(yōu)化解決方案。
尤洋認(rèn)為,未來三年視頻大模型的發(fā)展將經(jīng)歷跨越式進(jìn)步:
就像薩姆·奧特曼說的那樣,今天是Video GPT- 1 的時(shí)刻,可能三年之后就是視頻大模型的GPT-3.5、GPT- 4 時(shí)刻。
最關(guān)鍵的是要實(shí)現(xiàn)三大核心能力。
首先是精細(xì)化的文本控制能力。視頻大模型應(yīng)當(dāng)能夠準(zhǔn)確理解并呈現(xiàn)用戶描述的細(xì)節(jié)內(nèi)容,從人物特征到場景要素都要做到準(zhǔn)確把控。
其次是實(shí)現(xiàn)任意機(jī)位、任意角度的拍攝能力。這種突破可能徹底改變體育賽事直播等領(lǐng)域,讓觀眾能夠自主選擇觀看視角,“相當(dāng)于在體育場里能夠瞬間移動,移到教練席,移到最后一排,移到首先排”。
第三是保持角色一致性。尤洋指出,這對商業(yè)變現(xiàn)至關(guān)重要,“比如一個(gè)產(chǎn)品的廣告,這個(gè)視頻肯定從頭到尾不管是衣服、鞋、車子,它的樣貌不能有太大變化”。
對于視頻大模型的商業(yè)前景,尤洋認(rèn)為其將為電影制作帶來革命性變革。通過AI技術(shù),可以大幅降低有效場景制作成本,減少對危險(xiǎn)鏡頭拍攝的實(shí)際需求,讓創(chuàng)作更加自由。
未來只需要演員的ID和演員的肖像權(quán),AI其實(shí)就可以把很多危險(xiǎn)鏡頭做好,對電影行業(yè)能夠極大地做到降本增效。
無限未來時(shí)
商湯徐立:比較優(yōu)秀時(shí)刻可轉(zhuǎn)化為另一個(gè)詞,叫“打臉時(shí)刻”
商湯科技董事長兼CEO徐立博士,十年前就是因?yàn)橐娮C了AlexNet,認(rèn)為AI已經(jīng)跨越了工業(yè)紅線開始選擇創(chuàng)業(yè)。對于AGI新征程,徐立在與量子位總編輯李根的交流中提出了他的認(rèn)知和思考。
徐立表示,從過往十年來看,有兩個(gè)要素是推動行業(yè)發(fā)展進(jìn)步的基礎(chǔ),一是基礎(chǔ)設(shè)施,二是場景化。
在他看來,接下來的AGI時(shí)代一定也是場景化推動整個(gè)技術(shù)的迭代,“技術(shù)本身只是一個(gè)技術(shù)”。
場景應(yīng)用一定是驅(qū)動力,沒有場景應(yīng)用不知道市場上模型到底長成什么樣;模型也一定是驅(qū)動基礎(chǔ)設(shè)施建設(shè)的核心驅(qū)動力,今天任何一個(gè)模型的變化所引起的基礎(chǔ)設(shè)施成本價(jià)值的變化是巨大的。
繼而徐立又引出了現(xiàn)在做AI的兩條“生死線”,即算力成本折舊生死線和開源生死線,探討了商湯做大裝置、大模型和應(yīng)用的“三位一體”戰(zhàn)略。
有意思的是,在被問到“什么事情發(fā)生是可以確認(rèn)“比較優(yōu)秀時(shí)刻”到來了?”,徐立的回答深入人心,以至于后面幾位嘉賓也反復(fù)提到。
我覺得比較優(yōu)秀時(shí)刻可以轉(zhuǎn)化成為另外一個(gè)詞,叫作“打臉時(shí)刻”,人類在哪個(gè)時(shí)間點(diǎn)上,如果突然之間被打臉了,那就是比較優(yōu)秀時(shí)刻。
什么是“iPhone時(shí)刻”,所有人都認(rèn)為手機(jī)得有鍵盤,然后iPhone來了沒有鍵盤的。為什么ChatGPT是比較優(yōu)秀時(shí)刻?是因?yàn)樵瓉碜鯝I都覺得自然語言還遠(yuǎn)呢,突然之間一下出來大眾還都認(rèn)可,解決了圖靈測試的問題,其實(shí)這是典型的打臉時(shí)刻。
小冰李笛:“私域運(yùn)營”成為大模型時(shí)代新藍(lán)海
過去一年,小冰很沉默。
但沉默之下是靜水深流: 2024 年,小冰國內(nèi)的AI toC產(chǎn)品,付費(fèi)用戶數(shù)是Character.AI的 20 多倍,付費(fèi)轉(zhuǎn)化率約為ChatGPT的 8 倍。
站在這樣的成果上,當(dāng)大模型熱潮趨于平穩(wěn),不少人開始陷入對下一步機(jī)遇FOMO時(shí),小冰公司首席執(zhí)行官李笛站出來談了談那些已現(xiàn)的機(jī)遇。
他強(qiáng)調(diào),當(dāng)前AI行業(yè)正處于技術(shù)創(chuàng)新震蕩期,大模型準(zhǔn)入門檻降低,基礎(chǔ)能力很難形成有效壟斷,故而一味等待技術(shù)奇點(diǎn)并不會為產(chǎn)業(yè)創(chuàng)造實(shí)際價(jià)值,真正的機(jī)遇在于當(dāng)技術(shù)進(jìn)入相對平穩(wěn)期后,如何用合理的商業(yè)策略將技術(shù)能力變現(xiàn)。
一個(gè)核心切入點(diǎn)是GPU算力成本與收入的比例(GPU cost vs Revenue),李笛將此作為AI toC商業(yè)模式成敗的關(guān)鍵指標(biāo)。只有當(dāng)AI生產(chǎn)內(nèi)容的成本顯著低于用戶付費(fèi),才能為C端和產(chǎn)業(yè)鏈上下游提供可持續(xù)的價(jià)值分配。
此外,李笛還分享了關(guān)于AI產(chǎn)品形態(tài)和用戶價(jià)值認(rèn)知的演變。
目前,Chatbot提供的對話形式和陪伴,對用戶來說已不再稀缺,同時(shí)對話的高耗能顯著,Chatbot注定不再成為大眾產(chǎn)品(除非能提供非常高的附加值)。
相反,“私域運(yùn)營”成為大模型時(shí)代的新藍(lán)海,AI能夠?yàn)槌汕先f的私域用戶提供高并發(fā)且個(gè)性化的價(jià)值內(nèi)容,從而在高留存、高價(jià)值的場景中實(shí)現(xiàn)商業(yè)閉環(huán)。
VAST宋亞宸:AI原生3D創(chuàng)作者將探索出新的內(nèi)容范式
從 700 萬全球用戶生成的3D模型中,能看到3D生成的哪些可能?VAST創(chuàng)始人兼CEO宋亞宸有話說。
他分享說:“3D生成會成為一種新的交互形式,就像有個(gè)成語叫作‘言出法隨’?!?/p>
VAST是一家自研3D大模型的公司,旗下3D大模型Tripo可以通過文字、圖片等多模態(tài)輸入,生成完整的3D模型,支持游戲、動畫、元宇宙等多個(gè)領(lǐng)域應(yīng)用。
宋亞宸表示,從技術(shù)成熟度看,目前效果已從年初的“360p水平”提升至”720P水平”,預(yù)計(jì)明年將達(dá)到”1080P甚至4K水平”。
目前,3D生成技術(shù)已在多個(gè)領(lǐng)域?qū)崿F(xiàn)落地,包括傳統(tǒng)CG行業(yè),如游戲、動畫、影視等;工業(yè)領(lǐng)域,如3D打印、工業(yè)設(shè)計(jì)、家居等;新興領(lǐng)域,如元宇宙、XR、數(shù)字孿生等。
除了一些商業(yè)化場景,我們看到每一個(gè)人,包括在座的每一個(gè),包括在線觀看直播的每一個(gè)人,都可以做自己想要的3D的工業(yè)設(shè)計(jì)和產(chǎn)品的需求的分享。
宋亞宸展望,明年在3D生成領(lǐng)域?qū)⒕蹟n萬級開發(fā)者;到 2025 年,開發(fā)者數(shù)量或達(dá)萬級別; 2026 年,這些AI原生3D創(chuàng)作者將探索出新的內(nèi)容范式。
而在技術(shù)路線上,宋亞宸提出了三步走戰(zhàn)略:首先步是靜態(tài)內(nèi)容生成,第二步是動態(tài)內(nèi)容生成,第三步是實(shí)現(xiàn)全民零門檻3D創(chuàng)作。
南京大學(xué)周志華:學(xué)件基座系統(tǒng)有了數(shù)以百萬計(jì)模型,很多我們沒預(yù)期過的事也有可能能做
南京大學(xué)副校長、國際人工智能聯(lián)合會理事會主席周志華帶來了一場關(guān)于“學(xué)件和異構(gòu)大模型”的精彩分享,系統(tǒng)闡述了一個(gè)全新的AI技術(shù)范式。
在周志華看來,未來AI發(fā)展的關(guān)鍵不在于追求單一的龐大模型,而是如何讓數(shù)以百萬計(jì)的模型協(xié)同工作。
他提到了“學(xué)件”概念,可以簡單理解為:學(xué)件=模型+規(guī)約。
如果大模型是幾個(gè)大英雄打天下,那么學(xué)件就是認(rèn)為力量蘊(yùn)藏在人民群眾中。當(dāng)學(xué)件基座系統(tǒng)有了數(shù)以百萬計(jì)的模型,這條路線的力量會涌現(xiàn)出來,很多我們沒預(yù)期過的事也有可能能做。
周志華提出了一個(gè)令人耳目一新的觀點(diǎn):不需要獲取開發(fā)者的原始訓(xùn)練數(shù)據(jù),就能實(shí)現(xiàn)模型的有效復(fù)用和協(xié)同。這種方式既保護(hù)了數(shù)據(jù)隱私,又比較大化了模型價(jià)值。
他用了一個(gè)生動的比喻:
今天當(dāng)我們要用一把切肉的刀,不會自己去采礦打鐵,而是去超市選購。同樣,未來用戶使用AI,也不必從頭收集數(shù)據(jù)訓(xùn)練模型,而是提交需求,“學(xué)件市場”會根據(jù)用戶需求尋找和組合合適的模型反饋給用戶。
在技術(shù)實(shí)現(xiàn)上,周志華團(tuán)隊(duì)構(gòu)建了規(guī)約設(shè)計(jì)方案,包括語義規(guī)約和統(tǒng)計(jì)規(guī)約,并證明這種方案能有效保護(hù)開發(fā)者數(shù)據(jù)不泄露。
目前,他們已開源了“北冥塢學(xué)件基座系統(tǒng)”,邀請更多開發(fā)者參與其中。周志華表示,當(dāng)前市面上的Hugging Face可以看作是學(xué)件1. 0 版本,而完整的學(xué)件體系將帶來更多可能性。
作為一個(gè)全新的技術(shù)范式,學(xué)件基座系統(tǒng)可被看作一個(gè)異構(gòu)大模型,不僅能實(shí)現(xiàn)大小模型協(xié)同,還能避免災(zāi)難性遺忘,實(shí)現(xiàn)終身學(xué)習(xí)。
拐點(diǎn)降臨時(shí)
鈦動科技陳德品:千行百業(yè)都需要AI,更需要的是增長
鈦動科技CTO陳德品分享了AI在出海營銷領(lǐng)域的創(chuàng)新實(shí)踐。
作為一位曾在阿里工作十余年、經(jīng)歷了AI從1. 0 到2. 0 時(shí)代轉(zhuǎn)變的技術(shù)專家,陳德品對AI與營銷結(jié)合的前景充滿信心。
在他看來,營銷需要批量化、工業(yè)化的創(chuàng)意素材生產(chǎn),而AIGC的爆發(fā)恰好能極大提升內(nèi)容產(chǎn)能,這正是雙方的理想結(jié)合點(diǎn)。
具體到出海場景,陳德品分析認(rèn)為,目前出海依托于兩大勢能:移動互聯(lián)網(wǎng)和供應(yīng)鏈勢能,使得整個(gè)賽道保持30%-40%的年增長。
在具體實(shí)踐方面,陳德品分享了鈦動科技的核心AIGC產(chǎn)品Tec Creative 2.0,能夠幫助商家在幾分鐘內(nèi)完成社媒營銷素材的生產(chǎn),提升效率。
他特別強(qiáng)調(diào)了一個(gè)發(fā)現(xiàn):
在營銷應(yīng)用領(lǐng)域也存在類似Scaling Law的規(guī)律。
當(dāng)營銷需要素材工業(yè)化生產(chǎn)時(shí),不斷提升生產(chǎn)效率,可以逼近爆款發(fā)現(xiàn)概率,我們認(rèn)為營銷是能夠通過效率逼近無限,進(jìn)而帶來效果極大提升,最終產(chǎn)生爆款。
展望未來,陳德品表示鈦動科技正在優(yōu)化營銷Agent化發(fā)展路徑,同時(shí)可能會打造一個(gè)營銷素材的Arena(競技場),用于快速測試各類通用模型在營銷場景中的適配度。
新奧泛能網(wǎng)程路:垂直行業(yè)的AI顛覆一定會發(fā)生
作為深耕能源行業(yè) 17 年的產(chǎn)業(yè)老兵,新奧能源副總裁,新奧數(shù)能科技有限公司總裁(即新奧泛能網(wǎng)總裁)程路分享了傳統(tǒng)能源行業(yè)擁抱AI的實(shí)踐與思考。
作為傳統(tǒng)能源行業(yè)的先行者,新奧泛能多年來一直在探索智能化,但此前更多是以局部算法和機(jī)理模型為主。如今,大模型的出現(xiàn)改變了兩個(gè)重要環(huán)節(jié)——
一是大幅降低知識學(xué)習(xí)和推理成本,提高產(chǎn)業(yè)模型構(gòu)建和優(yōu)化效率,模型效能可提升達(dá)50%;二是讓普通從業(yè)者迅速“拉齊”到高水平?jīng)Q策層級,從而大規(guī)模提升行業(yè)整體認(rèn)知水平與執(zhí)行品質(zhì)。
那么,傳統(tǒng)能源行業(yè)要如何擁抱AI變革?程路表示可以總結(jié)為“選用訓(xùn)生”四個(gè)招式,分別是選擇開放大模型、用模型結(jié)合機(jī)理、產(chǎn)業(yè)認(rèn)知與產(chǎn)業(yè)算法、訓(xùn)練專業(yè)模型、最終生成可用大模型在具體應(yīng)用中落地,綜合成三大智能:
決策智能:輔助管理層快速做出特出方案決策
運(yùn)營智能:實(shí)現(xiàn)能源領(lǐng)域運(yùn)營層面的自治狀態(tài)
交易智能:優(yōu)化源網(wǎng)荷儲的實(shí)時(shí)交易
他強(qiáng)調(diào),這一切的底座在于強(qiáng)大的仿真模型——將物理世界映射到數(shù)字世界,讓企業(yè)不需要在物理世界付出大量試錯成本就可以實(shí)現(xiàn)參數(shù)調(diào)優(yōu)或者解決問題,仿真強(qiáng)調(diào)大量的運(yùn)行邊界條件與行業(yè)機(jī)理,需要模擬實(shí)時(shí)運(yùn)行態(tài)。程路特別指出:“這種仿真更像現(xiàn)在‘汽車自動駕駛系統(tǒng)’”,最終將大幅度提高能源品質(zhì),降低損耗成本。
“垂直行業(yè)的AI顛覆一定會發(fā)生?!背搪废嘈牛S著大模型技術(shù)門檻的不斷降低和產(chǎn)業(yè)數(shù)據(jù)資源的充分釋放,能源這類傳統(tǒng)領(lǐng)域也將涌現(xiàn)出顛覆性的創(chuàng)新。
小米孟二利:汽車行業(yè)正從“軟件定義汽車”邁向“AI定義汽車”的新拐點(diǎn)
小米技術(shù)委員會AI實(shí)驗(yàn)室高檔技術(shù)總監(jiān)孟二利分享了小米如何運(yùn)用工業(yè)大模型賦能汽車智能制造的探索與實(shí)踐。
他以獨(dú)特視角展示了AI技術(shù)給傳統(tǒng)制造業(yè)帶來的創(chuàng)新突破。
孟二利首先介紹了小米的科技戰(zhàn)略升級,總結(jié)為公式就是(軟件×硬件)??,表明小米將包括大模型在內(nèi)的AI技術(shù)看作一種新的生產(chǎn)力,也是小米長期持續(xù)投入的底層賽道。
小米從 2016 年就布局AI領(lǐng)域, 2023 年更是組建大模型團(tuán)隊(duì),將前沿技術(shù)應(yīng)用到手機(jī)、汽車等產(chǎn)品中。在汽車制造領(lǐng)域,小米選擇從“大壓鑄”工藝突破,首先聚焦于材料研發(fā)和質(zhì)量檢測兩個(gè)方面。
傳統(tǒng)新材料研發(fā)采用“試錯法”,周期可能長達(dá) 10 年,這是業(yè)務(wù)無法接受的。
為解決這一難題,孟二利團(tuán)隊(duì)創(chuàng)新性地提出“灰盒模型”方案:
結(jié)合數(shù)據(jù)驅(qū)動的AI黑盒方法與材料學(xué)機(jī)理驅(qū)動的白盒模型
使用仿真軟件生成大量、低質(zhì)量,數(shù)據(jù)生成預(yù)訓(xùn)練模型
利用少量、高質(zhì)量實(shí)驗(yàn)數(shù)據(jù)進(jìn)行模型微調(diào)
最終形成了一套多元的材料AI仿真系統(tǒng)?;诖?,團(tuán)隊(duì)從上千萬候選空間中成功研發(fā)出小米泰坦合金材料。
此外,在質(zhì)量檢測方面,團(tuán)隊(duì)還研發(fā)了工業(yè)質(zhì)檢大模型。解決了質(zhì)檢行業(yè)難題,作為AI+制造標(biāo)桿多次被央視報(bào)道。
展望未來,孟二利認(rèn)為汽車行業(yè)正從“軟件定義汽車”邁向“AI定義汽車”的新拐點(diǎn)。他提出三點(diǎn)建議:加強(qiáng)數(shù)字化基建、推進(jìn)行業(yè)標(biāo)準(zhǔn)化、探索適合工業(yè)場景的大模型技術(shù)。
聲網(wǎng)劉斌:Agent落地,實(shí)時(shí)性要求和工程化落地是關(guān)鍵
大會現(xiàn)場,聲網(wǎng)首席運(yùn)營官劉斌分享了一個(gè)看似離大模型有點(diǎn)距離,實(shí)則卻不可或缺的環(huán)節(jié),那就是RTE實(shí)時(shí)互動在AI Agent時(shí)代的全新價(jià)值”。
2020 年,聲網(wǎng)在納斯達(dá)克上市,目前是全球比較大的實(shí)時(shí)互動云服務(wù)商,平臺單月音視頻使用時(shí)長達(dá) 700 億分鐘。
對于AI Agent落地的關(guān)鍵要素,劉斌強(qiáng)調(diào)了兩點(diǎn)。
首先是實(shí)時(shí)性要求。與傳統(tǒng)的文本交互不同,多模態(tài)Agent需要雙工實(shí)時(shí)對話。根據(jù)聲網(wǎng)的測試數(shù)據(jù),要達(dá)到自然對話體驗(yàn),延遲需要控制在1. 7 秒以內(nèi)。
真正的產(chǎn)品化落地,不是在實(shí)驗(yàn)室做個(gè)demo,而是要確保在各種終端、各種網(wǎng)絡(luò)環(huán)境下都能穩(wěn)定運(yùn)行。目前,聲網(wǎng)通過在音頻采集、傳輸、播放等多個(gè)環(huán)節(jié)的不斷優(yōu)化,可以實(shí)現(xiàn)人與AI語音對話延遲低至500ms。
其次是工程化能力。聲網(wǎng)構(gòu)建了覆蓋全球的SD-RTN網(wǎng)絡(luò)?,支持 30 多個(gè)平臺、 30000 多終端機(jī)型,能在 400 毫秒內(nèi)實(shí)現(xiàn)端到端傳輸,這些積累讓AI Agent快速規(guī)模化成為可能。
過去,人與AI的交互多以文本形式進(jìn)行,延遲和體驗(yàn)問題并不突出。但當(dāng)下,大模型正在快速演進(jìn)為多模態(tài)Agent,用戶可以語音、視頻與AI交流,并期望獲得如同面對面對話的自然感。這要求極低的傳輸延遲與高度魯棒的網(wǎng)絡(luò)質(zhì)量支撐。
“只有把交互延遲做到低延時(shí),并具備智能打斷、超擬人化等特性,用戶才會感受到與真人交流般順暢的對話體驗(yàn)。”展望未來,劉斌提出,需要針對人機(jī)對話特點(diǎn)開發(fā)專門的優(yōu)化方案。
應(yīng)用正當(dāng)時(shí)
智譜張帆:AI開始變成基礎(chǔ)生產(chǎn)要素,或?qū)ι虡I(yè)帶來底層變化
大會現(xiàn)場,智譜COO張帆聚焦分享了大模型這兩年間的迅速迭代與商業(yè)化過程中的全新機(jī)遇。
張帆首先指出,大模型和其它現(xiàn)有技術(shù)一點(diǎn)點(diǎn)落地不太一樣,大模型天然是一個(gè)應(yīng)用導(dǎo)向的技術(shù),“生成式AI進(jìn)入這個(gè)市場的速度遠(yuǎn)比互聯(lián)網(wǎng)和PC要快”。
張帆表示,過去僅兩年時(shí)間,模型各方面能力得到了提升,與之相對應(yīng)的是成本的下降,由此帶來了技術(shù)能力快速地落地和應(yīng)用。
在這個(gè)過程中,智譜對AGI目標(biāo)能力的理解分為五級:
首先級是語言;第二級是對復(fù)雜問題的求解,像o1 這樣的能力出現(xiàn);第三級是使用工具,比如自主智能體可以像人一樣操作手機(jī)、PC甚至汽車界面來獲取信息;第四級是自我學(xué)習(xí);第五級是超越人類,AI將具備探究科學(xué)規(guī)律、世界起源等先進(jìn)問題的能力,所以通往AGI之路將是一個(gè)清晰和明確的鏈路。
張帆強(qiáng)調(diào),大模型已不再只是技術(shù),開始變成新型基礎(chǔ)生產(chǎn)要素,有可能對商業(yè)帶來很多底層、上層的變化,包括工作方式、組織形式、商業(yè)模式,甚至每個(gè)企業(yè)的壁壘。
最后張帆探討了大模型時(shí)代企業(yè)或個(gè)人該如何構(gòu)建自己的科技戰(zhàn)略,他認(rèn)為關(guān)鍵有四個(gè)要素:
選擇合適的基座,構(gòu)建與戰(zhàn)略目標(biāo)和業(yè)務(wù)屬性相匹配的組織,基于場景和AI能力重新定義數(shù)據(jù)資產(chǎn),把這些能力無縫融入到業(yè)務(wù)當(dāng)中,從而形成一個(gè)飛輪。
這里面有很多東西需要大家深度思考,比如基座模型,很多人問我們到底是開源好,還是閉源好,到底是國外好,還是國內(nèi)好,我覺得其實(shí)合適才是較好。
火山引擎張鑫:企業(yè)落地大模型應(yīng)用,關(guān)鍵要快速試錯、敏捷行動
過去編程是從”Hello World”開始,現(xiàn)在開啟AI之路,應(yīng)該從”Hi Agent”開始。
火山引擎副總裁張鑫分享了 2024 年大模型應(yīng)用落地的現(xiàn)狀與思考。在他看來, 2024 年是各行業(yè)對大模型應(yīng)用廣泛探索的一年,其落地呈現(xiàn)出三大特點(diǎn):速度、廣度與深度。
在應(yīng)用場景上,大模型也完成了三個(gè)階段的跳躍:從最初的娛樂閑聊,到現(xiàn)在的嚴(yán)肅生產(chǎn)場景,甚至開始進(jìn)入科研領(lǐng)域?qū)崿F(xiàn)新知識的探索和發(fā)現(xiàn)。
正如狄更斯在《雙城記》所說:“這是較好的時(shí)代,也是最壞的時(shí)代。” 張鑫認(rèn)為,大模型帶來了無限創(chuàng)新機(jī)會,但如果企業(yè)不能跟上敏捷速度迭代,也有可能面臨失去競爭力。
張鑫提到,最近有一個(gè)新的感受:
企業(yè)想要落地一個(gè)好的AI應(yīng)用時(shí),他的挑戰(zhàn)不是沒有場景可做,反而是選擇太多。
在我們看來打臉時(shí)刻怎么形成?不斷打臉,最終才能知道哪個(gè)才是所謂的key APP。
HiAgent是火山引擎推出的企業(yè)專屬AI應(yīng)用創(chuàng)新平臺,高度適配企業(yè)個(gè)性化需求,讓業(yè)務(wù)人員可以輕松構(gòu)建智能體,讓業(yè)務(wù)創(chuàng)新不受生產(chǎn)技能的限制。提供低代碼、場景化模版及端到端咨詢服務(wù),更懂AI轉(zhuǎn)型;提供可與企業(yè)業(yè)務(wù)系統(tǒng)無縫銜接的行業(yè)插件,更靈活適配企業(yè)需求;支持 RAG 知識庫和大模型全棧私有化部署,提供更強(qiáng)的安全保障,為企業(yè)數(shù)據(jù)知識保駕護(hù)航。
在具體落地實(shí)踐上,張鑫也分享了火山引擎HiAgent在教育、消費(fèi)、企業(yè)服務(wù)等多個(gè)行業(yè)的落地實(shí)踐,并分享了切實(shí)可行的落地方法,首先步企業(yè)需要繪制企業(yè)專屬的場景地圖,這一步往往是發(fā)散的,最終得出上百種不同的應(yīng)用場景。下一步對這些場景圍繞可行性和價(jià)值高低進(jìn)行一個(gè)魔力象限的劃分。從高價(jià)值、技術(shù)高可行性的場景先著手推進(jìn)。
企業(yè)落地大模型應(yīng)用的關(guān)鍵在于快速試錯、敏捷行動,火山引擎 HiAgent 平臺通過固化理想實(shí)踐,助力企業(yè)有效搭建企業(yè)級智能體,在探索場景中沉淀資產(chǎn),助力企業(yè)AI能力做深做厚。
斑頭雁張毅:AI應(yīng)用要能快速部署、有效迭代
張毅是原釘釘創(chuàng)始團(tuán)隊(duì)成員、副總裁,在釘釘任職期間,他從用 8 年的時(shí)間帶領(lǐng)團(tuán)隊(duì)陸續(xù)打造出釘釘考勤審批、智能人士日志等爆款產(chǎn)品。
2022 年起,張毅以BetterYeah AI(斑頭雁)CEO&創(chuàng)始人的身份,帶領(lǐng)團(tuán)隊(duì)躬身入局,開始致力于探索幫助企業(yè)進(jìn)入AI時(shí)代。
時(shí)至今日,已經(jīng)有數(shù)百家頭部企業(yè)在斑頭雁上完成了企業(yè)級生產(chǎn)級Agent的落地,涉及場景包括客服、數(shù)據(jù)、營銷、經(jīng)營系統(tǒng)等。張毅強(qiáng)調(diào),客服場景落地速度最快,數(shù)據(jù)類任務(wù)增量價(jià)值明顯,Agent融入企業(yè)核心經(jīng)營系統(tǒng)趨勢越來越顯著,正在為企業(yè)直接供給生產(chǎn)力。
“對于Agent來說,企業(yè)生產(chǎn)級場景有很大不同?!睆堃阊a(bǔ)充解釋,“Agent落地在核心的業(yè)務(wù)流里帶來生產(chǎn)力,這對Agent的集成能力、并發(fā)調(diào)用、數(shù)據(jù)安全要求和協(xié)同構(gòu)建能力要求會更高?!?/p>
但與前沿科技相伴而行,就意味著更大的挑戰(zhàn),不同于POC驗(yàn)證和輕量AI應(yīng)用開發(fā),生產(chǎn)級Agent在應(yīng)用構(gòu)建、性能評估、快速迭代方面對企業(yè)開發(fā)團(tuán)隊(duì)提出了更高要求。
BetterYeah持續(xù)專注在企業(yè)生產(chǎn)場景,以標(biāo)準(zhǔn)化產(chǎn)品提供滿足靈活集成能力、更大并發(fā)調(diào)用、更高數(shù)據(jù)安全和更復(fù)雜協(xié)同的AI Agent開發(fā)平臺。今年往后,預(yù)計(jì)企業(yè)級AI平臺將面臨更復(fù)雜的應(yīng)用場景和更強(qiáng)的自規(guī)劃能力的挑戰(zhàn)。
當(dāng)談及企業(yè)AI Agent成功的秘訣,張毅強(qiáng)調(diào),生產(chǎn)級Agent開發(fā)70%的工作量在測試調(diào)試,基于數(shù)據(jù)和AI構(gòu)建“反饋評估-自學(xué)習(xí)-驗(yàn)證”閉環(huán),充分發(fā)揮AI價(jià)值,能有效提升Agent開發(fā)效率和成功率,而這些方法已產(chǎn)品化融入BetterYeah平臺。
昆侖萬維方漢:用產(chǎn)品形式上的創(chuàng)新?lián)糁杏脩舻母军c(diǎn)
昆侖萬維董事長兼CEO方漢在大會上分享了公司在AI大模型浪潮中從技術(shù)到產(chǎn)品的布局與思考。
昆侖萬維從 2020 年開始布局AI,目前已經(jīng)構(gòu)建了從算力層、模型層到應(yīng)用層的全棧AI能力。方漢介紹,昆侖萬維有語言大模型、多模態(tài)大模型、3D大模型、視頻大模型、音樂大模型,目前技術(shù)指標(biāo)較好的是音樂大模型。
在探索過程中,方漢給出了他的一些商業(yè)思考。他認(rèn)為所有人都在不斷地思考AI大模型,在這中間企業(yè)選擇什么樣的商業(yè)模式來進(jìn)行產(chǎn)品研發(fā)和推廣,是一個(gè)很重要的問題。
方漢表示,中國AI企業(yè)在算力上受到極大限制,能拿到的硬件算力是比較有限的。這樣會倒逼企業(yè)在算法迭代上有極大的動機(jī)去投入,就是所謂的以軟補(bǔ)硬。同時(shí)生存壓力大、拿不到錢也是一個(gè)大問題,“使得中國AI企業(yè)都在拼命地打磨產(chǎn)品的商業(yè)模式”。
他還講到AIGC正在催生“文化平權(quán)”新時(shí)代,AIGC技術(shù)的進(jìn)步會極大降低所有人創(chuàng)作內(nèi)容的門檻和成本。
對于用戶來說,他們根本不關(guān)心你的內(nèi)容是AI做的還是人做的,只關(guān)心兩個(gè)點(diǎn),你的內(nèi)容要么新,要么好。
最后方漢提出,AI創(chuàng)業(yè)者應(yīng)更關(guān)注產(chǎn)品形態(tài)創(chuàng)新,用產(chǎn)品形式上的創(chuàng)新?lián)糁杏脩舻母军c(diǎn),而不是看AI用了多少。
心言集團(tuán)任永亮:具身化與主動交互是泛心理服務(wù)的AI化新方向
心言集團(tuán)創(chuàng)始人、董事長兼CEO任永亮以一個(gè)垂直領(lǐng)域應(yīng)用者的視角,分享了泛心理行業(yè)如何擁抱AI變革的實(shí)踐經(jīng)驗(yàn)。
任永亮首先介紹了心言集團(tuán)旗下AI驅(qū)動的泛心理社區(qū)——測測APP。任永亮表示,早在 2019 年,測測就上線了頭個(gè)基于BERT的泛心理領(lǐng)域問答模型,獲得了超出預(yù)期的用戶反響。
談到AI轉(zhuǎn)型歷程,任永亮坦言經(jīng)歷了從“震驚”到“擔(dān)憂”再到“堅(jiān)定”的心態(tài)轉(zhuǎn)變。他認(rèn)為一個(gè)行業(yè)既不能離AI太近也不能離得太遠(yuǎn),關(guān)鍵是找準(zhǔn)平衡點(diǎn),“如果太遠(yuǎn)的話沒辦法用這樣的服務(wù),如果太近的話很容易被淹沒”。
基于過去兩年的實(shí)踐,任永亮總結(jié)了三點(diǎn)感悟。
首先是期望管理。AI做到 60 分很容易,但要達(dá)到 90 分往往很難,需要管理好團(tuán)隊(duì)的預(yù)期。
其次是組織工程。AI轉(zhuǎn)型不能依靠零敲碎打,而是要讓整個(gè)組織圍繞AI展開,包括產(chǎn)品、運(yùn)營、技術(shù)等全方位轉(zhuǎn)變。
最后是相信年輕人。移動互聯(lián)網(wǎng)時(shí)代的成功經(jīng)驗(yàn)未必適用于AI時(shí)代,沒有束縛的年輕人更容易帶來創(chuàng)新。
展望未來,任永亮提出了兩個(gè)關(guān)鍵發(fā)展方向:
具身化是泛心理服務(wù)的必然趨勢。咨詢師除了文字語音,還需要表情動作、儀式感,這就要求AI服務(wù)也需要實(shí)現(xiàn)多模態(tài)輸入輸出。主動交互將成為下一個(gè)突破口。目前的AI服務(wù)都是響應(yīng)式的,未來需要能夠根據(jù)場景主動發(fā)問、展開對話。
具身智能圓桌:Way to AI Robots
MEET智能未來大會的老規(guī)矩,總是奉上精彩紛呈、干貨瘋狂輸出的圓桌論壇,今年也不例外。
不過,本次大會討論的主題升級到了更廣泛、正熱門的具身智能領(lǐng)域。
具身智能圓桌邀請的嘉賓分別是:
群核科技首席科學(xué)家兼副總裁、KooLab實(shí)驗(yàn)室負(fù)責(zé)人唐睿。
千尋智能Spirit AI聯(lián)合創(chuàng)始人、清華大學(xué)交叉信息學(xué)院博導(dǎo)高陽。
云深處科技聯(lián)合創(chuàng)始人兼CTO李超。
在量子位總編輯李根的主持下,嘉賓們?nèi)A山論劍,話題圍繞“對具身智能的認(rèn)知”“有何技術(shù)突破”“目前發(fā)展到哪一階段”等展開。
如何認(rèn)識or定義具身智能?
唐睿認(rèn)為,具身智能和AI比較大的區(qū)別是從芯片、顯示器、內(nèi)存、顯存里走了出來,它不僅有一個(gè)腦子,通過屏幕和我們交互,更多可能是能夠和外部我們所處的物理世界做交互。雖然具身智能中有一個(gè)“身”字,但唐睿覺得可能不一定需要人形,只要能有這樣一個(gè)技能就可以,“像自動駕駛汽車也可以算作比較成熟且具象的具身智能的實(shí)現(xiàn)”。
高陽通過一個(gè)具體的例子非常直觀地回答了這個(gè)問題:有一次我在做一個(gè)關(guān)于具身智能的演講,一位大概六七十歲老奶奶聽我講了很多,問我說什么時(shí)候機(jī)器人能給她養(yǎng)老,其實(shí)這個(gè)正是具身智能的一個(gè)應(yīng)用場景。具身智能的目標(biāo)是構(gòu)建能夠幫助我們完成各種任務(wù)的機(jī)器人,這個(gè)機(jī)器人能幫我們做各種事情,比如幫我們的爺爺奶奶養(yǎng)老。
李超認(rèn)為云深處是具身智能的的首先批受益者。具身智能給機(jī)器人賦予靈魂,在這個(gè)靈魂加持下,機(jī)器人應(yīng)變能力加強(qiáng),規(guī)?;瘧?yīng)用進(jìn)展加速,能夠面向更加開放的環(huán)境。
為什么今年是具身智能元年?
李超認(rèn)為隨著從基于規(guī)則的傳統(tǒng)控制方式轉(zhuǎn)變?yōu)榛谟?xùn)練、強(qiáng)化學(xué)習(xí)等新技術(shù)的出現(xiàn)與成熟,機(jī)器人的智能和適用性得以大幅提升,從而突破了過去的限制和邊界。
高陽也表示,現(xiàn)在做具身智能創(chuàng)業(yè)的一個(gè)最關(guān)鍵的因素是OpenAI已經(jīng)證明,預(yù)訓(xùn)練結(jié)合一系列post-training的方式,確實(shí)可以真的產(chǎn)生至少看起來像是人類智能,或者達(dá)到人類智能表象一樣的能力。
唐睿做圖形學(xué)出身,他指出,有了AI深度學(xué)習(xí)加成以后,算力的迭代體系就開始從指令級的迭代方向轉(zhuǎn)變?yōu)椴⑿杏?jì)算的迭代方向,由此導(dǎo)致并行計(jì)算的成本會降到很低。而并行計(jì)算無非就是模擬兩件事,一是模擬人腦,通過深度學(xué)習(xí)先驗(yàn)的知識預(yù)測未來或不同模態(tài);另一種是模擬物理世界,還有具身智能中大家會用MuJoCo做物理、交互仿真。而群核科技做的正是后者。
2024,產(chǎn)業(yè)里的代表性進(jìn)展or事件?
唐睿關(guān)注到越來越多原本從事圖形學(xué)和三維視覺研究的優(yōu)質(zhì)學(xué)者與團(tuán)隊(duì)(如李飛飛、Leo Guibas、蘇昊等),開始投身具身智能領(lǐng)域。他們憑借在虛擬世界和環(huán)境模擬方面的先天優(yōu)勢,為具身智能的發(fā)展注入新的動力與視角。
高陽最關(guān)注的進(jìn)展在于如何利用互聯(lián)網(wǎng)上的海量數(shù)據(jù)和中間層表示方法,將大模型預(yù)訓(xùn)練范式引入具身智能。這不僅包括像VLA(視覺-語言-動作)模型的成熟應(yīng)用,還涉及通過引入軌跡表示、粒子模擬等中間層結(jié)構(gòu)來減少對人工采集操作數(shù)據(jù)的依賴,從而在未來三到四年為具身智能的可持續(xù)發(fā)展奠定基礎(chǔ)。
實(shí)踐落地,數(shù)據(jù)是否是目前的關(guān)鍵挑戰(zhàn)?
李超認(rèn)為目前在他們關(guān)注的機(jī)器人本體與控制層面,數(shù)據(jù)并非主要挑戰(zhàn),但隨著未來更復(fù)雜場景與操作需求出現(xiàn),數(shù)據(jù)問題可能逐漸成為明年的挑戰(zhàn)。
唐睿認(rèn)為目前具身智能非常大的卡點(diǎn)是缺少高維的物理正確數(shù)據(jù),而群核空間智能平臺要做的事情就是為具身智能提供一個(gè)AI可交互世界,另外他強(qiáng)調(diào)了具身智能需要的真實(shí)物理模擬精度遠(yuǎn)高于純視覺內(nèi)容創(chuàng)作所需的精度。
他舉例,像Sora這樣的視頻生成工具,目前雖能逼真再現(xiàn)視覺效果,卻仍不足以提供比較準(zhǔn)確的物理參數(shù)與交互反饋,從而難以直接滿足具身智能的訓(xùn)練需求。這意味著在實(shí)現(xiàn)AGI級別機(jī)器人之前,如何獲取高精度、具可交互性的模擬數(shù)據(jù)仍是一個(gè)需解決的關(guān)鍵問題。
具身智能是否有類似L0—L5 的標(biāo)準(zhǔn)劃分?
李超表示不僅有而且很明確,去年以前很多都是L1,準(zhǔn)確說是L0,因?yàn)楹芏嗍怯扇嗽诓倏?。而現(xiàn)在要分行業(yè)劃分,在固定的小范圍場景下可以達(dá)到L4,機(jī)器人能自主決策判斷。
在高陽看來,制定一個(gè)標(biāo)準(zhǔn),本意是為了促進(jìn)一個(gè)行業(yè)的發(fā)展,可以去衡量每個(gè)具身智能技術(shù)到底達(dá)到了怎樣的水平,但無論這個(gè)標(biāo)準(zhǔn)是什么樣,可能最后因?yàn)榭陀^技術(shù)的限制,這個(gè)標(biāo)準(zhǔn)到就變成了一個(gè)比較偏向宣傳話術(shù)的東西,有限時(shí)間內(nèi)大家做不到廣泛場景的L4 或L5 的水平。
截至目前,具身智能走到了什么階段?
唐睿將機(jī)器人各部分類比到人的“手、眼、腳、腦”四個(gè)核心的器官,分開來看每個(gè)部分都超越或接近人類,但尚未形成高度協(xié)調(diào)的一體化體系,因此整體仍處于早期階段。高陽認(rèn)為制定一個(gè)標(biāo)準(zhǔn),本意是為了促進(jìn)一個(gè)行業(yè)的發(fā)展,可以去衡量具身智能技術(shù)到底達(dá)到了怎樣的水平,但無論這個(gè)標(biāo)準(zhǔn)是什么樣,可能最后因?yàn)榭陀^技術(shù)的限制,這個(gè)標(biāo)準(zhǔn)到就變成了一個(gè)比較偏向宣傳話術(shù)的東西,有限時(shí)間內(nèi)大家做不到廣泛場景的L4 或L5 的水平。
李超更加樂觀,他沒有用類比的方法,而是認(rèn)為具身智能已在工業(yè)等特殊場景中帶來深刻改變,雖家用需求尚不明確,但在專業(yè)領(lǐng)域的實(shí)際應(yīng)用已顯現(xiàn)強(qiáng)大影響力,推動行業(yè)格局加速變化,展現(xiàn)出更樂觀的發(fā)展前景。
后續(xù)還將有大會嘉賓更詳細(xì)版內(nèi)容分享,敬請關(guān)注!
(推廣)