聲明:本文來自于微信公眾號新智元,作者:新智元,授權(quán)站長之家轉(zhuǎn)載發(fā)布。
【新智元導(dǎo)讀】全球頂會NeurIPS2024中,Ilya登場演講,向全世界宣告:預(yù)訓(xùn)練結(jié)束了!數(shù)據(jù)如同化石燃料般難以再生,未來,AI的發(fā)展方向就是具備自我意識的超級智能。
剛剛,Ilya現(xiàn)身NeurIPS2024,宣布:預(yù)訓(xùn)練從此將徹底終結(jié)。
短短16分鐘的發(fā)言,足以震撼全場。
是的,他的原話是——
正如我們所知的那樣,預(yù)訓(xùn)練毫無疑問將會終結(jié),與此同時我們也不會再有更多數(shù)據(jù)了。
原因在于,我們只有一個互聯(lián)網(wǎng),訓(xùn)練模型需要的海量數(shù)據(jù)即將枯竭,唯有從現(xiàn)有數(shù)據(jù)中尋找新的突破,AI才會繼續(xù)發(fā)展。
Ilya的預(yù)測是,以后的突破點,就在于智能體、合成數(shù)據(jù)和推理時計算。
未來,我們會走向何方?
Ilya告訴我們:接下來登場的就是超級智能(superintelligence)——智能體,推理,理解和自我意識。
11月底,NeurIPS2024時間檢驗獎公布,Ilya和GAN之父獲獎。
論文地址:https://arxiv.org/abs/1409.3215
Ilya感謝了自己的兩位合著者Oriel Vinyals和Kwok-Lee,放出了下面這張圖。
這是在十年前,2014年蒙特利爾NeurIPS 會議上一次類似演講的截圖。Ilya說,那是一個更加純粹的時代。
而如今,圖中的三位青蔥少年已經(jīng)長成了下面的模樣。
Ilya要做的第一件事,是展示10年前同一個演講的PPT。
他們的工作,可以用以下三個要點概括——
這是一個基于文本訓(xùn)練的自回歸模型;它是一個大型神經(jīng)網(wǎng)絡(luò);它使用了一個大規(guī)模的數(shù)據(jù)集。
10層神經(jīng)網(wǎng)絡(luò),只需幾分之一秒
下面,Ilya與我們探討了「深度學(xué)習(xí)假設(shè)」。
如果你有一個10層的大型神經(jīng)網(wǎng)絡(luò),它就可以在幾分之一秒內(nèi),完成任何人類能做的事。
為什么要強(qiáng)調(diào)幾分之一秒內(nèi)?
如果你相信深度學(xué)習(xí)的基本假設(shè),即人工神經(jīng)元和生物神經(jīng)元是相似的,并且你也相信真實神經(jīng)元的速度比人類快速完成任務(wù)的速度更慢,那么只要全世界有一個人能夠在不到一秒內(nèi)完成某項任務(wù),那么一個10層神經(jīng)網(wǎng)絡(luò)也能做到。
只要把它們的連接,嵌入到你的人工神經(jīng)網(wǎng)絡(luò)中。
這就是我們的動機(jī)。
我們專注于10層神經(jīng)網(wǎng)絡(luò),因為在那個時候,這就是我們能夠訓(xùn)練的神經(jīng)網(wǎng)絡(luò)。如果你能突破10層,你當(dāng)然可以完成更多事。
下面這張PPT,描述的是他們的「主要想法」。
核心觀點就是,如果你有一個自回歸模型,并且它能夠足夠好地預(yù)測下一個Token,那么它實際上會抓取、捕獲、掌握接下來任何序列的真實分布。
在當(dāng)時,這是一個相對新穎的觀點。
盡管它并不是第一個被應(yīng)用于實踐的自回歸神經(jīng)網(wǎng)絡(luò),但I(xiàn)lya認(rèn)為,這是第一個令他們深信不疑的自回歸網(wǎng)絡(luò):如果把它訓(xùn)練得足夠好,那么你就會得到想要的任何結(jié)果。
當(dāng)時,他們嘗試的是翻譯。這個任務(wù)如今看來平凡無奇,當(dāng)時卻極具挑戰(zhàn)性。
接下來,Ilya展示了一些可能很多人從未見過的古老歷史——LSTM。
不熟悉的人會覺得,LSTM是Transformer出現(xiàn)之前,深度學(xué)習(xí)研究者所使用的工具。它可以被看作是一個旋轉(zhuǎn)了90度的ResNet,但更復(fù)雜一些。
我們可以看到積分器(integrator),如今被稱為殘差流(residual stream),還涉及一些更為復(fù)雜的乘法操作。
Ilya還想強(qiáng)調(diào)的一點是,他們當(dāng)時使用了并行化。
不過并不是普通的并行化,而是流水線并行化(pipelining),每層神經(jīng)網(wǎng)絡(luò)都分配一塊GPU。
從今天來看,這個策略并不明智,但當(dāng)時的他們并不知道。于是,他們使用8塊GPU,實現(xiàn)了3.5倍的速度。
從這里,Scaling Law開始了
最終,ILya放出了那次演講中最為意義重大的一張PPT,因為,它可以說是「Scaling Law」的開端——
如果你有一個非常大的數(shù)據(jù)集,訓(xùn)練一個非常大的神經(jīng)網(wǎng)絡(luò),那么可以保證成功。
從廣義上來說,后來發(fā)生的事情也的確如此。
接下來,Ilya提到了一個真正經(jīng)得起時間考驗的想法——聯(lián)結(jié)主義(connectionism),這樣說深度學(xué)習(xí)的核心思想。
這種理念認(rèn)為,如果你愿意相信人工神經(jīng)元在某種程度上有點像生物神經(jīng)元,那么你就會相信,超大規(guī)模神經(jīng)網(wǎng)絡(luò)并不需要達(dá)到人類大腦的級別,就可以用來完成幾乎所有人類能做的事。
但它與人類仍然不同。因為人類大腦會弄清楚自己如何配置,它使用的是最優(yōu)的學(xué)習(xí)算法,需要與參數(shù)數(shù)量相當(dāng)?shù)臄?shù)據(jù)點。
在這一點上,人類仍然更勝一籌。
所有這些,最終都引出了「預(yù)訓(xùn)練時代」。
這個時代,可以用GPT-2、GPT-3和Scaling Laws定義。
此處,ILya格外感謝了前同事Alec Radford,Jared Kaplan和Dario Amodei。
這項技術(shù),是推動我們今日所見所有技術(shù)進(jìn)步的核心驅(qū)動力。
預(yù)訓(xùn)練時代,即將終結(jié)
然而,我們所知的預(yù)訓(xùn)練路線,毫無疑問會終結(jié)。
為什么?
這是因為,盡管計算能力正通過更好的硬件、更優(yōu)的算法和更大的集群不斷增長,但數(shù)據(jù)量并沒有增長——我們只有一個互聯(lián)網(wǎng)。
甚至可以說,數(shù)據(jù)是AI的化石燃料。它們是以某種方式被創(chuàng)造出來的,而如今,我們已經(jīng)達(dá)到了數(shù)據(jù)峰值,不可能再有更多數(shù)據(jù)了。
當(dāng)然,目前現(xiàn)存的數(shù)據(jù),仍能支持我們走得很遠(yuǎn),但我們只有一個互聯(lián)網(wǎng)。
接下來會發(fā)生什么?Ilya給出了下列預(yù)測。(或者只是提到他人的猜測)
首先,智能體會有一些突破,這些能自主完成任務(wù)的AI智能體,就是未來的發(fā)展方向。
其次,還會有一些模糊的合成數(shù)據(jù),但這到底意味著什么?很多人都會取得有趣的進(jìn)展。
最后,就是推理時計算了,最引人矚目的例子,就是o1。在預(yù)訓(xùn)練后,我們接下來該探索什么?o1給出了生動的例子。
下面,是一個來自生物學(xué)的例子。
這張圖,展示了哺乳動物的身體大小與大腦大小之間的關(guān)系。
在生物學(xué)中,一切都很混亂,但上面這個緊密聯(lián)系,卻是一個罕見的例子。
從人類及其近親的進(jìn)化分支上看,包括尼安德特人、能人等等,大腦與身體比例的縮放指數(shù)都不同。
這意味著在生物學(xué)中,確實存在不同比例縮放的先例。
如今我們所擴(kuò)展的,可以說是第一個我們知道該如何擴(kuò)展的事物。這個領(lǐng)域中的每個人,都會找到解決辦法。
而我們在相關(guān)領(lǐng)域,也取得了驚人的進(jìn)步。10年前這個領(lǐng)域的人,還會記得當(dāng)時是多么無能為力。過去2年進(jìn)入深度學(xué)習(xí)的人,可能都無法感同身受。
超級智能是未來,還會與意識結(jié)合
最后Ilya談到的,就是超級智能(superintelligence)了。它是公認(rèn)的發(fā)展方向,也是研究人員們正在構(gòu)建的東西。
從本質(zhì)上來說,超級智能與現(xiàn)在的AI完全不同。
目前,我們擁有出色的LLM和聊天機(jī)器人,但它們也表現(xiàn)出某些奇怪的不可靠性——時常會感到困惑,但卻能在評估中表現(xiàn)出遠(yuǎn)超人類的能力。
雖然我們還不知道如何調(diào)和這一點,但最終遲早會實現(xiàn)以下目標(biāo):AI將真正具備實際意義上的智能體特性,并將正學(xué)會推理。
由于推理會引入了更多的復(fù)雜性,因此一個會推理的系統(tǒng),推理量越多,就會變得越不可預(yù)測。相比之下,我們熟知的深度學(xué)習(xí)都是可以預(yù)測的。
舉個例子,那些優(yōu)秀的國際象棋AI,對于最頂尖的人類棋手來說就是不可預(yù)測的。
所以,我們將來不得不面對的,是一些極其不可預(yù)測的AI系統(tǒng)——它們能夠從有限的數(shù)據(jù)中理解事物,同時也不會感到困惑。
同樣,自我意識也是有用的,它構(gòu)成了我們自身的一部分,同時也是我們世界模型中的一部分。
當(dāng)所有這些特性與自我意識結(jié)合在一起時,就會帶來與現(xiàn)有系統(tǒng)完全不同性質(zhì)和特性的系統(tǒng),它們將擁有令人難以置信的驚人能力。
當(dāng)然,雖然無法確定如何實現(xiàn)、何時實現(xiàn),但這終將發(fā)生。
至于這種系統(tǒng)可能帶來的問題,就留給大家自己去想象吧。
畢竟預(yù)測未來是不可能的,任何事情都有可能發(fā)生。
參考資料:
https://x.com/_jasonwei/status/1867696401830096970
https://x.com/blueberry_feed/status/1867764724206629224
https://x.com/tmychow/status/1867695173783925071
(舉報)