聲明:本文來自于微信公眾號 新智元,作者:新智元,授權(quán)站長之家轉(zhuǎn)載發(fā)布。
奇點將至?奧特曼再次釋放「六字」神秘信號!谷歌文檔之父、機器學習博士紛紛預測,AGI降臨那天,95%人類工作或被AI取代。
一覺醒來,奇點又進了一步?!
昨天,OpenAI智能體安全研究員Stephen McAleer突然發(fā)出一番感慨:
有點懷念從前那段做AI研究的日子,那時我們還不知道如何創(chuàng)造超級智能。
緊隨其后,奧特曼發(fā)表了意味深長的「六字箴言」:near the singularity; unclear which side——奇點臨近;不知身處何方。
這句話是想表達兩層意思:
1. 模擬假說
2. 我們根本無法知道AI真正起飛的關(guān)鍵時刻,究竟是在什么時候
他又瘋狂暗示了一番,并期望這一點能引申出大家更多的解讀。
這一前一后,他們接連發(fā)出耐人尋味的信號,讓所有人不禁思考:奇點是否真的近在咫尺?
評論區(qū)下方,直接被新一輪的AGI大猜想和恐慌沖爆了。
若AGI/ASI真正降臨那天,我們將面臨著什么?
「谷歌文檔」之父Steve Newman在最新長文中認為,「屆時,AI將會取代95%人類工作,甚至包括未來新創(chuàng)造的工作」。
Apollo Research聯(lián)創(chuàng)Marius Hobbhahn則更進一步,列出了2024年-2030年所有AGI時間表。
他預測,「2027年,AI將直接取代AGI實驗室頂級AI研究員;
2028年,AI公司將有1萬-100萬個自動化的AI研究員,差不多所有需要知識型的工作都被AI自動化」。
與Newman觀點一致的是,Hobbhahn認為2024年95%以上經(jīng)濟價值的任務,都能被AI完全自動化。
不過,他將這個時間節(jié)點設定在了2029年。
AGI降臨,超95%工作被取代
Steve Newman在文章中,闡述了他對AGI的定義及其AI對未來世界的影響。
那么,AGI究竟指代的是什么時刻?Newman認為:
AI能夠在超95%的經(jīng)濟活動中,以成本效益的方式取代人類,包括未來新創(chuàng)造的任何工作。
他認為,大多數(shù)假設的AI變革性影響都集中在這個節(jié)點上。
因此,這個「AGI」的定義,代表了世界開始顯著改變的時刻,也是所有人「感受到AGI」的時刻,具體而言:
1AI系統(tǒng)能主動適應完成大多數(shù)經(jīng)濟活動所需的任務,并能完成完整而非孤立的任務。
2一旦AI能夠完成大多數(shù)知識型工作,高性能的物理機器人將在幾年內(nèi)隨之而來。
3這種能力水平可以實現(xiàn)一系列變革場景,從經(jīng)濟超增長到AI接管世界等。
4世界變革場景需要這種水平的AI(通常,專用AI不足以改變世界)。
5在達到AGI之前,「遞歸自我改進」將成為主要推動力。
6AGI指的是具備必要能力(以及經(jīng)濟效率)的AI被發(fā)明出來的時刻,而不是在整個經(jīng)濟中全面部署的時刻。
關(guān)于AI如何對世界產(chǎn)生變革性影響,有來自多方的推測:
一種觀點認為,AI可能帶來難以想象的經(jīng)濟增長——推動科學和工程領(lǐng)域快速進步,完成任務的成本比人類更低,幫助公司和政府做出更高效的決策。
根據(jù)最近的歷史數(shù)據(jù),世界人均GDP大約每40年翻一番。有人認為,高級AI可以使GDP在一年內(nèi)至少翻一倍,也就是「超增長」。
十年的「超增長」將使人均GDP增加1000倍。也就意味著,目前每天靠2美元生活的家庭,未來可能會實現(xiàn)年收入73萬美元。
另一種觀點認為,AI可能會帶來災難性的風險。
它可能會發(fā)動毀滅性的網(wǎng)絡攻擊,制造出高死亡率的流行病;可能讓獨裁者獲得對國家甚至全世界的絕對控制權(quán);甚至,AI可能失去控制,最終摧毀所有人類生命。
還有人推測,AI可能淘汰人類,至少在經(jīng)濟領(lǐng)域會這樣。它可能終結(jié)資源稀缺,讓每個人都能過上富裕的生活(前提是選擇公平分配這些成果)。它可能將僅存在于科幻中的技術(shù)變?yōu)楝F(xiàn)實,比如治愈衰老、太空殖民、星際旅行、納米技術(shù)。
不僅如此,一些人設想了一個「奇點」,在奇點中,進步的速度如此之快,以至于我們什么都無法預測。
Steve Newman推測,AGI真正實現(xiàn)的時刻,就是這些設想幾乎同時變成現(xiàn)實的時刻。
「可能發(fā)生」,不是「肯定發(fā)生」
需要澄清的是,Newman并非在說,關(guān)于高級AI的預測,一定都會實現(xiàn)。
未來,技術(shù)突破逐漸變難,所謂的「奇點」也就不一定會出現(xiàn)。也就是說,「長生不老」可能根本就無法實現(xiàn)。
再說了,人們可能更喜歡與他人互動,這樣的話,人類也就不會真的在現(xiàn)實經(jīng)濟活動中變得沒用。
當提到「可能差不多同時發(fā)生」時,Steve Newman的意思是,AI如果能實現(xiàn)難以想象的經(jīng)濟增長,那也有能力制造真正的毀滅性流行病、接管世界或快速殖民太空。
為什么談論「通用人工智能」
經(jīng)濟超增長在理論上是否可能,有一些爭議。
但如果AI無法自動化幾乎所有的經(jīng)濟活動,那么超增長幾乎注定是不可能的。僅僅自動化一半的工作,不會帶來深遠的影響;對另一半工作的需求會隨之增加,直到人類達到一個新的、相對常規(guī)的平衡。(畢竟,這種情況在過去已發(fā)生過;在不久前,大多數(shù)人還從事農(nóng)業(yè)或簡單的手工業(yè)。)
因此,超增長需要AI能夠完成「幾乎所有事情」。它還需要AI能夠適應工作,而不是重新調(diào)整工作和流程來適應AI。
否則,AI將以類似于以往技術(shù)的速度滲透到經(jīng)濟中——這種速度太慢,無法帶來持續(xù)的超增長。超增長需要AI足夠通用,以完成人類能做的幾乎所有事情,并且足夠靈活以適應人類原本的工作環(huán)境。
還有太空殖民、超致命流行病、資源稀缺的終結(jié)、AI接管世界等預測,這些情景都可以被歸類為「AGI 完成」情景:它們與經(jīng)濟超增長需要的AI,具有相同的廣度和深度。
Newman進一步主張,只要AI能夠完成幾乎所有經(jīng)濟任務,它就足以實現(xiàn)全部預測,除非與AI能力無關(guān)的原因?qū)е滤鼈儫o法實現(xiàn)。
為什么這些截然不同的情景,需要相同水平的AI能力?
閾值效應
他提到了,上個月Dean Ball關(guān)于「閾值效應」的文章。
也就是說,技術(shù)的逐步進步可能在達到某個關(guān)鍵閾值時,引發(fā)突如其來的巨大影響:
Dean Ball最近撰文探討了閾值效應:新技術(shù)在初期并不會迅速普及,只有當難以預測的實用性閾值被突破后,采用率才會迅速攀升。例如,手機起初是一種笨重且昂貴的滯銷產(chǎn)品,而后來卻變得無處不在。
幾十年來, 自動駕駛汽車還只是研究人員的興趣,而如今谷歌的Waymo服務每三個月就能實現(xiàn)翻倍增長。
對于任何特定任務,只有在突破該任務的實用性閾值后, AI才會被廣泛采用。這種突破可能發(fā)生得相當突然;從「還不夠好」到「足夠好」的最后一步不一定很大。
他認為,對于所有真正具有變革性影響的AI,其閾值與他之前描述的定義一致:
超增長需要AI能夠完成「幾乎所有事情」。它還需要AI能夠適應任務,而不是調(diào)整任務去適應自動化。
當AI能夠完成幾乎所有經(jīng)濟價值任務,并且不需要為了適應自動化而調(diào)整任務時,它將具備實現(xiàn)全部預測的能力。在這些條件滿足之前,AI還需要人類專家的協(xié)助。
一些細節(jié)
不過,Ball略過了AI承擔體力工作的問題——即機器人技術(shù)。
大多數(shù)場景都需要高性能的機器人,但一兩個(例如高級網(wǎng)絡攻擊)可能不需要。然而,這種區(qū)別可能并不重要。
機器人學的進步——無論是物理能力還是用于控制機器人的軟件——最近都顯著加快。這并非完全偶然:現(xiàn)代「深度學習」技術(shù)既推動了當前AI浪潮,在機器人控制方面也非常有效。
這引發(fā)了物理機器人硬件領(lǐng)域的一波新研究。當AI有足夠的能力刺激經(jīng)濟高速增長時,幾年之內(nèi)它也可能會克服剩余的障礙來制造可以勝任體力工作的機器人。
實際的影響將在至少幾年內(nèi)逐步展開,一些任務將比其他任務更早實現(xiàn)。即使AI能夠完成大多數(shù)經(jīng)濟價值任務,也不是所有公司都會立即行動。
為了讓AI完成比人類更多的工作,需要時間去建設足夠多的數(shù)據(jù)中心,而大規(guī)模生產(chǎn)物理機器人可能需要更長時間。
當談到AGI時,指的是具備基本能力的時刻,而不是全面部署的時刻。
當提到AI能夠「完成幾乎所有經(jīng)濟價值任務」時,并不一定意味著單個AI系統(tǒng)可以完成所有這些任務。我們可能最終會創(chuàng)建從事不同任務的專用模型,就像人類從事不同的專業(yè)一樣。但創(chuàng)建專用模型的必須像培訓專業(yè)工人一樣容易。
實現(xiàn)AGI,我們該怎么做?
對于「如何實現(xiàn)AGI?」這個問題,現(xiàn)在的研究者幾乎沒有頭緒和理論依據(jù),各種流派都有,爭論不休。
Apollo Research聯(lián)創(chuàng)Marius Hobbhahn認為,AGI的核心特點應該有三個:
- 對風險的來源、預期的風險程度、安全預算以及愿意承擔的風險做出更具體的明確假設。
- 明確的多層次防御方法,去除某些不相關(guān)、負相關(guān)的措施,而不是「嘗試疊加不同的策略以降低風險」。
- 計劃一致性,很多AI公司在宣傳和實際做的事不一致,比如聲稱為了安全性愿意付出更高代價,但卻不愿意承擔透明推理帶來的額外成本。
忠實且人類可讀的CoT范式
從AGI的全局發(fā)展來看,我們很幸運:現(xiàn)在AI系統(tǒng)的大部分推理過程是「直接可見」且「易于理解的」。
所謂忠實且人類可讀,就是指模型的推理過程是以一種人類可以直接理解的方式進行的,并且準確地反映了模型行動的原因,模型不能進行與聲明不符的內(nèi)部推理。
我們至少應該:
1. 共同認同將此作為一個重要考慮因素,并以此進一步發(fā)展。為了讓模型產(chǎn)生更易理解的CoT,我們可以并愿意承受相應的性能損失,哪怕是普通應用的運行成本會增加2倍,或是高風險應用的成本增加到5倍
2. 將更多的精力投入到研究易于理解且忠實的推理過程(CoT)。比如構(gòu)建一套評估工具,以測試某個特定模型的推理過程是否忠實,或者探索直接優(yōu)化可讀性會帶來哪些副作用,如何隱藏掉非預期推理等。
3. 「從架構(gòu)中移除可見CoT」的相關(guān)研究應該減少,例如Meta的COCONUT
假設可讀性帶來的額外成本并不太高(例如,不到2倍),那現(xiàn)在關(guān)于「移除CoT」的研究無異于自毀長城。
如果存在證據(jù)表明,像在o1和o3中使用的高計算強化學習(high compute RL)會導致不可讀的推理過程,例如模型自己發(fā)展出人類難以理解的語言,相應的觀念也應該發(fā)生轉(zhuǎn)變:
1. 人工智能開發(fā)者盡快分享此信息,「模型的推理性能很好,但我們不理解其推理過程」要比「模型的推理性能一般,但我們能夠理解其推理過程」可怕得多。
2. 轉(zhuǎn)變研究和治理策略的優(yōu)先級,比如投入更多精力去解碼模型所學到的語言。
用CoT監(jiān)控模型
如果模型能生成人類可理解的CoT,我們的主要防御手段就是對模型進行詳細的監(jiān)控,雖然極具成本效益但經(jīng)常被忽視。
在理想情況下,可以用幾臺簡單的監(jiān)控設備來分析模型輸出,以檢測各種通用的故障模式和不良行為,可追蹤的行為類型包括:
各種類型的陰謀(scheming)行為,例如模型是否隱藏了某個特定目標,是否試圖逃避監(jiān)管,是否采取了不符合用戶利益的行動等;
各種類型的權(quán)力追求(power-seeking)行為,例如模型是否試圖獲取資源,試圖減少訪問限制,試圖以某種方式說服他人等;
強烈且廣泛的目標導向,例如模型在多個上下文中都一直在追求某個特定目標,需要在不同上下文之間進行對比;
可以使用較小但運行更快的模型作為「僅黑箱監(jiān)控器」(balck-box-only monitors),類似用Gemini-flash來監(jiān)控Gemini,或者使用「白盒探測器」(white-box probes),經(jīng)過訓練以檢測有問題的行為(例如,線性探測器或SAE探測器);
最好既能監(jiān)控行動本身(例如,工具調(diào)用),也能監(jiān)控導致這些行動的推理過程。
模型開發(fā)商已經(jīng)開始使用黑箱監(jiān)控器來防止模型越獄(jailbreaks),算是有了一個概念驗證;簡單的線性探測器極具成本效益(只需要一個簡單的向量乘積),可以在幾乎不增加額外開銷的情況下,并行運行上萬的探測器。
雖然這些方法看似簡單,但研究人員認為,還沒有人系統(tǒng)地研究如何對模型進行有效的監(jiān)控。
監(jiān)控在概念理解上看似簡單,但仍需要大量的迭代和調(diào)整,比如需要一個完善的數(shù)據(jù)集來訓練和評估探測器,校準閾值等。
每個AI實驗室都應該有一個完整的團隊來專門構(gòu)建監(jiān)控設備,確保模型按預期工作,分析其結(jié)果,使其運行更高效等。
總的來說,監(jiān)控設備不僅可以直接防止模型生成傷害性內(nèi)容,還可以更快、更全面地了解對齊(alignment)技術(shù)的有效性。
控制模型
最壞情況下,模型可能有自己的想法,而且人類不一定能看清推理過程,所以需要最大限度地提高模型的實用性,同時最小化風險,具體措施包括:
1. 智能體(agents):以往的研究主要集中在小智能體系統(tǒng)或在較小任務,實驗室應該盡快將控制技術(shù)應用于最先進的系統(tǒng),以便盡早積累實踐經(jīng)驗;
2. 現(xiàn)實性(realism):在常見的應用場景下對模型進行控制,比如輔助研究等;
3. 藍隊與紅隊的規(guī)則:在某些變體下,紅隊過于強大,比如可以訪問藍隊的所有數(shù)據(jù),并針對藍隊進行訓練等,對團隊的假設應該更「合理」且「精確」。
4. 放寬假設(relaxed asummptions):控制的假設基于模型始終腹黑,相對保守;可以定義更嚴格的界限,減少約束,使模型表現(xiàn)大體不變。
模型的陰謀(scheming)
在加速研發(fā)人工智能系統(tǒng)時,我們也應該加深對大模型圖謀不軌行為的理解:
1. 檢測工具:使用性能更好的工具來檢測模型的圖謀,例如更大規(guī)模的黑箱評估和更好的白箱技術(shù);
2. 圖謀行為的發(fā)展:應該深入理解為什么模型會追求某種能力,了解模型如何學習非短視傾向,以及模型何時愿意為了這些傾向付出行動;
3. 現(xiàn)實中的傾向:了解模型在實踐中的圖謀頻率,比如分析1億個真實的模型回復,似乎是一個低投入、高回報的項目,但需要訪問大量真實的部署數(shù)據(jù)。
4. 隱藏的圖謀:分析哪些訓練方法會減少模型的圖謀行為,或識別出那些難以檢測的圖謀行為。如果模型每次出現(xiàn)圖謀不軌的時候,就對其進行懲罰,會導致負面行為減少,但可能會增加模型隱藏陰謀的能力。我們需要針對不同情況作出判斷和平衡;
5. 準備應對措施:根據(jù)模型的圖謀程度,采取無視、重新訓練模型,或者完全丟棄模型等不同策略;
6. 更多的能力評估:更進一步了解模型在規(guī)避監(jiān)管、干擾訓練等程度。
評估
評估是一種高效的「模型圖謀」證據(jù)收集工具,可以支持其他策略,比如評價「監(jiān)控」或「控制」方法是否有效等。
另一方面,評估也可以讓我們了解模型的大體能力,但現(xiàn)有的評估在某些方面仍然不足:
1. 能力評估:應該繼續(xù)構(gòu)建更多更好的能力評估,特別是針對人工智能研發(fā)、策劃、核生化、網(wǎng)絡和說服等方面,我們目前仍然不清楚模型的具體能力;
2. 誘導(Elicitation):如何對模型進行誘導以產(chǎn)生最大能力,盡可能找到模型的上限能力?
3. 預測評估:預測能力的正確方式是什么?那些模型表現(xiàn)仍然為0的基準,該如何突破?或許還有更好的預測評估方法;
4. 對齊評估:迄今為止,大多數(shù)研究都集中在能力評估上,而「對齊/傾向評估」(alignment/propensity)也很重要,應該加速構(gòu)建對抗性對齊評估,比如設置各種非短視偏好陷阱等,為模型建立一個非常詳細的「心理檔案」,以了解其默認傾向;
5. 演示:對于研究人員或公司內(nèi)部來說,需要用一篇嚴謹?shù)恼撐膩碜屑毧紤]所有的潛在可能性,還需要考慮如何傳遞演示給普通用戶。
短期對齊策略
現(xiàn)有的技術(shù),比如RLHF在模型中引入了非短視(non-myopic)且不可糾正的(non-corrigible)傾向,應該投入更多的精力來詳細了解模型獲得的目標類型,為模型建立詳細的「認知檔案」。
內(nèi)部和外部使用的策略應該有明顯的區(qū)別,比如模型具有更強的抗越獄能力可能會降低其可糾正性,需要確定哪些策略適用于長期內(nèi)部部署。
推理透明度
在最好的情況下,內(nèi)部計劃應該是完全透明的,并明確關(guān)于安全預算、組織隱含愿意承擔的風險、明確的紅線等假設。應該經(jīng)常與外部專家溝通具體計劃,專家可以來自獨立組織、學術(shù)界或人工智能安全研究所,可以簽訂保密協(xié)議。
從道德上講,公司應該與公眾分享計劃中的細節(jié),尤其是影響力更大的AI公司和技術(shù),每個人都應該能夠理解他們「應該或不應該」期望這項技術(shù)是安全的。
參考資料:
https://x.com/sama/status/1875603249472139576
https://amistrongeryet.substack.com/p/defining-agi
https://www.lesswrong.com/posts/bb5Tnjdrptu89rcyY/what-s-the-short-timeline-plan#So_what_s_the_plan_
(舉報)