聲明:本文來自于微信公眾號 量子位 | 公眾號 QbitAI,作者:明敏 克雷西,授權站長之家轉(zhuǎn)載發(fā)布。
GPT-5被曝效果遠不達預期。
OpenAI連續(xù)12場發(fā)布會剛剛結(jié)束,大家最想看的GPT-5/4.5影子都沒有,于是華爾街日報這邊爆料了。
GPT-5已至少完成2輪訓練,每次長達數(shù)月,但是每次訓練后都遇到新問題。
OpenAI正在專門雇人寫代碼、做數(shù)學題為GPT-5從頭創(chuàng)建數(shù)據(jù),o1合成數(shù)據(jù)也用,但效率不夠高,想要滿足GPT-5的預訓練需求有難度。
按照市場估算,一次長達6個月的訓練僅計算就需要花費5億美金。GPT-5兩次訓練進展都不順,背后的成本想必也是個天文數(shù)字。
Ilya前不久在NeurIPS2024上宣判的預訓練即將終結(jié),似乎再次得到論證……
這也和The Information此前爆料相呼應,隨著GPT系列進化速度放緩,OpenAI正在嘗試調(diào)整戰(zhàn)略,比如o1、o3系列的推出。
目前,OpenAI對最新爆料尚無回應。
但GPT-5究竟是OpenAI藏著不發(fā),還是不能發(fā)?答案更確定了一點。
巨量數(shù)據(jù)算力堆不好GPT-5的預訓練
在華爾街日報的爆料中,OpenAI對于GPT-5的預期很高。
它能夠進行科學探索發(fā)現(xiàn),并完成例行的人類任務,比如預約、訂航班。而且希望它能夠犯更少的錯誤,或者能夠承認錯誤存在,也就是減少幻覺。
這與更早透露出的信息相呼應。OpenAI前CTO Mira曾形象地將GPT-5的智能水平比作博士生。
這意味著GPT-5能夠在某些特定領域取得高水平成績,能像研究生、博士那樣可以深刻理解、推理,并具備專業(yè)知識。對比來看,GPT-3是蹣跚學步的孩子,GPT-4是高中生。
今年10月,OpenAI最新籌集到的66億美元融資,估值飆升到1570億美元。投資者的再一次加碼,也被認為是因為相信GPT-5將能完成重大飛躍。
但是GPT-5的發(fā)布一直懸而未決。
奧特曼之前表示,GPT-5不會有明確的發(fā)布時間,等什么時候準備好了,就什么時候發(fā)。這個時間可能是2025,也可能是2026。
如今回溯來看,GPT-5的推出一直都坎坷不斷。
在2023年,OpenAI被曝光放棄了一個代號為Arrakis的模型。放棄原因是該模型不能實現(xiàn)在保持性能的同時減少對計算資源的需求,沒有達到預期的訓練效率。
這其實反向證明,如果想要訓練規(guī)模更大規(guī)模的模型,還是需要更龐大的計算資源、更長的時間。
從設定來看,GPT-5顯然會是個“巨無霸”。
GPT-5的開發(fā)啟動于GPT-4發(fā)布時。至今已經(jīng)超過18個月了。
它在內(nèi)部的代號是獵戶座Orion。按照原本計劃,微軟是想在2024年年中看到GPT-5的。
華爾街日報披露,GPT-5的大規(guī)模訓練至少進行了2輪。每次都需要幾個月,每次也都遇到了新問題。
最好的情況下,Orion比OpenAI目前的產(chǎn)品表現(xiàn)都要好。但與所消耗的成本相比,這種提升并不明顯。
據(jù)估測,一次為期6個月的訓練僅算力成本就要消耗5億美元。對比來看,GPT-4的訓練成本超1億美元。
另一方面,想要更好的模型,就需要更多的數(shù)據(jù)。
公共資源的數(shù)據(jù)消耗殆盡,OpenAI決定雇人從頭構(gòu)建數(shù)據(jù)。據(jù)爆料,它專門找了一些軟件工程師、數(shù)學家來寫代碼、解數(shù)學題,供GPT-5學習。
一直以來,AI圈內(nèi)都認為模型學習代碼可以提升它解決其他問題的能力。
同時OpenAI也和一些物理學家合作,讓GPT-5學習科學家如何理解領域內(nèi)的問題。
但問題就是,這樣太慢了。
AI合成數(shù)據(jù)的路子OpenAI也走。據(jù)說GPT-5就使用了o1合成的數(shù)據(jù)。
這種范式可能已經(jīng)可以被論證。
隔壁Anthropic也被爆料使用AI合成數(shù)據(jù)訓練模型。他們的做法是把最好用的模型內(nèi)部自留合成數(shù)據(jù),因為模型性能與合成數(shù)據(jù)質(zhì)量直接成正比。
以上,大概就是GPT-5最新相關信息。
不過話說回來,最近誰還在乎GPT-5呢(手動狗頭)?
畢竟OpenAI憑借o1、o3系列開啟了推理Scaling Law。
剛剛發(fā)布的o3在ARC-AGI上刷新成績。最新結(jié)果報告顯示,在400項公共任務上,o3的最好成績已經(jīng)達到91.5%。
在核心機制上,o3也給出新啟發(fā)。它通過LLM在token空間內(nèi)搜索和執(zhí)行,實現(xiàn)了在測試時內(nèi)的知識重組。
隨著o3系列發(fā)布,AGI的預言依舊很有吸引力。
o3屠榜ARC-AGI測試,離AGI還有多遠?
簡單介紹一下ARC-AGI數(shù)據(jù)集,題目帶有色塊的網(wǎng)格陣列(以文本形式表述,用數(shù)字代表顏色),大模型需要觀察每道題目中3個輸入-輸出示例,然后根據(jù)規(guī)律填充新的空白網(wǎng)格。
這幾個示例比較簡單,但實際面臨的問題可能是這樣的:
ARC-AGI測試集一共包含400道公開試題和100個私有問題。
在公開問題中,o3高效率版的準確率為82.8%,消耗了1.11億Token,平均每個任務成本為17美元。
低效率版本(計算量是高效版的172倍),準確率高達91.5%,不過消耗的Token數(shù)也達到了驚人的95億。
另外OpenAI還做了一個專門針對ARC-AGI的版本,使用了75%的公開數(shù)據(jù)集進行了訓練。
這個版本拿到私有測試集上測試,結(jié)果地計算量模式取得了76%的準確率,高計算量模式則為88%。
并且,低計算量版本的成本在ARC-AGI-Pub的規(guī)則范圍內(nèi)(<$10k),成為了公共排行榜上的第一名。
88%的高計算量版本則過于昂貴,但仍然表明新任務的性能確實隨著計算量的增加而提高。
在此之前,GPT-3的準確率是零,GPT-4o為5%,o1最好也剛剛超過30%。
ARC挑戰(zhàn)的發(fā)起者之一、前谷歌資深工程師、Keras之父Fran?ois Chollet認為,o3能夠適應以前從未遇到過的任務,可以說在ARC-AGI領域接近人類水平。
當然成本也十分昂貴,即使是低計算量模式,每個任務也需要17-20美元,而發(fā)起方雇傭真人解決此類問題的成本,平均到每個問題只有5美元。
但拋開成本問題,Chollet指出,o3對GPT系列的改進證明了架構(gòu)的重要性,認為無法在GPT-4上通過投入更多計算來獲得這樣的成績。
所以,通過ARC-AGI測試,意味著o3實現(xiàn)AGI了嗎?Chollet認為并不是。
通過測試發(fā)現(xiàn),o3在一些非常簡單的任務上仍然失敗,這表明其與人類智能存在根本差異。
另外,ARC-AGI的下一代ARC-AGI-2也即將推出,早期測試表明其將對o3構(gòu)成重大挑戰(zhàn),即使在高計算量模式下,其得分也可能會降低到30%以下(而聰明人仍然能夠得分超過95%)。
但無論是否達到AGI,o3能夠?qū)崿F(xiàn)的成績都是前所未有的,甚至有人認為,針對ARC這樣的任務而言,人類的優(yōu)勢其實是在于視覺推理,如果改成像模型看到的那樣用文本形式描述圖形,那人類做的不一定會比AI好。
并且,針對o3“沒能成功”的一個案例,還有人質(zhì)疑是標準答案錯了。
這道題當中,變化規(guī)律是將處于同一行或列的兩個藍色格子連成線,并把穿過的紅色區(qū)域整塊涂藍。
這道題的“標準答案”和o3的嘗試,區(qū)別就是綠色框中的部分是否被涂成藍色:
在三個示例當中,由紅變藍的部分都是被連線從中間穿過,但在這道題中連線是從這個3×4的紅色區(qū)域下方經(jīng)過,o3因此認為不該把這塊區(qū)域涂藍。
那么,o3又是怎么實現(xiàn)的呢?
有人認為是通過提示詞,但ARC挑戰(zhàn)負責人Greg Kamradt和OpenAI的研究人員Brandon McKinzie均否認了這一說法,表示給o3的提示詞非常簡單。
另外Chollet推測,o3的核心機制似乎是在Token空間內(nèi)搜索和執(zhí)行自然語言程序——在某種評估器模型引導下,搜索可能的描述解決任務所需的步驟的思維鏈空間。
按照Chollet的觀點,o3實現(xiàn)了在測試時的知識重組,總之,o3構(gòu)建出了一種通向AGI的新的范式。
英偉達AI科學家范麟熙(Jim Fan)認為,o3的本質(zhì)是“放松單點RL超級智能,以覆蓋有用問題空間中的更多點”。
也就是用深度換取廣度,放松對于個別任務的強化學習,換得在更多任務上的通用性。
范麟熙舉例說,像AlphaGo、波士頓動力電子地圖集都是超級人工智能,在特定的任務上表現(xiàn)非常出色。
但o3不再是像這樣只能應付單點任務的專家,而是一個在更大的有用任務集都表現(xiàn)優(yōu)異的專家。
不過范麟熙也表示,o3仍然無法涵蓋人類認知的所有分布,我們?nèi)匀惶幱谀S克悖論之中。
(莫拉維克悖論認為,人類所獨有的高階智慧能力只需要非常少的計算能力(例如推理),但是無意識的技能和直覺卻需要極大的運算能力。)
ARC挑戰(zhàn)發(fā)起方的發(fā)現(xiàn)——o3在一些非常簡單的任務上失敗,似乎剛好印證了這一觀點。
最后,關于AGI,范麟熙表示,我們已經(jīng)實現(xiàn)了巨大的里程碑,并且有清晰的路線圖,但還有更多事情要做。
One More Thing
作為12天發(fā)布的一部分,OpenAI在最后一天發(fā)布o3的同時,也發(fā)了一篇關于安全問題的論文。
論文引入了一種名為慎重對齊(deliberative alignment)的對齊方式,直接向推理模型傳授人工編寫、可解釋的安全規(guī)范,并訓練他們在回答之前對這些規(guī)范進行明確的推理。
結(jié)果,訓練出的模型不需要人工標記的CoT或答案,就可以高度精確地遵守OpenAI的安全政策。
OpenAI發(fā)現(xiàn),o1在一系列內(nèi)部和外部安全基準方面顯著優(yōu)于GPT-4o等其他最先進模型 ,并且在許多具有挑戰(zhàn)性的(安全)數(shù)據(jù)集上的性能達到飽和。
這一發(fā)現(xiàn),揭示了推理將成為提高模型安全性的一條新途徑。
參考鏈接:
[1]https://www.wsj.com/tech/ai/openai-gpt5-orion-delays-639e7693?st=ng5hBi
[2]https://x.com/mckbrando/status/1870285050555810198
[3]https://x.com/DrJimFan/status/1870542485023584334
[4]https://arcprize.org/blog/oai-o3-pub-breakthrough
—完—
(舉報)