Ilya宣判后GPT-5被曝屢訓屢敗，一次訓數(shù)月，數(shù)據(jù)要人工從頭構(gòu)建

2024-12-23 09:15 · 稿源：量子位公眾號

聲明:本文來自于微信公眾號量子位 | 公眾號 QbitAI，作者:明敏克雷西，授權站長之家轉(zhuǎn)載發(fā)布。

GPT-5被曝效果遠不達預期。

OpenAI連續(xù)12場發(fā)布會剛剛結(jié)束，大家最想看的GPT-5/4.5影子都沒有，于是華爾街日報這邊爆料了。

GPT-5已至少完成2輪訓練，每次長達數(shù)月，但是每次訓練后都遇到新問題。
OpenAI正在專門雇人寫代碼、做數(shù)學題為GPT-5從頭創(chuàng)建數(shù)據(jù)，o1合成數(shù)據(jù)也用，但效率不夠高，想要滿足GPT-5的預訓練需求有難度。

按照市場估算，一次長達6個月的訓練僅計算就需要花費5億美金。GPT-5兩次訓練進展都不順，背后的成本想必也是個天文數(shù)字。

Ilya前不久在NeurIPS2024上宣判的預訓練即將終結(jié)，似乎再次得到論證……

這也和The Information此前爆料相呼應，隨著GPT系列進化速度放緩，OpenAI正在嘗試調(diào)整戰(zhàn)略，比如o1、o3系列的推出。

目前，OpenAI對最新爆料尚無回應。

但GPT-5究竟是OpenAI藏著不發(fā)，還是不能發(fā)?答案更確定了一點。

巨量數(shù)據(jù)算力堆不好GPT-5的預訓練

在華爾街日報的爆料中，OpenAI對于GPT-5的預期很高。

它能夠進行科學探索發(fā)現(xiàn)，并完成例行的人類任務，比如預約、訂航班。而且希望它能夠犯更少的錯誤，或者能夠承認錯誤存在，也就是減少幻覺。

這與更早透露出的信息相呼應。OpenAI前CTO Mira曾形象地將GPT-5的智能水平比作博士生。

這意味著GPT-5能夠在某些特定領域取得高水平成績，能像研究生、博士那樣可以深刻理解、推理，并具備專業(yè)知識。對比來看，GPT-3是蹣跚學步的孩子，GPT-4是高中生。

今年10月，OpenAI最新籌集到的66億美元融資，估值飆升到1570億美元。投資者的再一次加碼，也被認為是因為相信GPT-5將能完成重大飛躍。

但是GPT-5的發(fā)布一直懸而未決。

奧特曼之前表示，GPT-5不會有明確的發(fā)布時間，等什么時候準備好了，就什么時候發(fā)。這個時間可能是2025，也可能是2026。

如今回溯來看，GPT-5的推出一直都坎坷不斷。

在2023年，OpenAI被曝光放棄了一個代號為Arrakis的模型。放棄原因是該模型不能實現(xiàn)在保持性能的同時減少對計算資源的需求，沒有達到預期的訓練效率。

這其實反向證明，如果想要訓練規(guī)模更大規(guī)模的模型，還是需要更龐大的計算資源、更長的時間。

從設定來看，GPT-5顯然會是個“巨無霸”。

GPT-5的開發(fā)啟動于GPT-4發(fā)布時。至今已經(jīng)超過18個月了。

它在內(nèi)部的代號是獵戶座Orion。按照原本計劃，微軟是想在2024年年中看到GPT-5的。

華爾街日報披露，GPT-5的大規(guī)模訓練至少進行了2輪。每次都需要幾個月，每次也都遇到了新問題。

最好的情況下，Orion比OpenAI目前的產(chǎn)品表現(xiàn)都要好。但與所消耗的成本相比，這種提升并不明顯。

據(jù)估測，一次為期6個月的訓練僅算力成本就要消耗5億美元。對比來看，GPT-4的訓練成本超1億美元。

另一方面，想要更好的模型，就需要更多的數(shù)據(jù)。

公共資源的數(shù)據(jù)消耗殆盡，OpenAI決定雇人從頭構(gòu)建數(shù)據(jù)。據(jù)爆料，它專門找了一些軟件工程師、數(shù)學家來寫代碼、解數(shù)學題，供GPT-5學習。

一直以來，AI圈內(nèi)都認為模型學習代碼可以提升它解決其他問題的能力。

同時OpenAI也和一些物理學家合作，讓GPT-5學習科學家如何理解領域內(nèi)的問題。

但問題就是，這樣太慢了。

AI合成數(shù)據(jù)的路子OpenAI也走。據(jù)說GPT-5就使用了o1合成的數(shù)據(jù)。

這種范式可能已經(jīng)可以被論證。

隔壁Anthropic也被爆料使用AI合成數(shù)據(jù)訓練模型。他們的做法是把最好用的模型內(nèi)部自留合成數(shù)據(jù)，因為模型性能與合成數(shù)據(jù)質(zhì)量直接成正比。

以上，大概就是GPT-5最新相關信息。

不過話說回來，最近誰還在乎GPT-5呢（手動狗頭）?

畢竟OpenAI憑借o1、o3系列開啟了推理Scaling Law。

剛剛發(fā)布的o3在ARC-AGI上刷新成績。最新結(jié)果報告顯示，在400項公共任務上，o3的最好成績已經(jīng)達到91.5%。

在核心機制上，o3也給出新啟發(fā)。它通過LLM在token空間內(nèi)搜索和執(zhí)行，實現(xiàn)了在測試時內(nèi)的知識重組。

隨著o3系列發(fā)布，AGI的預言依舊很有吸引力。

o3屠榜ARC-AGI測試，離AGI還有多遠?

簡單介紹一下ARC-AGI數(shù)據(jù)集，題目帶有色塊的網(wǎng)格陣列（以文本形式表述，用數(shù)字代表顏色），大模型需要觀察每道題目中3個輸入-輸出示例，然后根據(jù)規(guī)律填充新的空白網(wǎng)格。

這幾個示例比較簡單，但實際面臨的問題可能是這樣的:

ARC-AGI測試集一共包含400道公開試題和100個私有問題。

在公開問題中，o3高效率版的準確率為82.8%，消耗了1.11億Token，平均每個任務成本為17美元。

低效率版本（計算量是高效版的172倍），準確率高達91.5%，不過消耗的Token數(shù)也達到了驚人的95億。

另外OpenAI還做了一個專門針對ARC-AGI的版本，使用了75%的公開數(shù)據(jù)集進行了訓練。

這個版本拿到私有測試集上測試，結(jié)果地計算量模式取得了76%的準確率，高計算量模式則為88%。

并且，低計算量版本的成本在ARC-AGI-Pub的規(guī)則范圍內(nèi)（<$10k），成為了公共排行榜上的第一名。

88%的高計算量版本則過于昂貴，但仍然表明新任務的性能確實隨著計算量的增加而提高。

在此之前，GPT-3的準確率是零，GPT-4o為5%，o1最好也剛剛超過30%。

ARC挑戰(zhàn)的發(fā)起者之一、前谷歌資深工程師、Keras之父Fran?ois Chollet認為，o3能夠適應以前從未遇到過的任務，可以說在ARC-AGI領域接近人類水平。

當然成本也十分昂貴，即使是低計算量模式，每個任務也需要17-20美元，而發(fā)起方雇傭真人解決此類問題的成本，平均到每個問題只有5美元。

但拋開成本問題，Chollet指出，o3對GPT系列的改進證明了架構(gòu)的重要性，認為無法在GPT-4上通過投入更多計算來獲得這樣的成績。

所以，通過ARC-AGI測試，意味著o3實現(xiàn)AGI了嗎?Chollet認為并不是。

通過測試發(fā)現(xiàn)，o3在一些非常簡單的任務上仍然失敗，這表明其與人類智能存在根本差異。

另外，ARC-AGI的下一代ARC-AGI-2也即將推出，早期測試表明其將對o3構(gòu)成重大挑戰(zhàn)，即使在高計算量模式下，其得分也可能會降低到30%以下（而聰明人仍然能夠得分超過95%）。

但無論是否達到AGI，o3能夠?qū)崿F(xiàn)的成績都是前所未有的，甚至有人認為，針對ARC這樣的任務而言，人類的優(yōu)勢其實是在于視覺推理，如果改成像模型看到的那樣用文本形式描述圖形，那人類做的不一定會比AI好。

并且，針對o3“沒能成功”的一個案例，還有人質(zhì)疑是標準答案錯了。

這道題當中，變化規(guī)律是將處于同一行或列的兩個藍色格子連成線，并把穿過的紅色區(qū)域整塊涂藍。

這道題的“標準答案”和o3的嘗試，區(qū)別就是綠色框中的部分是否被涂成藍色:

在三個示例當中，由紅變藍的部分都是被連線從中間穿過，但在這道題中連線是從這個3×4的紅色區(qū)域下方經(jīng)過，o3因此認為不該把這塊區(qū)域涂藍。

那么，o3又是怎么實現(xiàn)的呢?

有人認為是通過提示詞，但ARC挑戰(zhàn)負責人Greg Kamradt和OpenAI的研究人員Brandon McKinzie均否認了這一說法，表示給o3的提示詞非常簡單。

另外Chollet推測，o3的核心機制似乎是在Token空間內(nèi)搜索和執(zhí)行自然語言程序——在某種評估器模型引導下，搜索可能的描述解決任務所需的步驟的思維鏈空間。

按照Chollet的觀點，o3實現(xiàn)了在測試時的知識重組，總之，o3構(gòu)建出了一種通向AGI的新的范式。

英偉達AI科學家范麟熙（Jim Fan）認為，o3的本質(zhì)是“放松單點RL超級智能，以覆蓋有用問題空間中的更多點”。

也就是用深度換取廣度，放松對于個別任務的強化學習，換得在更多任務上的通用性。

范麟熙舉例說，像AlphaGo、波士頓動力電子地圖集都是超級人工智能，在特定的任務上表現(xiàn)非常出色。

但o3不再是像這樣只能應付單點任務的專家，而是一個在更大的有用任務集都表現(xiàn)優(yōu)異的專家。

不過范麟熙也表示，o3仍然無法涵蓋人類認知的所有分布，我們?nèi)匀惶幱谀S克悖論之中。

（莫拉維克悖論認為，人類所獨有的高階智慧能力只需要非常少的計算能力(例如推理），但是無意識的技能和直覺卻需要極大的運算能力。)

ARC挑戰(zhàn)發(fā)起方的發(fā)現(xiàn)——o3在一些非常簡單的任務上失敗，似乎剛好印證了這一觀點。

最后，關于AGI，范麟熙表示，我們已經(jīng)實現(xiàn)了巨大的里程碑，并且有清晰的路線圖，但還有更多事情要做。

One More Thing

作為12天發(fā)布的一部分，OpenAI在最后一天發(fā)布o3的同時，也發(fā)了一篇關于安全問題的論文。

論文引入了一種名為慎重對齊（deliberative alignment）的對齊方式，直接向推理模型傳授人工編寫、可解釋的安全規(guī)范，并訓練他們在回答之前對這些規(guī)范進行明確的推理。

結(jié)果，訓練出的模型不需要人工標記的CoT或答案，就可以高度精確地遵守OpenAI的安全政策。

OpenAI發(fā)現(xiàn)，o1在一系列內(nèi)部和外部安全基準方面顯著優(yōu)于GPT-4o等其他最先進模型，并且在許多具有挑戰(zhàn)性的（安全）數(shù)據(jù)集上的性能達到飽和。

這一發(fā)現(xiàn)，揭示了推理將成為提高模型安全性的一條新途徑。

參考鏈接:

[1]https://www.wsj.com/tech/ai/openai-gpt5-orion-delays-639e7693?st=ng5hBi

[2]https://x.com/mckbrando/status/1870285050555810198

[3]https://x.com/DrJimFan/status/1870542485023584334

[4]https://arcprize.org/blog/oai-o3-pub-breakthrough

—完—

（舉報）

相關推薦

關鍵詞：

GPT-5

薦Ilya向全世界宣布：預訓練結(jié)束了！全球AI數(shù)據(jù)耗盡，超級智能才是未來

【新智元導讀】全球頂會NeurIPS2024中，Ilya登場演講，向全世界宣告:預訓練結(jié)束了!數(shù)據(jù)如同化石燃料般難以再生，未來，AI的發(fā)展方向就是具備自我意識的超級智能。Ilya現(xiàn)身NeurIPS2024，宣布:預訓練從此將徹底終結(jié)。畢竟預測未來是不可能的，任何事情都有可能發(fā)生。

?NeurIPS2024 ?預訓練 ?AI發(fā)展
消息稱OpenAI新模型GPT-5研發(fā)未達到預期：成本高昂效果欠佳

AI初創(chuàng)公司OpenAI開發(fā)其下一個主要模型GPT-5的努力正落后于計劃，其結(jié)果還不能證明巨大的成本是合理的。OpenAI已經(jīng)完成了至少兩次大型訓練運行，其目的是通過對大量數(shù)據(jù)的訓練來改進模型。在Codeforces競技編程中o3模型得分為2727分，甚至超過了OpenAI的首席科學家。

?GPT-5 ?OpenAI ?AI模型
理想汽車起訴理想貼膜店一案第三次開庭審理：未當庭宣判

近日，據(jù)山東當?shù)孛襟w生活幫”報道，理想汽車”起訴理想貼膜店”一案，第三次庭審結(jié)束，未當庭宣判，被起訴理想貼膜店負責人稱希望這次有個好的結(jié)果。事件回顧:2023年7月，理想汽車以侵害商標權及不正當競爭糾紛”為由起訴山東一名為理想貼膜”的門店索賠120余萬元，要求對方不要使用理想”二字，并且要求老板朱先生公開道歉。貼膜店老板隨后上訴法院二審判決一審無效，重新審理，我們也將關注第三次審判結(jié)果，帶來更多跟進報道。

?理想汽車 ?商標侵權 ?不正當競爭
薦微軟發(fā)布Phi-4，最強小模型！參數(shù)極小、超GPT-4o

微軟研究院發(fā)布了最強小參數(shù)模型——Phi-4。Phi系列模型自今已經(jīng)發(fā)布了5代，Phi-4也延續(xù)了之前的小參數(shù)模式只有140億。值得一提的是，微軟AI副總裁、phi系列模型的靈魂人物之一SébastienBubeck已經(jīng)離開了微軟加入了OpenAI。

?Phi-4模型 ?微軟研究院 ?小參數(shù)模型
薦微軟Phi-4封神，14B小模型數(shù)學擊敗GPT-4o，合成數(shù)據(jù)占比40%，36頁技術報告出爐

微軟下一代14B小模型Phi-4出世了!僅用了40%合成數(shù)據(jù)，在數(shù)學性能上擊敗了GPT-4o，最新36頁技術報告出爐。140億參數(shù)，40%合成數(shù)據(jù)，年度SLM之王誕生!最近，微軟下一代小模型Phi-4正式亮相。還真有點期待，下一個Phi系列小模型的發(fā)布了。

?微軟Phi-4 ?數(shù)學基準 ?GPT-4o
LG推出首款家庭管家機器人“Q9”：內(nèi)置GPT-4 Omni

LG最近推出了新款家庭管家機器人Q9”，預計明年正式上市。這款Q9機器人亮點紛呈，其中最為引人注目的便是其內(nèi)置的重力補償系統(tǒng)。為了緩解消費者的經(jīng)濟壓力，LG電子正考慮推出一項創(chuàng)新舉措：將Q9機器人的購買與家電訂購服務相結(jié)合，讓更多家庭能夠擁有這款智能生活伴侶。

?家庭機器人 ?LG ?Q9
OpenAI吹哨人自殺身亡！年僅26歲曾質(zhì)疑GPT對社會弊大于利

前OpenAI員工蘇奇爾巴拉吉近日在其位于舊金山的公寓內(nèi)被發(fā)現(xiàn)死亡，年僅26歲。據(jù)舊金山驗尸官辦公室確認，巴拉吉的死因被確定為自殺。OpenAI發(fā)言人向巴拉吉的家屬表示哀悼：我們對這一令人悲痛的消息感到心碎，并向蘇奇爾的親人致以最誠摯的慰問。

?OpenAI ?自殺 ?技術倫理
視源股份段宇：人工智能不僅是技術的革新，更是企業(yè)構(gòu)建新藍圖的最強動能

12月2日至4日，2024企業(yè)家博鰲論壇在海南博鰲隆重召開。視源股份黨委書記、首席戰(zhàn)略資源官段宇受邀出席，并在3日的主論壇上表示:只有加速推動人工智能與公司各業(yè)務場景的融合，才能實現(xiàn)高質(zhì)量發(fā)展和趕超，人工智能不僅是技術的革新，更是企業(yè)構(gòu)建新藍圖的最強動能。歷屆論壇議題設置前沿務實，與會企業(yè)家、專家學者眾多，積極分享經(jīng)驗、建言獻策、共話發(fā)展，富有專業(yè)性、針對性、建設性，備受社會各界關注，被譽為企業(yè)界的年度思想盛宴。

?企業(yè)家論壇 ?人工智能 ?高質(zhì)量發(fā)展
慶祝 ChatGPT 誕生兩周年：AI 世界的一次代際飛躍

人工智能技術已有數(shù)十年的歷史，推動著從機器人到預測分析等方方面面的創(chuàng)新。伴隨著ChatGPT的橫空出世，生成式人工智能成為了AI發(fā)展史上的一個里程碑式轉(zhuǎn)折點。通過保持警惕性和前瞻性，我們可確保ChatGPT等工具不斷推動創(chuàng)新，同時防止其被濫用。

?人工智能 ?生成式人工智能 ?ChatGPT
細思極恐，GPT-4竟串謀AI欺騙人類！哈佛PSU重磅揭秘「算法共謀」，AI教父預言正成真

【新智元導讀】又一科幻場景步入現(xiàn)實!GPT-4竟和多個AI模型私自串通一氣，欲要形成壟斷的資本寡頭聯(lián)合定價。在被哈佛PSU團隊抓現(xiàn)行后，大模型拒不認賬。企業(yè)也不知道算法究竟學到了什么策略，就像一個黑盒一樣，僅靠傳統(tǒng)的執(zhí)法框架是難以應對的。

?GPT-4

熱文

3 天
7天

幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

Ilya宣判后GPT-5被曝屢訓屢敗，一次訓數(shù)月，數(shù)據(jù)要人工從頭構(gòu)建

巨量數(shù)據(jù)算力堆不好GPT-5的預訓練

o3屠榜ARC-AGI測試，離AGI還有多遠?

One More Thing

薦Ilya向全世界宣布：預訓練結(jié)束了！全球AI數(shù)據(jù)耗盡，超級智能才是未來

消息稱OpenAI新模型GPT-5研發(fā)未達到預期：成本高昂效果欠佳

理想汽車起訴理想貼膜店一案第三次開庭審理：未當庭宣判

薦微軟發(fā)布Phi-4，最強小模型！參數(shù)極小、超GPT-4o

薦微軟Phi-4封神，14B小模型數(shù)學擊敗GPT-4o，合成數(shù)據(jù)占比40%，36頁技術報告出爐

LG推出首款家庭管家機器人“Q9”：內(nèi)置GPT-4 Omni

OpenAI吹哨人自殺身亡！年僅26歲曾質(zhì)疑GPT對社會弊大于利

視源股份段宇：人工智能不僅是技術的革新，更是企業(yè)構(gòu)建新藍圖的最強動能

慶祝 ChatGPT 誕生兩周年：AI 世界的一次代際飛躍

細思極恐，GPT-4竟串謀AI欺騙人類！哈佛PSU重磅揭秘「算法共謀」，AI教父預言正成真

熱文

周鴻祎：AGI發(fā)展遇瓶頸智能體和專業(yè)大模型將扛大旗

雷軍：小米是北方車廠 SU7研發(fā)之初就要做冬季電車續(xù)航之王

沒網(wǎng)也能聯(lián)絡！小米15系列星辰無網(wǎng)通12月底升級6km級通話范圍

消息稱OpenAI新模型GPT-5研發(fā)未達到預期：成本高昂效果欠佳

李斌回應螢火蟲外觀設計：看過實車的人都喜歡這個設計

央視曝光未成年人繞開防沉迷只需4元：通過租用游戲賬號規(guī)避

不得使用惡俗惡趣味微短劇片名！廣電總局出手整治“霸總愛上我

美團：冬至期間將針對餃子等應時食品訂單提供“超時保護”

FF再獲3000萬美元新一輪融資加速第二品牌FX戰(zhàn)略推進

京東發(fā)布年終獎通知部分員工年前可收到年終獎

英偉達AI芯片最大買家揭曉！微軟力壓同行霸榜

微信朋友圈崩了上熱搜騰訊客服：請嘗試這幾種方法

極越員工萬字怒懟ceo：公關總監(jiān)徐繼業(yè)怒罵員工蒼蠅

小紅書封號上熱搜：違規(guī)原因涉及發(fā)布引流、牟利等內(nèi)容

周鴻祎：AGI發(fā)展遇瓶頸智能體和專業(yè)大模型將扛大旗

馬斯克將推出X Mail電子郵箱服務

極越員工善后方案已出爐：員工獲“N+1”賠償由百度吉利出資

螞蟻集團否認借殼上市：目前沒有上市計劃

未成年人成部分博主流量密碼抖音治理涉“網(wǎng)紅兒童”違規(guī)內(nèi)容

小紅書被吐槽無理由封號客服回應：未說明處罰時間就是永封

站長商機

Ilya宣判后GPT-5被曝屢訓屢敗，一次訓數(shù)月，數(shù)據(jù)要人工從頭構(gòu)建

巨量數(shù)據(jù)算力堆不好GPT-5的預訓練

o3屠榜ARC-AGI測試，離AGI還有多遠?

One More Thing

熱文

站長商機

Ilya宣判后GPT-5被曝屢訓屢敗，一次訓數(shù)月，數(shù)據(jù)要人工從頭構(gòu)建

o3屠榜ARC-AGI測試，離AGI還有多遠?