o3并非獨門秘技，谷歌已發(fā)背后關(guān)鍵機制，方法更簡單、成本更低

2024-12-24 13:53 · 稿源：量子位公眾號

聲明:本文來自微信公眾號“量子位”，作者:小交，授權(quán)站長之家轉(zhuǎn)載發(fā)布。

o1/o3帶火的推理計算Scaling，原來谷歌早在今年8月就曾探討過。

當(dāng)時，來自斯坦福、牛津以及谷歌DeepMind的團隊提出通過重復(fù)采樣來擴展推理計算量——

結(jié)果在編碼任務(wù)中將性能最多提高40%。

他們發(fā)現(xiàn)小模型通過生成多種答案/樣本，其任務(wù)表現(xiàn)可能比一些大型模型單次嘗試還要好。

比如，DeepSeek-Coder通過重復(fù)采集5個樣本，性能優(yōu)于GPT-4o，而成本卻僅為后者的三分之一。

這篇論文講了什么?

這篇論文取名Monkey，靈感來自于無限猴子定理。

一只猴子在打字機鍵盤上隨機敲擊鍵盤無限長的時間，幾乎肯定會打出任何給定的文本。

而在大模型的語境下，只要采的樣夠多，那么大模型總能找到正確解。

本文遵循的重復(fù)采樣程序，首先通過大模型中采樣，為給定的問題生成許多候選解。

其次再選擇特定領(lǐng)域的驗證器Verifier（比如代碼的unittests），從生成的樣本中選擇最終答案。

重復(fù)采樣的有效性取決于兩個關(guān)鍵特性。

覆蓋率，隨著樣本數(shù)量的增加，我們可以利用生成的任何樣本解決多少問題。
精確度，在從生成的樣本集合中選擇最終答案的情況下，我們能否識別出正確的樣本?

他們關(guān)注的是yes or no的任務(wù)，在這些任務(wù)中，答案可以直接被打分為對或者錯，主要指標是成功率——即能夠解決問題的比例。

通過重復(fù)采樣，考慮這樣一種設(shè)置，即模型在嘗試解決問題時可以生成許多候選解。

因此，成功率既受到為許多問題生成正確樣本的能力（即覆蓋率）的影響，也受到識別這些正確樣本的能力(即精確度)的影響。

基于此，確定了五種數(shù)學(xué)和編程任務(wù):GSM8K、MATH、MiniF2F-MATH、CodeContests、SWE-benchLite。

結(jié)果顯示，在多個任務(wù)和模型中，覆蓋率隨樣本數(shù)量增加而提升，在某些情況下，重復(fù)采樣可使較弱模型超越單樣本性能更好的強模型，且成本效益更高

比如在使用Gemma-2B解決CodeContests編程問題時。隨著樣本數(shù)量的增加，覆蓋率提高了300倍以上，從一次嘗試的0.02%提高到10000次嘗試的7.1%。解決來自GSM8K和MATH的數(shù)學(xué)單詞問題時，Llama-3模型的覆蓋率在10，000個樣本的情況下增長到95%以上。

有趣的是，log（覆蓋率）與樣本數(shù)之間的關(guān)系往往遵循近似的冪律。

在Llama-3和Gemma模型中，可以觀察到覆蓋率與樣本數(shù)呈近似對數(shù)線性增長，超過幾個數(shù)量級。

在不同參數(shù)量、不同模型以及后訓(xùn)練水平（基礎(chǔ)模型和微調(diào)模型）下，都顯示通過重復(fù)采樣Scaling推理時間計算，覆蓋率都有一致的提升。

此外，他們還證明了這種Scaling還能降本增效，以FLOPs作為成本指標，以LIama-3為例。

計算公式如下:

比較 Llama-3-8B-Instruct 和 Llama3-70B-Instruct 的成本（以推理 FLOPs 數(shù)量衡量）和覆蓋率。當(dāng)FLOPs預(yù)算固定時，在 MiniF2F、GSM8K和 MATH 上，Llama-3-8B-Instruct的覆蓋率總是高于更大(更貴)的70B 模型。然而，在 CodeContests 中，70B 模型幾乎總是更具成本效益。

對比API成本，當(dāng)采樣較多時，開源 DeepSeek-Coder-V2-Instruct 模型可以達到與閉源模型GPT-4o相同的問題解決率，而價格僅為后者的三分之一。

有趣的是，他們發(fā)現(xiàn)對于大多數(shù)任務(wù)和模型，覆蓋率與樣本數(shù)之間的關(guān)系可以用指數(shù)冪律來模擬。

因此總結(jié)，這篇文章以重復(fù)采樣為軸心，在推理時擴展計算量，從而提高模型性能。

在一系列模型和任務(wù)中，重復(fù)采樣可以顯著提高使用任何生成樣本解決問題的比例（即覆蓋率）。當(dāng)可以識別出正確的解決方案時(通過自動驗證工具或其他驗證算法)，重復(fù)采樣可以在推理過程中放大模型的能力。

與使用較強、較昂貴的模型進行較少的嘗試相比，這種放大作用可使較弱的模型與大量樣本的組合更具性能和成本效益。

來自斯坦福牛津谷歌

這篇論文是來自斯坦福、牛津大學(xué)以及谷歌DeepMind團隊。TogetherAI提供計算支持。

其中可以看到有谷歌杰出科學(xué)家Quoc V. Le。

有網(wǎng)友表示，這有點像更簡單的靜態(tài)版o3。

o3在評價器的指導(dǎo)下，通過回溯動態(tài)搜索程序空間，而這種方法則依賴于靜態(tài)采樣和事后評價（投票、獎勵模型等）。兩者都能擴展推理計算，但O3的適應(yīng)性更強。
o3會反復(fù)探索解決方案，不斷完善路徑，而重復(fù)采樣會并行生成輸出，沒有反饋回路。如何取舍?o3的計算密集度更高，但在需要結(jié)構(gòu)化推理的任務(wù)中表現(xiàn)出色。這種方法在編碼/數(shù)學(xué)方面更具成本效益。

不過也有網(wǎng)友指出了背后的局限性。

我們不能一味地增加采樣數(shù)量來提高性能。在某些時候，模型會出現(xiàn)停滯，生成的樣本也會開始重復(fù)。
無論成本如何，都有一個極限，一個模型無法超越的最大思維水平。

（舉報）

相關(guān)推薦

關(guān)鍵詞：

薦OpenAI正式發(fā)布o3 - 通往AGI的路上，已經(jīng)沒有了任何阻礙

今天凌晨2點，OpenAI的12天直播，終于來到了最終章。也在一片圣誕的氣息中終于回歸。既然看到這里了，如果覺得不錯，隨手點個贊、在看、轉(zhuǎn)發(fā)三連吧，如果想第一時間收到推送，也可以給我個星標?～謝謝你看我的文章，我們，下次再見。

?OpenAI
薦OpenAI甩王炸！發(fā)布新模型o3，一夜再次改變世界！

今天凌晨2點，OpenAI開啟第12天技術(shù)直播，也是最后一天。不負眾望終于整了個大的，發(fā)布全新預(yù)覽版模型——o3。研究人員可通過訪問OpenAI的官方網(wǎng)站，填寫申請表格參與測試。

?OpenAI ?o3模型 ?技術(shù)直播
OpenAI最強推理模型o3發(fā)布：AGI能力暴漲接近人類水平

OpenAI連續(xù)12日圣誕發(fā)布”終于迎來激動人心的大結(jié)局，OpenAI推出重磅收官新品，其迄今最強前沿推理模型的升級版o3。OpenAI號稱o3在一些條件下接近通用人工智能，共有o3和精簡版o3-mini兩個版本。12、o1下一代模型o3亮相，推出兩個版本，正式版o3以及精簡版o3-mini。

?OpenAI ?o3模型 ?通用人工智能
o3模型智商157，比肩愛因斯坦！AI只用7個月，超過人類100年

根據(jù)OpenAI公布的數(shù)據(jù)顯示，新模型o3在Codeforces上的評級為2727，比全球99.8%程序員都要好。如果轉(zhuǎn)化為智商大約在157，歷史上的愛因斯坦還能與AI較量一下。同時很多困擾人類幾十年甚至上百年的數(shù)學(xué)、物理難題都可能得到解決。

?OpenAI ?o3模型 ?智商比較
薦AI日報：AI假冒名人直播帶貨違法；OpenAI o3 模型能耗驚人；AI技術(shù)將助推iPhone銷量

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、AI假冒名人直播帶貨屬違法行為可要求退一賠三近年來，AI技術(shù)的迅速發(fā)展帶來了深度偽造技術(shù)的應(yīng)用，這種技術(shù)通過算法生成逼真的虛假內(nèi)容，導(dǎo)致了名人形象被冒用的現(xiàn)象。彼得·蒂爾的影響力在這些公司中無處不在，他推動的科技優(yōu)先理念引發(fā)了對國家安全與倫理的深思。

?AI技術(shù) ?假冒名人 ?違法行為
薦AI日報：支付寶推AI創(chuàng)意生成平臺；谷歌王炸推理模型Gemini2.0 Flash Thinking；Runway支持插入中間幀；OpenAI準備o3推理模型

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、谷歌發(fā)布王炸推理模型Gemini2.0FlashThinking，挑戰(zhàn)OpenAIo1谷歌近期推出的Gemini2.0FlashThinking模型在多模態(tài)推理領(lǐng)域展現(xiàn)出強大的能力，支持32，000個輸入標記和8，000個輸出標記，極大提升了處理復(fù)雜問題的效率。與前代產(chǎn)品相比，F(xiàn)alcon3的訓(xùn)練規(guī)模翻倍，展現(xiàn)出強勁的競爭力，尤其是在與其他主流開源模型的基準測試中表現(xiàn)優(yōu)異。

?AI技術(shù) ?人工智能 ?機器學(xué)習(xí)
不計成本打造！榮耀GT今天發(fā)布關(guān)鍵配置一覽

今天19:30，榮耀將舉辦新品發(fā)布會，正式發(fā)布榮耀GT系列首款作品榮耀GT”。榮耀CEO趙明表示，全新的GT對榮耀有重要意義，將不計成本打造榮耀GT系列。榮耀GT將配備一塊6.7英寸1.5K直屏，2664*1200分辨率，支持3840HzPWM調(diào)光，最高可選16GB內(nèi)存和1TB存儲，配備X軸馬達，新機前攝為1600萬像素，后置5000萬像素索尼IMX906主攝，支持OIS光學(xué)防抖，厚度7.7mm，重量為196g。

?榮耀GT ?新品發(fā)布會 ?驍龍8Gen3
奶粉里核苷酸的作用與功效有哪些？強勢科普讓選奶更簡單

選奶粉對寶媽們來說就像一場重要的考試，市面上奶粉的營養(yǎng)成分五花八門的，有成千上萬種，讓許多寶媽都挑花了眼。其中，核苷酸就是一個我們總能看到的營養(yǎng)成分！不少寶媽都不太了解這個核苷酸到底是什么。所以，今天就來給大家好好說說奶粉里核苷酸的作用與功效都有哪些吧！什么是核苷酸？在奶粉中添加有什么作用？核苷酸是構(gòu)成DNA和RNA的單體，對于細胞的生長?

?奶粉選擇 ?核苷酸作用 ?寶媽常識
成本暴降60% OpenAI宣布開放滿血o1模型API

從12月5日開始，OpenAI將在連續(xù)12個工作日直播，每天發(fā)布一款全新的應(yīng)用或功能。今天是發(fā)布會的第9天，直播內(nèi)容面向開發(fā)者，OpenAI正式發(fā)布o1模型的API，并對實時API進行大升級支持WebRTC。OpenAI的周活躍用戶數(shù)量在今年8月剛剛突破2億。

?OpenAI ?o1模型API ?WebRTC升級
私密千億級大盤如何入局？從研發(fā)到賦能，麥瀾德薇之瀾讓私密運營更簡單

隨著社會對美的追求不斷深入，醫(yī)美行業(yè)迎來了前所未有的發(fā)展機遇。高利潤吸引了大量資本和企業(yè)入局，導(dǎo)致市場競爭日益激烈。薇之瀾品牌將繼續(xù)秉承“讓私密運營更簡單”的理念，為機構(gòu)賦能，推動行業(yè)向更高水平發(fā)展。

?醫(yī)美行業(yè) ?市場競爭 ?非手術(shù)醫(yī)美

熱文

3 天
7天

站長商機

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

o3并非獨門秘技，谷歌已發(fā)背后關(guān)鍵機制，方法更簡單、成本更低

這篇論文講了什么?

來自斯坦福牛津谷歌

薦OpenAI正式發(fā)布o3 - 通往AGI的路上，已經(jīng)沒有了任何阻礙

薦OpenAI甩王炸！發(fā)布新模型o3，一夜再次改變世界！

OpenAI最強推理模型o3發(fā)布：AGI能力暴漲接近人類水平

o3模型智商157，比肩愛因斯坦！AI只用7個月，超過人類100年

薦AI日報：AI假冒名人直播帶貨違法；OpenAI o3 模型能耗驚人；AI技術(shù)將助推iPhone銷量

薦AI日報：支付寶推AI創(chuàng)意生成平臺；谷歌王炸推理模型Gemini2.0 Flash Thinking；Runway支持插入中間幀；OpenAI準備o3推理模型

不計成本打造！榮耀GT今天發(fā)布關(guān)鍵配置一覽

奶粉里核苷酸的作用與功效有哪些？強勢科普讓選奶更簡單

成本暴降60% OpenAI宣布開放滿血o1模型API

私密千億級大盤如何入局？從研發(fā)到賦能，麥瀾德薇之瀾讓私密運營更簡單

熱文

吳柳芳賬號再次被禁粉絲從600萬被清理至4萬抖音：低俗內(nèi)容吸

京東發(fā)布年終獎通知部分員工年前可收到年終獎

劉強東提前發(fā)年終獎絕大多數(shù)員工可獲5到8個月年終獎

肯德基中國漲價官方回應(yīng)：運營成本變化導(dǎo)致

消息稱OpenAI新模型GPT-5研發(fā)未達到預(yù)期：成本高昂效果欠佳

李斌回應(yīng)螢火蟲外觀設(shè)計：看過實車的人都喜歡這個設(shè)計

央視曝光未成年人繞開防沉迷只需4元：通過租用游戲賬號規(guī)避

小米SU7最新版本OTA推送：正式接入VLM視覺語言大模型

沒網(wǎng)也能聯(lián)絡(luò)！小米15系列星辰無網(wǎng)通12月底升級6km級通話范圍

不得使用惡俗惡趣味微短劇片名！廣電總局出手整治“霸總愛上我

吳柳芳賬號再次被禁粉絲從600萬被清理至4萬抖音：低俗內(nèi)容吸

小紅書封號上熱搜：違規(guī)原因涉及發(fā)布引流、牟利等內(nèi)容

京東發(fā)布年終獎通知部分員工年前可收到年終獎

周鴻祎：AGI發(fā)展遇瓶頸智能體和專業(yè)大模型將扛大旗

劉強東提前發(fā)年終獎絕大多數(shù)員工可獲5到8個月年終獎

微信朋友圈崩了上熱搜騰訊客服：請嘗試這幾種方法

未成年人成部分博主流量密碼抖音治理涉“網(wǎng)紅兒童”違規(guī)內(nèi)容

肯德基中國漲價官方回應(yīng)：運營成本變化導(dǎo)致

極越員工善后方案已出爐：員工獲“N+1”賠償由百度吉利出資

螞蟻集團否認借殼上市：目前沒有上市計劃

站長商機

o3并非獨門秘技，谷歌已發(fā)背后關(guān)鍵機制，方法更簡單、成本更低

這篇論文講了什么?

來自斯坦福牛津谷歌

熱文

站長商機

o3并非獨門秘技，谷歌已發(fā)背后關(guān)鍵機制，方法更簡單、成本更低