OpenAI科學(xué)家：現(xiàn)有模型+后訓(xùn)練足以產(chǎn)生黎曼猜想的新證明

2024-12-28 10:34 · 稿源：量子位公眾號

聲明：本文來自于微信公眾號量子位，作者:奇月，授權(quán)站長之家轉(zhuǎn)載發(fā)布。

一個全新的模型能力衡量指標誕生了?!

OpenAI科學(xué)家塞巴斯蒂安?布貝克（Sebastien Bubeck）(下圖左)表示:

AI模型的能力可以用AGI時間來衡量:
GPT-4可以完成人類需要幾秒或幾分鐘的任務(wù);o1可以完成人類需要若干小時完成的任務(wù)，也就是可以用“AGI小時”衡量的任務(wù);明年，模型可能會實現(xiàn)AGI日，并在3年后實現(xiàn)AGI周，能夠解決重大的開放問題。

看到AGI時間這個新概念，網(wǎng)友們也是立即就展開了熱烈的討論。

有人認為，如果模型可以達到人類需要數(shù)周或數(shù)月才能完成的任務(wù)，也就代表它可以將長期推理和計劃結(jié)合起來，也就和真正的AGI差不多了:

不過也有人表示這個說法有點模糊，人腦也很難機械地把任務(wù)完成時間限定為幾個月、幾年:

而反方辯手湯姆·麥考伊（Tom Mccoy）則對LLM能否解決復(fù)雜的開放性問題持懷疑態(tài)度。

他表示，語言模型雖令人驚嘆，但能力源于訓(xùn)練數(shù)據(jù)，目前沒有證據(jù)顯示它們可以產(chǎn)生能解決開放問題的新范式。

讓兩位大佬爭論不休的問題，就是最近由世界知名理論計算機科學(xué)機構(gòu)Simons Institute提出的辯題:

當(dāng)前基于縮放定律的LLM，能否在未來幾年內(nèi)產(chǎn)生可以解決重大數(shù)學(xué)難題（如P≠NP、黎曼假設(shè)）的證明技術(shù)。

持正方觀點的塞巴斯蒂安?布貝克是應(yīng)用數(shù)學(xué)博士，曾在普林斯頓大學(xué)擔(dān)任助理教授，后在微軟研究院任職十年，主導(dǎo)開發(fā)了 Phi 系列小語言模型，也是Sparks of AGI（AGI的火花）論文的重要作者之一。

此次辯論中，塞巴斯蒂表示他堅信LLM潛力無限，認為以當(dāng)前模型的能力加上更多的數(shù)據(jù)和后期訓(xùn)練就足以解決數(shù)學(xué)難題。

反方辯手湯姆是認知科學(xué)博士，現(xiàn)任耶魯大學(xué)語言學(xué)助理教授，

他也是“Embers of Autoregression（自回歸余燼）”論文的主要作者，文中他深刻剖析了當(dāng)前LLM的局限性。

同時參與這次討論的還有Anthropic的研究員Pavel Izmailov，和MIT諾伯特·維納（Norbert Wiener）數(shù)學(xué)教授Ankur Moitra。

在不改變原意的基礎(chǔ)上，量子位對本次辯論的主要觀點進行了梳理總結(jié)，希望能帶給你更多的啟發(fā)和思考。

正方:o1已展現(xiàn)出自發(fā)的涌現(xiàn)模式

塞巴斯蒂安首先用數(shù)據(jù)回顧了LLM最近幾年的發(fā)展歷程，他表示GPT系列已在多領(lǐng)域的基準測試上都表現(xiàn)亮眼。

比如在MMLU測試中，GPT-4成績飆升至86%，o1模型更是逼近95%，遠超 GPT-3的50%，在高中科學(xué)知識問答方面已接近人類90% 的水平。

在醫(yī)學(xué)診斷領(lǐng)域，GPT-4準確率高達90%，遠超人類醫(yī)生的75%，有力證明了模型強大的學(xué)習(xí)與應(yīng)用能力，且這種提升趨勢為解決數(shù)學(xué)難題奠定基礎(chǔ)。

△圖片來自論文Superhuman performance of a large language model on the reasoning tasks of a physician

他進一步指出:

智能發(fā)展層級遞進顯著，GPT-4只有AGI秒級思考能力，而o1模型已達AGI分鐘甚至小時級別。

依此趨勢，未來實現(xiàn)AGI日級、周級思考時長指日可待，可能明年、后年就能達到。

屆時，模型將擁有充足時間和能力深入思考復(fù)雜數(shù)學(xué)問題，從而找到解決重大猜想的路徑。

同時他還強調(diào)了后訓(xùn)練技術(shù)的重要性:后訓(xùn)練技術(shù)是挖掘模型深層潛力的關(guān)鍵。

從GPT-3.5開始，模型就可以實現(xiàn)在后訓(xùn)練過程中提取智能。到了o1模型時代，其采用的強化學(xué)習(xí)等創(chuàng)新訓(xùn)練范式，使模型在復(fù)雜任務(wù)（比如編程、數(shù)學(xué)）處理上實現(xiàn)質(zhì)的飛躍。

尤其是在特定數(shù)學(xué)問題中，o1能迅速關(guān)聯(lián)看似不相關(guān)的知識概念，自發(fā)地涌現(xiàn)出一些新的思路，為解決難題提供新線索。

反方:當(dāng)前縮放定律依賴數(shù)據(jù)、存在幻覺，難以產(chǎn)生新思考模式

湯姆則認為，目前LLM的發(fā)展存在3個明顯制約:

1.LLM受訓(xùn)練數(shù)據(jù)頻率限制嚴重:

在單詞計數(shù)和排序任務(wù)中，數(shù)據(jù)頻率影響清晰可見。如統(tǒng)計單詞數(shù)量時，對常見長度列表準確率高，罕見長度則大幅下降;排序任務(wù)中，對常用的字母正序處理良好，逆序則表現(xiàn)不佳。

這表明模型在面對新證明技術(shù)這類低頻任務(wù)時，缺乏創(chuàng)造性突破的根基，難以跳出訓(xùn)練數(shù)據(jù)的固有模式。

而且，根據(jù)各種測評數(shù)據(jù)，模型能力與數(shù)據(jù)量級呈對數(shù)關(guān)系，未來想要提升模型能力需要新的指數(shù)級數(shù)據(jù)，而目前已有嚴重數(shù)據(jù)瓶頸，在未來幾年很難迅速突破。

2.長推理過程中的幻覺問題是致命傷:

即使類o1模型在多步推理場景下進步顯著，但LLM仍易生成錯誤信息。隨著數(shù)學(xué)證明篇幅拉長，極低的錯誤率也會因累積效應(yīng)使證明失效。

也就是人們常說的“薄弱環(huán)節(jié)會破壞整個推理鏈條”，嚴重阻礙模型解決復(fù)雜數(shù)學(xué)證明的能力。

o1已經(jīng)可以和人類專家合作，但想要獨自解決數(shù)學(xué)問題，必須做到超越人類，目前看起來比較困難，甚至還無法達到以穩(wěn)健的方式使用現(xiàn)有想法。

3.當(dāng)前縮放方法本質(zhì)缺陷難破:

基于語言預(yù)測的訓(xùn)練模式，使模型在處理數(shù)學(xué)問題時難以直接觸及深度推理和創(chuàng)新思維核心。

比如在數(shù)學(xué)符號處理和抽象邏輯推導(dǎo)方面，模型的處理方式與專業(yè)數(shù)學(xué)方法相比缺乏專業(yè)推導(dǎo)，需要從底層架構(gòu)和訓(xùn)練理念上進行徹底變革。

隨后正方還對反方觀點進行了駁斥。

塞巴斯蒂安表示，當(dāng)前很多人類的頂級成果是依靠組合現(xiàn)有知識產(chǎn)生的，而模型在這個方面的能力會通過強化學(xué)習(xí)進一步發(fā)展。

而且人類在超過50頁的證明中也經(jīng)常會出錯，未來可以讓不同的智能體進行合作互相指正，可以有效減少這一方面的失誤。

其他專家:需結(jié)合證明驗證器、符號空間探索等方式

Anthropic研究員帕維爾?伊斯梅洛夫也發(fā)表了觀點，他認為LLM在識別數(shù)據(jù)結(jié)構(gòu)上確有優(yōu)勢，但數(shù)學(xué)領(lǐng)域?qū)I(yè)性強，需借助強化學(xué)習(xí)與Lean等證明驗證器構(gòu)建有效訓(xùn)練機制。

鑒于數(shù)學(xué)的獨特性，探索類似AlphaGo式的非LLM智能搜索方法在符號空間的應(yīng)用，或許能為解決數(shù)學(xué)難題另辟蹊徑，突破語言模型固有局限。

針對觀眾的提問“飛機也不是完全模擬鳥類的飛行，為什么一定要要求LLM模擬人類思維”的問題，帕維爾首先表示贊同，AlphaGo帶給人類的一個驚喜正是來自于它可以用很多人類沒有的方法下棋。

但同時他也指出:

也許以人類的方式做事的唯一理由是，如果我們關(guān)心的是試圖理解證明、并提取一些定義之類的東西，那么我們希望它至少是類人或人類可讀的。但我認為如果我們關(guān)心的是證明能力，比如能夠證明事物，那么不一定要以類人的方式。

MIT諾伯特·維納數(shù)學(xué)教授安庫爾?莫伊特拉（Ankur Moitra）也發(fā)表了自己的看法。

他也贊同重大數(shù)學(xué)問題的解決絕非簡單的能力堆疊:

我們關(guān)心數(shù)學(xué)難題，關(guān)心的不只是具體的證明細節(jié)，更希望可以在證明的過程中產(chǎn)生可以引發(fā)數(shù)學(xué)體系變革的新想法。

他認為當(dāng)前LLM 雖在部分任務(wù)取得進展，但與解決如黎曼假設(shè)這類問題所需的深度和創(chuàng)新性仍相距甚遠。

安庫爾還提議，未來模型發(fā)展或許應(yīng)聚焦于知識在模型中的有效表示、數(shù)學(xué)家與模型間的高效協(xié)作模式等關(guān)鍵層面，探索新的突破方向。

現(xiàn)場還進行了一次不記名投票，可以看到正反方的觀點基本還是持平的～

感興趣的朋友可以查看完整視頻和論文。

請在手機微信登錄投票

你覺得未來幾年內(nèi)LLM可以解決重大數(shù)學(xué)難題嗎?單選可以不可以鈍角

參考鏈接:

[1]辯論完整視頻:https://www.youtube.com/live/H3TnTxVKIOQ

[2]Sebastien Bubeck撰寫的論文Sparks of AGI:https://arxiv.org/abs/2303.12712

[3]Tom McCoy撰寫的論文Embers of Autoregression:https://arxiv.org/abs/2309.13638

（舉報）

相關(guān)推薦

關(guān)鍵詞：

薦首次！大模型自動搜索人工生命，做出AI科學(xué)家的Sakana AI又放大招

2024臨近尾聲，AI又給了所有人一個大驚喜，這次可以用來自動發(fā)現(xiàn)新的人工生命形式了。今年8月，Transformer論文作者之一的LlionJones與前谷歌研究人員DavidHa共同創(chuàng)立的人工智能公司SakanaAI造出了「世界上第一個用于自動化科學(xué)研究和開放式發(fā)現(xiàn)的AI系統(tǒng)」。當(dāng)模擬定性地看起來已成靜態(tài)時，該指標恰好穩(wěn)定，因此這可提供有用的模擬停止條件。

?人工智能 ?AI科學(xué)家 ?自動化科學(xué)
薦很快OpenAI能證明陶哲軒錯了？陶哲軒一句話，被OpenAI高管懟回去

OpenAI連更兩彈，又將o1模型推向全網(wǎng)最高潮。就連奧特曼本人激動地預(yù)告，「迫不及待期待著下周的Day3發(fā)布，感覺周一是那么地遙遠」。他加入OpenAI之前，曾是ConvergentResearch的創(chuàng)始人、風(fēng)險投資人和合伙人;在那里，他幫助創(chuàng)辦了多個「登月」科學(xué)組織，包括LeanFro。

?OpenAI ?o1模型 ?人工智能
薦OpenAI發(fā)布強化微調(diào)API，能深度定制超復(fù)雜大模型了

今天凌晨兩點，OpenAI開啟了12天技術(shù)分享直播，發(fā)布了最新“強化微調(diào)”計劃。與傳統(tǒng)的微調(diào)相比，強化微調(diào)可以讓開發(fā)者使用經(jīng)過微調(diào)的更強專家大模型，來開發(fā)適用于金融、法律、醫(yī)療、科研等不同領(lǐng)域的AI助手。通過這些反饋訓(xùn)練一個獎勵模型，該模型能夠?qū)φZ言模型的輸出進行打分，以反映其質(zhì)量或符合人類期望。

?OpenAI ?強化微調(diào) ?AI助手
薦OpenAI甩王炸！發(fā)布新模型o3，一夜再次改變世界！

今天凌晨2點，OpenAI開啟第12天技術(shù)直播，也是最后一天。不負眾望終于整了個大的，發(fā)布全新預(yù)覽版模型——o3。研究人員可通過訪問OpenAI的官方網(wǎng)站，填寫申請表格參與測試。

?OpenAI ?o3模型 ?技術(shù)直播
重磅！OpenAI發(fā)布滿血o1、無限使用，最強大模型來了

今天凌晨兩點，OpenAI正式開啟了12天技術(shù)分享直播，并發(fā)布了最新產(chǎn)品ChatGPTPro。ChatGPTPro可以無限使用完整版o1和Pro模式，同時可以使用高級語音和圖片上傳功能。這只是OpenAI的連續(xù)12天分享技術(shù)的第一天，后續(xù)「AIGC開放社區(qū)」將會繼續(xù)為大家介紹。

?OpenAI ?ChatGPT ?Pro
成本暴降60% OpenAI宣布開放滿血o1模型API

從12月5日開始，OpenAI將在連續(xù)12個工作日直播，每天發(fā)布一款全新的應(yīng)用或功能。今天是發(fā)布會的第9天，直播內(nèi)容面向開發(fā)者，OpenAI正式發(fā)布o1模型的API，并對實時API進行大升級支持WebRTC。OpenAI的周活躍用戶數(shù)量在今年8月剛剛突破2億。

?OpenAI ?o1模型API ?WebRTC升級
重磅！OpenAI開放滿血o1模型API，成本暴降60%

今天凌晨2點，OpenAI開啟了第9天技術(shù)分享直播，正式發(fā)布了o1模型的API，并且對實時API進行大升級支持WebRTC。o1模型的API與之前的預(yù)覽版本相比，思考成本降低了60%，并且附帶高級視覺功能;GPT-4o的音頻成本降低60%mini版本價格更是暴降了10倍。這些API已經(jīng)普遍可用，更詳細內(nèi)容可以去OpenAI開發(fā)論壇查看。

?OpenAI ?o1模型API ?實時API
薦谷歌“狙擊”OpenAI，發(fā)布新一代大模型，主打Agent+多模態(tài)

繼量子芯片之后，谷歌又來搶“OpenAI雙12直播”的流量了!就在剛剛，谷歌新一代大模型Gemini2.0突然登場，再次由谷歌CEO皮猜親自官宣。新一代模型專為AIAgent打造，谷歌表示目前已經(jīng)將2.0版本提供給了一些開發(fā)者內(nèi)測，正在迅速將其集成在Gemini和搜索等產(chǎn)品線中。從OpenAI跳槽到谷歌的LoganKilpatrick表示，他們在GoogleAIStudio中創(chuàng)建了一個全新體驗，展示了Gemini2.0視頻理解、原生工具?

?谷歌 ?Gemini ?2.0
薦OpenAI對細分方向發(fā)力，教育App們危矣？

ChatGPT的橫空出世，捧紅了Speak以及一眾出海的AITutor產(chǎn)品，同時殺死了沒有及時“擁抱”AI的教育巨頭。如果OpenAI再向教育方向集中“開火”，又會發(fā)生什么呢?據(jù)TechCrunch12月5日報道，OpenAI計劃將AI聊天機器人整合到在線課程中，探索自定義“GPTs”在教育領(lǐng)域的可能性。各家產(chǎn)品如何找準打造無法替代的核心優(yōu)勢，這個問題的答案一直在變。

?AI教育 ?定制化聊天機器人 ?在線課程
OpenAI最強推理模型o3發(fā)布：AGI能力暴漲接近人類水平

OpenAI連續(xù)12日圣誕發(fā)布”終于迎來激動人心的大結(jié)局，OpenAI推出重磅收官新品，其迄今最強前沿推理模型的升級版o3。OpenAI號稱o3在一些條件下接近通用人工智能，共有o3和精簡版o3-mini兩個版本。12、o1下一代模型o3亮相，推出兩個版本，正式版o3以及精簡版o3-mini。

?OpenAI ?o3模型 ?通用人工智能

熱文

3 天
7天

站長商機

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

OpenAI科學(xué)家：現(xiàn)有模型+后訓(xùn)練足以產(chǎn)生黎曼猜想的新證明

正方:o1已展現(xiàn)出自發(fā)的涌現(xiàn)模式

△圖片來自論文Superhuman performance of a large language model on the reasoning tasks of a physician

反方:當(dāng)前縮放定律依賴數(shù)據(jù)、存在幻覺，難以產(chǎn)生新思考模式

其他專家:需結(jié)合證明驗證器、符號空間探索等方式

薦首次！大模型自動搜索人工生命，做出AI科學(xué)家的Sakana AI又放大招

薦很快OpenAI能證明陶哲軒錯了？陶哲軒一句話，被OpenAI高管懟回去

薦OpenAI發(fā)布強化微調(diào)API，能深度定制超復(fù)雜大模型了

薦OpenAI甩王炸！發(fā)布新模型o3，一夜再次改變世界！

重磅！OpenAI發(fā)布滿血o1、無限使用，最強大模型來了

成本暴降60% OpenAI宣布開放滿血o1模型API

重磅！OpenAI開放滿血o1模型API，成本暴降60%

薦谷歌“狙擊”OpenAI，發(fā)布新一代大模型，主打Agent+多模態(tài)

薦OpenAI對細分方向發(fā)力，教育App們危矣？

OpenAI最強推理模型o3發(fā)布：AGI能力暴漲接近人類水平

熱文

董明珠回應(yīng)格力電器賣得貴：為消費者帶來更長遠的價值

昇騰AI平臺訓(xùn)練推理！中國聯(lián)通元景文生圖大模型開源：真正懂中

周鴻祎：2025年這7大風(fēng)口最賺錢單身經(jīng)濟排第一

網(wǎng)易云音樂2024年度聽歌報告正式發(fā)布：誰是你的年度歌手？

小米澎湃 OS2 超級小愛首次開放升級：具體升級時間計劃公布

小米澎湃秒充協(xié)議將全面開放免費開放給所有車企等廠商

問界M9上市一年累計大定突破200000臺余承東：對得起那四個字

一年吸金近300億美元！NVIDIA成2024散戶最愛

樂道L60上市100天累計交付超20000臺

吳柳芳賬號再次被禁粉絲從600萬被清理至4萬抖音：低俗內(nèi)容吸

余承東：華為明年將推出大家想不到的產(chǎn)品

劉強東提前發(fā)年終獎絕大多數(shù)員工可獲5到8個月年終獎

京東發(fā)布年終獎通知部分員工年前可收到年終獎

美團回應(yīng)騎手穿點男模字樣工服：博流量惡意炒作

騰訊張軍辟謠微信送禮會議紀要：只想做點腳踏實地的事

肯德基中國漲價官方回應(yīng)：運營成本變化導(dǎo)致

董明珠回應(yīng)格力電器賣得貴：為消費者帶來更長遠的價值

抖音完成100部老港片4K高清修復(fù)：已上線抖音、西瓜視頻

站長商機

OpenAI科學(xué)家：現(xiàn)有模型+后訓(xùn)練足以產(chǎn)生黎曼猜想的新證明

正方:o1已展現(xiàn)出自發(fā)的涌現(xiàn)模式

△圖片來自論文Superhuman performance of a large language model on the reasoning tasks of a physician

反方:當(dāng)前縮放定律依賴數(shù)據(jù)、存在幻覺，難以產(chǎn)生新思考模式

其他專家:需結(jié)合證明驗證器、符號空間探索等方式

熱文

站長商機

反方:當(dāng)前縮放定律依賴數(shù)據(jù)、存在幻覺，難以產(chǎn)生新思考模式

其他專家:需結(jié)合證明驗證器、符號空間探索等方式