聲明:本文來(lái)自于微信公眾號(hào)機(jī)器之心,授權(quán)站長(zhǎng)之家轉(zhuǎn)載發(fā)布。
隨著上個(gè)月2025研究生考試的結(jié)束,最新的考研數(shù)學(xué)真題成為大語(yǔ)言模型尤其是推理模型的「試煉場(chǎng)」,將考驗(yàn)它們的深度思考能力。
業(yè)內(nèi)曾有著這樣一種共識(shí):大語(yǔ)言模型在文字水平上的表現(xiàn)令人印象深刻,但說(shuō)到數(shù)學(xué)就不甚令人滿意了。去年一度火出圈的「9.9與9.11」比大小的問(wèn)題,包括 GPT-4o 在內(nèi)的很多大模型都翻車了,直到深度推理模型出現(xiàn)后才從根本上改善了這一狀況。
OpenAI 發(fā)布的 o1模型在涉及復(fù)雜和專業(yè)的數(shù)理問(wèn)題方面表現(xiàn)讓人印象深刻,大模型在經(jīng)過(guò)一定時(shí)間仔細(xì)思忖后,回答問(wèn)題的能力和準(zhǔn)確度大幅提升,這種被稱為推理側(cè) Scaling Law 的現(xiàn)象已經(jīng)成為繼續(xù)推動(dòng)大模型能力提升的關(guān)鍵力量。在黃仁勛最新 CES2025的演講中,他也把測(cè)試時(shí)(即推理)Scaling 形容為大模型發(fā)展的三條曲線之一。
可以看到,繼 o1之后,國(guó)內(nèi)大模型廠商也陸續(xù)推出了自己的深度推理模型,并在某些任務(wù)上有亮眼的表現(xiàn)。數(shù)了一下時(shí)間軸大概是這樣的:
2024年11月21日,深度求索團(tuán)隊(duì)發(fā)布 DeepSeek-r1模型;
2024年11月28日,阿里通義團(tuán)隊(duì)發(fā)布 QwQ 模型;
2024年12月16日,月之暗面團(tuán)隊(duì)發(fā)布 Kimi-k1模型;
2024年12月31日,智譜 GLM 團(tuán)隊(duì)發(fā)布 GLM-Zero 模型;
2025年1月6日,昆侖萬(wàn)維發(fā)布 Skywork-o1模型。
大家也許會(huì)好奇,這些深度推理模型的能力(尤其是數(shù)學(xué)推理能力)到底有多強(qiáng),又是誰(shuí)能拔得頭籌呢?這時(shí)就需要一場(chǎng)公平的標(biāo)準(zhǔn)化考試了。
清華 SuperBench 大模型測(cè)評(píng)團(tuán)隊(duì)(以下簡(jiǎn)稱測(cè)評(píng)團(tuán)隊(duì))為了全面評(píng)估這些模型在數(shù)學(xué)推理方面的能力,結(jié)合2025年考研數(shù)學(xué)(一、二、三)的試題,專門對(duì)以上各家深度推理模型進(jìn)行了嚴(yán)格的評(píng)測(cè)。同時(shí),為了確保評(píng)測(cè)的全面性,參與評(píng)測(cè)的還包括各家的旗艦基礎(chǔ)模型。
此次選擇的13個(gè)模型具體如下:
從結(jié)果來(lái)看,所有模型中以平均分計(jì),第一名是 OpenAI 的 GPT-o1模型,這也是沒(méi)什么意外的。第二名則是來(lái)自智譜的 GLM-Zero-Preview,它以三門數(shù)學(xué)平均138.70的成績(jī)僅次于 o1,成為國(guó)產(chǎn)大模型第一,且距第一名不到3分。第三名則是來(lái)自通義的 QwQ。
測(cè)試方法
在本次評(píng)測(cè)過(guò)程中,測(cè)評(píng)團(tuán)隊(duì)發(fā)現(xiàn)并非所有模型均提供 API 支持,且部分提供 API 服務(wù)的模型在輸出內(nèi)容長(zhǎng)度超出一定限制時(shí),會(huì)出現(xiàn)內(nèi)容截?cái)嗟那闆r。為確保評(píng)測(cè)工作的公正性與準(zhǔn)確性,測(cè)評(píng)團(tuán)隊(duì)決定統(tǒng)一采用各模型廠商的網(wǎng)頁(yè)端進(jìn)行測(cè)試操作。
在測(cè)試過(guò)程中,每道題目均在獨(dú)立的對(duì)話窗口中進(jìn)行,以此消除上下文信息對(duì)測(cè)試結(jié)果可能產(chǎn)生的干擾。
鑒于部分模型輸出存在一定不穩(wěn)定性,為降低由此引發(fā)的分?jǐn)?shù)波動(dòng),測(cè)評(píng)團(tuán)隊(duì)設(shè)定當(dāng)同一模型在三次測(cè)試中有兩次及以上回答正確時(shí),方將其記錄為正確答案。
結(jié)果分析
接下來(lái)從測(cè)試總分、單張?jiān)嚲矸謹(jǐn)?shù)、深度思考模型 vs 基礎(chǔ)模型三個(gè)方面來(lái)詳細(xì)分析此次測(cè)評(píng)的結(jié)果。
總分
對(duì)于總分?jǐn)?shù),測(cè)評(píng)團(tuán)隊(duì)對(duì)三張?jiān)嚲淼姆謹(jǐn)?shù)進(jìn)行求和并計(jì)算平均值,按照分?jǐn)?shù)高低進(jìn)行排序。結(jié)果如下圖所示:
從圖中可以看到,GPT-o1仍然處于領(lǐng)先的地位,是唯一一個(gè)達(dá)到140分以上的模型,相較于排名末位的 GPT-4,分?jǐn)?shù)優(yōu)勢(shì)高達(dá)70分。
位于第二梯隊(duì)(130分以上)的模型有 GLM-zero-preview 和 QwQ,分別斬獲138.7分和137.0分。
DeepSeek-r1-lite、Kimi-k1、Tiangong-o1-preview、DeepSeek-v3則處于第三梯隊(duì)(120分以上)。
可以看出,深度思考模型普遍能夠達(dá)到120+ 的水平。這也彰顯了深度思考模型在解決數(shù)學(xué)問(wèn)題方面的強(qiáng)大能力。
值得注意的是,曾于2023年位居榜首的基礎(chǔ)模型 GPT-4,在本次測(cè)試中僅獲70.7分,位列末席。這一結(jié)果表明,在過(guò)去一年(2024年)中,語(yǔ)言模型在數(shù)學(xué)推理領(lǐng)域的進(jìn)步顯著。
而另一方面,在缺乏深度思考能力輔助的情況下,僅憑邏輯推理能力,DeepSeek-v3作為基礎(chǔ)模型,已經(jīng)能夠躋身第三梯隊(duì),這說(shuō)明基礎(chǔ)模型和深度思考模型之間的能力并非界限分明。
單張?jiān)嚲矸治?/strong>
為了更清晰地展現(xiàn)大模型在各張?jiān)嚲泶痤}能力方面的表現(xiàn),測(cè)評(píng)團(tuán)隊(duì)對(duì)每張?jiān)嚲淼腻e(cuò)題分布情況進(jìn)行了深入分析。
在數(shù)學(xué)一的評(píng)測(cè)過(guò)程中,GPT-o1、GLM-zero-preview、QwQ、DeepSeek-r1-lite 四款模型的得分相同。通過(guò)進(jìn)一步剖析錯(cuò)題情況,測(cè)評(píng)團(tuán)隊(duì)發(fā)現(xiàn)所有模型均在第20題(12分,涉及曲面積分求解)以及第21題第二問(wèn)(6分,涉及特征向量求解)上出現(xiàn)了錯(cuò)誤。
在數(shù)學(xué)二的評(píng)測(cè)中,各模型的分?jǐn)?shù)分布較為分散。經(jīng)統(tǒng)計(jì)分析發(fā)現(xiàn),第3題、第5題、第7題成為所有模型犯錯(cuò)的集中區(qū)域。具體錯(cuò)題分布情況如下圖所示:
針對(duì)數(shù)學(xué)三的評(píng)測(cè)結(jié)果顯示,模型出錯(cuò)的重災(zāi)區(qū)主要集中在第14題、第15題、第16題、第19題。相關(guān)錯(cuò)題分布情況如下圖所示:
綜合上述各試卷錯(cuò)題的具體分析,我們可以清晰地看到,GPT-o1(陰影列所示)在總計(jì)66道題目中,僅答錯(cuò)3.5道題;并且 GPT-o1答錯(cuò)的題目,其他模型亦普遍存在錯(cuò)誤,這顯示了 GPT-o1目前依然是深度推理模型的天花板。
基礎(chǔ)模型 vs 深度思考模型
最后,為了全面深入地探究各模型廠商在深度思考能力優(yōu)化方面所取得的成果,測(cè)評(píng)團(tuán)隊(duì)對(duì)相應(yīng)基礎(chǔ)模型與深度思考模型進(jìn)行了細(xì)致對(duì)比分析。
需要說(shuō)明的是,此處對(duì)比并非意味著各深度思考模型是基于對(duì)應(yīng)基礎(chǔ)模型所做優(yōu)化,其主要目的在于直觀呈現(xiàn)各廠商在模型綜合能力提升方面的進(jìn)展與成效。
相關(guān)對(duì)比結(jié)果如下圖所示:
注:OpenAI 的基礎(chǔ)模型采用的是 GPT-4o。
通過(guò)對(duì)比分析,OpenAI 的深度思考模型 GPT-o1相較于基礎(chǔ)模型 GPT-4o,提升幅度最為顯著,達(dá)到57.3分。緊隨其后的是阿里的 Qwen 模型和智譜的 GLM 模型,提升幅度分別為47.0分和34.3分。
另外,深度求索和月之暗面的提升幅度相對(duì)較小,這主要是由于其基礎(chǔ)模型本身分?jǐn)?shù)較高。以深度求索為例,其基礎(chǔ)模型 DeepSeek-v3初始分?jǐn)?shù)高達(dá)120.3分,在參評(píng)基礎(chǔ)模型中位居榜首。
在本次測(cè)試中,測(cè)評(píng)團(tuán)隊(duì)選取表現(xiàn)最為優(yōu)異的基礎(chǔ)模型 DeepSeek-v3作為參照基準(zhǔn),進(jìn)而對(duì)各廠商深度思考模型的性能提升情況進(jìn)行評(píng)估,相關(guān)數(shù)據(jù)呈現(xiàn)如下圖所示:
可以看出,OpenAI、智譜、阿里在深度思考模型上的性能提升做了很大的優(yōu)化,而 DeepSeek-v3等其他模型在本項(xiàng)測(cè)試中的結(jié)果基本接近。
這些測(cè)試結(jié)果一一看下來(lái),我們可以發(fā)現(xiàn):雖然 OpenAI 的 o1在深度推理方面仍然是最強(qiáng)的,但國(guó)產(chǎn)推理大模型正在逐漸縮小與它的差距,此次智譜 GLM-zero-preview 和阿里 QwQ 的成績(jī)說(shuō)明了這一點(diǎn)。
(舉報(bào))