國(guó)產(chǎn)推理大模型決戰(zhàn)2025考研數(shù)學(xué)，看看誰(shuí)個(gè)上岸？

2025-01-14 15:01 · 稿源：機(jī)器之心公眾號(hào)

聲明:本文來(lái)自于微信公眾號(hào)機(jī)器之心，授權(quán)站長(zhǎng)之家轉(zhuǎn)載發(fā)布。

隨著上個(gè)月2025研究生考試的結(jié)束，最新的考研數(shù)學(xué)真題成為大語(yǔ)言模型尤其是推理模型的「試煉場(chǎng)」，將考驗(yàn)它們的深度思考能力。

業(yè)內(nèi)曾有著這樣一種共識(shí):大語(yǔ)言模型在文字水平上的表現(xiàn)令人印象深刻，但說(shuō)到數(shù)學(xué)就不甚令人滿意了。去年一度火出圈的「9.9與9.11」比大小的問(wèn)題，包括 GPT-4o 在內(nèi)的很多大模型都翻車了，直到深度推理模型出現(xiàn)后才從根本上改善了這一狀況。

OpenAI 發(fā)布的 o1模型在涉及復(fù)雜和專業(yè)的數(shù)理問(wèn)題方面表現(xiàn)讓人印象深刻，大模型在經(jīng)過(guò)一定時(shí)間仔細(xì)思忖后，回答問(wèn)題的能力和準(zhǔn)確度大幅提升，這種被稱為推理側(cè) Scaling Law 的現(xiàn)象已經(jīng)成為繼續(xù)推動(dòng)大模型能力提升的關(guān)鍵力量。在黃仁勛最新 CES2025的演講中，他也把測(cè)試時(shí)（即推理）Scaling 形容為大模型發(fā)展的三條曲線之一。

可以看到，繼 o1之后，國(guó)內(nèi)大模型廠商也陸續(xù)推出了自己的深度推理模型，并在某些任務(wù)上有亮眼的表現(xiàn)。數(shù)了一下時(shí)間軸大概是這樣的:

2024年11月21日，深度求索團(tuán)隊(duì)發(fā)布 DeepSeek-r1模型;
2024年11月28日，阿里通義團(tuán)隊(duì)發(fā)布 QwQ 模型;
2024年12月16日，月之暗面團(tuán)隊(duì)發(fā)布 Kimi-k1模型;
2024年12月31日，智譜 GLM 團(tuán)隊(duì)發(fā)布 GLM-Zero 模型;
2025年1月6日，昆侖萬(wàn)維發(fā)布 Skywork-o1模型。

大家也許會(huì)好奇，這些深度推理模型的能力（尤其是數(shù)學(xué)推理能力）到底有多強(qiáng)，又是誰(shuí)能拔得頭籌呢?這時(shí)就需要一場(chǎng)公平的標(biāo)準(zhǔn)化考試了。

清華 SuperBench 大模型測(cè)評(píng)團(tuán)隊(duì)（以下簡(jiǎn)稱測(cè)評(píng)團(tuán)隊(duì)）為了全面評(píng)估這些模型在數(shù)學(xué)推理方面的能力，結(jié)合2025年考研數(shù)學(xué)(一、二、三)的試題，專門對(duì)以上各家深度推理模型進(jìn)行了嚴(yán)格的評(píng)測(cè)。同時(shí)，為了確保評(píng)測(cè)的全面性，參與評(píng)測(cè)的還包括各家的旗艦基礎(chǔ)模型。

此次選擇的13個(gè)模型具體如下:

從結(jié)果來(lái)看，所有模型中以平均分計(jì)，第一名是 OpenAI 的 GPT-o1模型，這也是沒(méi)什么意外的。第二名則是來(lái)自智譜的 GLM-Zero-Preview，它以三門數(shù)學(xué)平均138.70的成績(jī)僅次于 o1，成為國(guó)產(chǎn)大模型第一，且距第一名不到3分。第三名則是來(lái)自通義的 QwQ。

測(cè)試方法

在本次評(píng)測(cè)過(guò)程中，測(cè)評(píng)團(tuán)隊(duì)發(fā)現(xiàn)并非所有模型均提供 API 支持，且部分提供 API 服務(wù)的模型在輸出內(nèi)容長(zhǎng)度超出一定限制時(shí)，會(huì)出現(xiàn)內(nèi)容截?cái)嗟那闆r。為確保評(píng)測(cè)工作的公正性與準(zhǔn)確性，測(cè)評(píng)團(tuán)隊(duì)決定統(tǒng)一采用各模型廠商的網(wǎng)頁(yè)端進(jìn)行測(cè)試操作。

在測(cè)試過(guò)程中，每道題目均在獨(dú)立的對(duì)話窗口中進(jìn)行，以此消除上下文信息對(duì)測(cè)試結(jié)果可能產(chǎn)生的干擾。

鑒于部分模型輸出存在一定不穩(wěn)定性，為降低由此引發(fā)的分?jǐn)?shù)波動(dòng)，測(cè)評(píng)團(tuán)隊(duì)設(shè)定當(dāng)同一模型在三次測(cè)試中有兩次及以上回答正確時(shí)，方將其記錄為正確答案。

結(jié)果分析

接下來(lái)從測(cè)試總分、單張?jiān)嚲矸謹(jǐn)?shù)、深度思考模型 vs 基礎(chǔ)模型三個(gè)方面來(lái)詳細(xì)分析此次測(cè)評(píng)的結(jié)果。

總分

對(duì)于總分?jǐn)?shù)，測(cè)評(píng)團(tuán)隊(duì)對(duì)三張?jiān)嚲淼姆謹(jǐn)?shù)進(jìn)行求和并計(jì)算平均值，按照分?jǐn)?shù)高低進(jìn)行排序。結(jié)果如下圖所示:

從圖中可以看到，GPT-o1仍然處于領(lǐng)先的地位，是唯一一個(gè)達(dá)到140分以上的模型，相較于排名末位的 GPT-4，分?jǐn)?shù)優(yōu)勢(shì)高達(dá)70分。

位于第二梯隊(duì)（130分以上）的模型有 GLM-zero-preview 和 QwQ，分別斬獲138.7分和137.0分。

DeepSeek-r1-lite、Kimi-k1、Tiangong-o1-preview、DeepSeek-v3則處于第三梯隊(duì)（120分以上）。

可以看出，深度思考模型普遍能夠達(dá)到120+ 的水平。這也彰顯了深度思考模型在解決數(shù)學(xué)問(wèn)題方面的強(qiáng)大能力。

值得注意的是，曾于2023年位居榜首的基礎(chǔ)模型 GPT-4，在本次測(cè)試中僅獲70.7分，位列末席。這一結(jié)果表明，在過(guò)去一年（2024年）中，語(yǔ)言模型在數(shù)學(xué)推理領(lǐng)域的進(jìn)步顯著。

而另一方面，在缺乏深度思考能力輔助的情況下，僅憑邏輯推理能力，DeepSeek-v3作為基礎(chǔ)模型，已經(jīng)能夠躋身第三梯隊(duì)，這說(shuō)明基礎(chǔ)模型和深度思考模型之間的能力并非界限分明。

單張?jiān)嚲矸治?/strong>

為了更清晰地展現(xiàn)大模型在各張?jiān)嚲泶痤}能力方面的表現(xiàn)，測(cè)評(píng)團(tuán)隊(duì)對(duì)每張?jiān)嚲淼腻e(cuò)題分布情況進(jìn)行了深入分析。

在數(shù)學(xué)一的評(píng)測(cè)過(guò)程中，GPT-o1、GLM-zero-preview、QwQ、DeepSeek-r1-lite 四款模型的得分相同。通過(guò)進(jìn)一步剖析錯(cuò)題情況，測(cè)評(píng)團(tuán)隊(duì)發(fā)現(xiàn)所有模型均在第20題（12分，涉及曲面積分求解）以及第21題第二問(wèn)(6分，涉及特征向量求解)上出現(xiàn)了錯(cuò)誤。

在數(shù)學(xué)二的評(píng)測(cè)中，各模型的分?jǐn)?shù)分布較為分散。經(jīng)統(tǒng)計(jì)分析發(fā)現(xiàn)，第3題、第5題、第7題成為所有模型犯錯(cuò)的集中區(qū)域。具體錯(cuò)題分布情況如下圖所示:

針對(duì)數(shù)學(xué)三的評(píng)測(cè)結(jié)果顯示，模型出錯(cuò)的重災(zāi)區(qū)主要集中在第14題、第15題、第16題、第19題。相關(guān)錯(cuò)題分布情況如下圖所示:

綜合上述各試卷錯(cuò)題的具體分析，我們可以清晰地看到，GPT-o1（陰影列所示）在總計(jì)66道題目中，僅答錯(cuò)3.5道題;并且 GPT-o1答錯(cuò)的題目，其他模型亦普遍存在錯(cuò)誤，這顯示了 GPT-o1目前依然是深度推理模型的天花板。

基礎(chǔ)模型 vs 深度思考模型

最后，為了全面深入地探究各模型廠商在深度思考能力優(yōu)化方面所取得的成果，測(cè)評(píng)團(tuán)隊(duì)對(duì)相應(yīng)基礎(chǔ)模型與深度思考模型進(jìn)行了細(xì)致對(duì)比分析。

需要說(shuō)明的是，此處對(duì)比并非意味著各深度思考模型是基于對(duì)應(yīng)基礎(chǔ)模型所做優(yōu)化，其主要目的在于直觀呈現(xiàn)各廠商在模型綜合能力提升方面的進(jìn)展與成效。

相關(guān)對(duì)比結(jié)果如下圖所示:

注:OpenAI 的基礎(chǔ)模型采用的是 GPT-4o。

通過(guò)對(duì)比分析，OpenAI 的深度思考模型 GPT-o1相較于基礎(chǔ)模型 GPT-4o，提升幅度最為顯著，達(dá)到57.3分。緊隨其后的是阿里的 Qwen 模型和智譜的 GLM 模型，提升幅度分別為47.0分和34.3分。

另外，深度求索和月之暗面的提升幅度相對(duì)較小，這主要是由于其基礎(chǔ)模型本身分?jǐn)?shù)較高。以深度求索為例，其基礎(chǔ)模型 DeepSeek-v3初始分?jǐn)?shù)高達(dá)120.3分，在參評(píng)基礎(chǔ)模型中位居榜首。

在本次測(cè)試中，測(cè)評(píng)團(tuán)隊(duì)選取表現(xiàn)最為優(yōu)異的基礎(chǔ)模型 DeepSeek-v3作為參照基準(zhǔn)，進(jìn)而對(duì)各廠商深度思考模型的性能提升情況進(jìn)行評(píng)估，相關(guān)數(shù)據(jù)呈現(xiàn)如下圖所示:

可以看出，OpenAI、智譜、阿里在深度思考模型上的性能提升做了很大的優(yōu)化，而 DeepSeek-v3等其他模型在本項(xiàng)測(cè)試中的結(jié)果基本接近。

這些測(cè)試結(jié)果一一看下來(lái)，我們可以發(fā)現(xiàn):雖然 OpenAI 的 o1在深度推理方面仍然是最強(qiáng)的，但國(guó)產(chǎn)推理大模型正在逐漸縮小與它的差距，此次智譜 GLM-zero-preview 和阿里 QwQ 的成績(jī)說(shuō)明了這一點(diǎn)。

（舉報(bào)）

相關(guān)推薦

關(guān)鍵詞：

大語(yǔ)言模型

推理模型

考研數(shù)學(xué)

數(shù)學(xué)真題

雷軍公布2025年第一個(gè)Flag：小米汽車目標(biāo)交付30萬(wàn)臺(tái)！

今晚8點(diǎn)，小米CEO雷軍在小米汽車工廠舉辦圍爐”跨年直播活動(dòng)。在今晚直播中，雷軍表示，小米汽車今年已經(jīng)交付超過(guò)13.5萬(wàn)臺(tái)，并立下2025年第一個(gè)Flag計(jì)劃明年交付目標(biāo)為30萬(wàn)臺(tái)。11月13日，小米汽車實(shí)現(xiàn)第10萬(wàn)輛整車下線，230天的時(shí)間創(chuàng)造了國(guó)內(nèi)新車企最快下線紀(jì)錄。

?小米汽車 ?雷軍 ?交付量

2025年，這些趨勢(shì)正在爆發(fā)

AI眼鏡、具身智能、即時(shí)零售、零食折扣……2025年，去哪里能搞到錢?剛剛過(guò)去的2024年告訴我們，這個(gè)問(wèn)題的答案隨時(shí)在變，因?yàn)锳I來(lái)了。AI被視為2015年之后，唯一能和移動(dòng)互聯(lián)網(wǎng)相媲美的風(fēng)口。不管技術(shù)如何發(fā)展，懂生活、懂人性的創(chuàng)業(yè)者，才能做出一家好公司。

?AI眼鏡 ?具身智能 ?即時(shí)零售

一生難遇！原來(lái)2025是“完美平方年”

2025年已經(jīng)拉開序幕，最近2025是完美平方年”的話題引發(fā)熱議。2025是一個(gè)完美平方數(shù)”。2025年堪稱完美，是個(gè)一生難遇的數(shù)字。

?完全平方數(shù) ?2025年 ?數(shù)學(xué)應(yīng)用

雷軍曬健身房照片：2025年第一次打卡

快科技1月2日消息，今天一早，雷軍在微博上曬出了他在健身房的照片，并配文：2025年第一次打卡！”這張照片不僅展示了他積極向上的生活態(tài)度，也透露出他對(duì)新的一年充滿了期待與規(guī)劃。原來(lái)，對(duì)于雷軍來(lái)說(shuō)，堅(jiān)持健身已經(jīng)成為了他2025年的一個(gè)重要目標(biāo)之一。實(shí)際上，在過(guò)去的幾周里，他已完成了十多次的鍛煉。根據(jù)他的計(jì)劃，在接下來(lái)的一年中，雷軍希望能夠?qū)⑦@一良?

?雷軍健身 ?2025年目標(biāo) ?小米CEO

薦從智能體到世界模型，2025年AI行業(yè)還會(huì)發(fā)生哪些大事？

2024年，是AI指數(shù)級(jí)發(fā)展的又一年。大模型浪潮滾滾向前，在技術(shù)創(chuàng)新和應(yīng)用落地上取得多項(xiàng)突破，引起了海內(nèi)外廣泛關(guān)注和討論?！癆I新榜”會(huì)繼續(xù)和你一起見證、參與AI行業(yè)的風(fēng)起云涌。

?智能體

前程無(wú)憂2025杰出雇主榜單揭曉

經(jīng)過(guò)6個(gè)多月的評(píng)選，中國(guó)領(lǐng)先的人力資源服務(wù)商前程無(wú)憂于近日揭曉了“2025人力資源管理杰出獎(jiǎng)”的榜單。本屆評(píng)選于2024年7月份啟動(dòng)，從數(shù)萬(wàn)家活躍雇主中篩選出6000家企業(yè)發(fā)出參選邀請(qǐng)，通過(guò)調(diào)研獲取企業(yè)在戰(zhàn)略規(guī)劃調(diào)整、人工智能前沿應(yīng)用、雇主品牌建設(shè)、人才吸引、發(fā)展、激勵(lì)、保留、關(guān)懷等方面的創(chuàng)新舉措，結(jié)合企業(yè)在新媒體平臺(tái)上的聲量和活躍度，最終遴選出積極應(yīng)對(duì)市場(chǎng)環(huán)境，代表行業(yè)標(biāo)桿的400家企業(yè)。讓我們攜手前行，共同迎接春暖花開的到來(lái)。

?人力資源管理 ?人工智能應(yīng)用 ?雇主品牌建設(shè)

開啟通往2025的大門，你需要一把“萬(wàn)能鑰匙”

站在2025年的大門前，回顧你的2024年，是上班和上進(jìn)之間，選擇了“上香”？還是獨(dú)自CityWalk，掙扎在脫單之路上？東方畫卷的造型，是古典與科技結(jié)合的美學(xué)；搭配超薄機(jī)身，宛如一幅懸掛著的精美壁畫，與家裝家居渾然一體。

?智能電視 ?AI時(shí)代 ?家庭機(jī)器人

薦2025，互聯(lián)網(wǎng)巨頭放棄造車？

2024年，多家銷量長(zhǎng)期低迷的二線新能源車企接連暴雷。前有高合停工停產(chǎn)，后有哪吒汽車“鬧?！辈怀桑瑩Q帥自救。倒在2024年年尾的極越，更像是2025年那場(chǎng)殘酷淘汰賽的提前彩排。

?互聯(lián)網(wǎng)造車

Arm 技術(shù)預(yù)測(cè)：2025 年及未來(lái)的技術(shù)趨勢(shì)

Arm不斷思考著計(jì)算的未來(lái)。無(wú)論是最新架構(gòu)的功能是用于芯片解決方案的新技術(shù)，Arm所創(chuàng)造和設(shè)計(jì)的一切都以未來(lái)技術(shù)的使用和體驗(yàn)為導(dǎo)向。Arm預(yù)計(jì)這一勢(shì)頭將在2025年繼續(xù)保持下去，隨著包括GoogleChrome在內(nèi)對(duì)用戶日常體驗(yàn)至關(guān)重要的Arm原生應(yīng)用實(shí)現(xiàn)了大幅的性能提升，WoA將對(duì)開發(fā)者和消費(fèi)者的吸引力不斷增強(qiáng)。

?Arm技術(shù) ?未來(lái)計(jì)算 ?芯片設(shè)計(jì)

WEEX 交易所2025最新防詐騙指南

WEEX交易所安全合規(guī)，平臺(tái)自2018年成立以來(lái)，從來(lái)沒(méi)有傳出過(guò)遭駭客攻擊或竊取用戶資產(chǎn)、無(wú)法出金等負(fù)面消息。WEEX已發(fā)展為全球知名衍生品交易所之一。勿因貪小便宜吃大虧，千萬(wàn)不要將你的實(shí)名賬號(hào)借給他人使用，也不要隨意出借身份證件，平時(shí)一定要保護(hù)好自己的個(gè)人信息。

?WEEX ?交易所 ?安全合規(guī)

熱文

3 天

7天

1

胖東來(lái)不允許夫妻間家暴冷暴力不允許員工打孩子

2

馬斯克：AI訓(xùn)練去年就已耗盡現(xiàn)實(shí)世界的所有資料

3

周鴻祎1天漲粉超百萬(wàn) 稱準(zhǔn)備送車：考慮仰望、享界、問(wèn)界等

4

周鴻祎談劉強(qiáng)東給村民發(fā)福利：展現(xiàn)了極高的社會(huì)責(zé)任感

5

抖音：2024年通過(guò)AI大模型提升識(shí)別能力處罰違規(guī)賬號(hào)超600萬(wàn)個(gè)

6

馬化騰內(nèi)部講話：堅(jiān)決支持微信生態(tài) 從原子層角度去思考電商

7

2025年首臺(tái)FF 91 2.0交付：賈躍亭和大家舉杯慶賀

8

小紅書成2025年央視春晚“獨(dú)家筆記分享平臺(tái)”

9

有梗又搞笑！阿里美團(tuán)餓了么等互聯(lián)網(wǎng)公司爭(zhēng)先在小紅書攬客

10

美團(tuán)：2024年共有30982名騎手因使用外掛被封禁賬號(hào)

1

胖東來(lái)不允許夫妻間家暴冷暴力不允許員工打孩子

2

西藏地震有人不當(dāng)利用AI生成災(zāi)害場(chǎng)景抖音：嚴(yán)格處罰！

3

馬斯克：AI訓(xùn)練去年就已耗盡現(xiàn)實(shí)世界的所有資料

4

周鴻祎1天漲粉超百萬(wàn) 稱準(zhǔn)備送車：考慮仰望、享界、問(wèn)界等

5

周鴻祎談劉強(qiáng)東給村民發(fā)福利：展現(xiàn)了極高的社會(huì)責(zé)任感

6

小米YU7冬測(cè)！雷軍、盧偉冰現(xiàn)身黑河：一起放加特林煙花

7

Nvidia 的 AI 帝國(guó)：看看它投資的頂級(jí)初創(chuàng)企業(yè)

8

抖音：2024年通過(guò)AI大模型提升識(shí)別能力處罰違規(guī)賬號(hào)超600萬(wàn)個(gè)

9

蘋果公司披露高管薪酬和股東提案細(xì)節(jié) 庫(kù)克2024年收入7461萬(wàn)美元

10

馬化騰內(nèi)部講話：堅(jiān)決支持微信生態(tài) 從原子層角度去思考電商

站長(zhǎng)商機(jī)

廣告

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

?CopyRight 2002-2020 CHINAZ.COM

國(guó)產(chǎn)推理大模型決戰(zhàn)2025考研數(shù)學(xué)，看看誰(shuí)個(gè)上岸？

熱文

站長(zhǎng)商機(jī)

國(guó)產(chǎn)推理大模型決戰(zhàn)2025考研數(shù)學(xué)，看看誰(shuí)個(gè)上岸？