聲明:本文來自于微信公眾號硅星人Pro,作者:王兆洋,授權(quán)站長之家轉(zhuǎn)載發(fā)布。
像是迷霧中走出的一頭怪獸,DeepSeek V3 在先行“泄露”并引發(fā)一陣驚嘆后,開發(fā)方深度求索正式發(fā)布了技術(shù)報告。
在這個報告中,Deepseek透露了訓(xùn)練的關(guān)鍵數(shù)據(jù),其中最引人注目的,是它的高效和對算力資源依賴之小,同時效果又異常的好——
“在預(yù)訓(xùn)練階段,在每個萬億標記上訓(xùn)練 DeepSeek-V3 只需要 180K H800 GPU 小時,也就是說,在我們的具有 2048 個 H800 GPU 的集群上需要 3.7 天。因此,我們的預(yù)訓(xùn)練階段在不到兩個月的時間內(nèi)完成,成本為 2664K GPU 小時。結(jié)合 119K GPU 小時的上下文長度擴展和 5K GPU 小時的后訓(xùn)練,DeepSeek-V3 的完整訓(xùn)練成本僅為 2.788M GPU 小時。假設(shè)H800 GPU的租金為每GPU小時2美元,我們的總訓(xùn)練成本僅為557萬美元。請注意,上述成本僅包括 DeepSeek-V3 的正式訓(xùn)練,不包括與架構(gòu)、算法或數(shù)據(jù)相關(guān)的先前的研究或精簡實驗的成本?!?/p>
“我們對DeepSeek-V3 進行了全面的基準測試。盡管 DeepSeek-V3-Base 的訓(xùn)練成本較低,但綜合評估表明,DeepSeek-V3-Base已經(jīng)成為目前可用的最強大的開源基礎(chǔ)模型,特別是在代碼和數(shù)學(xué)方面。它的聊天版本在其他開源模型上的表現(xiàn)也優(yōu)于其他開源模型,并在一系列標準和開放式基準測試中實現(xiàn)了與 GPT-4o 和 Claude-3.5-Sonnet 等領(lǐng)先閉源模型的性能相當。”
而不久前,Anthropic的CEO達里奧·阿莫迪曾透露,GPT-4o這樣的模型訓(xùn)練成本約為 1 億美元,而目前正在開發(fā)的AI大模型訓(xùn)練成本可能高達 10 億美元。未來三年內(nèi),AI大模型的訓(xùn)練成本將上升至 100 億美元甚至 1000 億美元。
也就是,現(xiàn)在DeepSeek用 550 萬美金 2000 張卡訓(xùn)出的開源模型,和OpenAI幾億燒出的模型一樣好了。
它旋即被再次稱為“國貨之光”,在預(yù)訓(xùn)練撞墻,一切都要扭轉(zhuǎn)到推理階段的變換節(jié)點,deepseek v3 的一系列技術(shù)方法,數(shù)據(jù)指標和測試性能,以及口碑,都讓它成了一件事的最好代表:
在“o1”時代,當算力不再是唯一因素,中國模型開發(fā)者的機會更多了。
“性能對標GPT-4o 以及 Claude-3.5-Sonnet”,而且是用開發(fā)者的嘴講出
DeepSeek-V3 為幻方旗下的深度求索公司自研的MoE 模型,671B 參數(shù),激活 37B,在 14.8T token 上進行了預(yù)訓(xùn)練。在Deepseek V3 技術(shù)報告公布的性能指標上來看,這個開源MoE模型,已經(jīng)在性能上“對齊海外領(lǐng)軍閉源模型”。
根據(jù)它的官方公告,它在多項評測成績上,超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他開源模型,并在性能上和世界頂尖的閉源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。
Deepseek羅列了幾個關(guān)鍵的表現(xiàn)領(lǐng)域:
百科知識:DeepSeek-V3 在知識類任務(wù)(MMLU, MMLU-Pro, GPQA, SimpleQA)上的水平相比前代 DeepSeek-V2.5 顯著提升,接近當前表現(xiàn)最好的模型 Claude-3.5-Sonnet-1022。
長文本:在長文本測評中,DROP、FRAMES 和 LongBench v2 上,DeepSeek-V3 平均表現(xiàn)超越其他模型。
代碼:DeepSeek-V3 在算法類代碼場景(Codeforces),遠遠領(lǐng)先于市面上已有的全部非 o1 類模型;并在工程類代碼場景(SWE-Bench Verified)逼近 Claude-3.5-Sonnet-1022。
數(shù)學(xué):在美國數(shù)學(xué)競賽(AIME 2024, MATH)和全國高中數(shù)學(xué)聯(lián)賽(CNMO 2024)上,DeepSeek-V3 大幅超過了所有開源閉源模型。
中文能力:DeepSeek-V3 與 Qwen2.5-72B 在教育類測評 C-Eval 和代詞消歧等評測集上表現(xiàn)相近,但在事實知識 C-SimpleQA 上更為領(lǐng)先。
這些打榜的行為已經(jīng)是所有新模型的慣例操作,而因為這些官方數(shù)據(jù)是在模型悄悄在社區(qū)以及一些AI Infra平臺上線后才跟著發(fā)布,反而讓它“口碑先行”,在人們紛紛體驗了它的媲美頭部模型的能力后,這些數(shù)據(jù)讓開發(fā)者社區(qū)印象更為深刻。
但V3 真正重要的意義不止在于開源再次逼近閉源,還在于它通過各種新的方法,不止在模型層卷,而是把整個模型的訓(xùn)練和推理當做一個系統(tǒng)來優(yōu)化到了極致,并給出了諸多新的技術(shù)思路。
這一方面也體現(xiàn)在他的生成速度提升上,根據(jù)Deepseek官方,它的生成速度提升至 3 倍。
通過算法和工程上的創(chuàng)新,DeepSeek-V3 的生成吐字速度從 20 TPS 大幅提高至 60 TPS,相比 V2.5 模型實現(xiàn)了 3 倍的提升,為用戶帶來更加迅速流暢的使用體驗。
想體驗的可以登陸官網(wǎng) chat.deepseek.com,它也支持 API 訪問。而且,新版本將提供 45 天優(yōu)惠價格體驗期,直至 2025 年2 月8 日。
在技術(shù)報告和官方正式發(fā)布前,全球開發(fā)者就已經(jīng)對這個來自東方的“圣誕禮物”歡呼了一陣。
能夠做到“提前泄露”并引起一群自來水測試和把玩的國產(chǎn)模型并不多,無論它是否是Deepseek的某種策略,它確實證明了自己受關(guān)注和在開發(fā)者社區(qū)里的真實使用的程度。
根據(jù)Reddit上最早的“泄露”,它在基準測試LiveBench上評分都擠進了前列。整體性能超過了gemini 2 flash,以及Claude 3.5 Sonnet。
而隨后,技術(shù)報告正式發(fā)布,開發(fā)者開始深挖它究竟做對了什么。
贊譽一片,“想快進到英偉達泡沫破裂”
簡單來說,DeepSeek-V3 針對分布式推理做了創(chuàng)新的優(yōu)化,進而顯著提升了分布式MoE模型的負載分配效率,這不再只是從算法上,而是從整個系統(tǒng)上為未來更大規(guī)模的模型提供了新的可擴展性框架的可能。尤其在硬件資源有限的情況下,它最大化了效率。
在模型架構(gòu)上,它和此前的V2 一樣繼續(xù)使用Deepseek自己一直相信和沿用的MLA+細顆粒度的MoE。簡單說就是在注意力機制上做創(chuàng)新,對內(nèi)存進行壓縮,對MoE的運行機制進行創(chuàng)新的設(shè)計。
此外,幾個亮點包括:
Deepseek V3 使用了輔助損失自由負載均衡策略(Auxiliary-Loss-Free Load Balancing)。
在混合專家模型(MoE)中,每個輸入Token會分配給不同的“專家”進行計算。如果分配不均衡(某些專家負載過高),會導(dǎo)致效率降低和模型性能下降。傳統(tǒng)方法通過增加一個額外的“輔助損失”來強制均衡負載,但這會對模型性能造成負面影響。DeepSeek通過動態(tài)調(diào)整專家的偏置值,使輸入Token更均勻地分配給不同的專家,而無需引入額外損失。
這個方法有趣的地方是,通過監(jiān)控每個專家的負載情況,在訓(xùn)練中動態(tài)調(diào)整每個專家的偏置,使得分配更公平。它避免了引入額外的優(yōu)化目標,直接在負載均衡和模型性能之間找到了更優(yōu)解。
另外,在MoE方面的冗余專家機制(Redundant Experts)也是這種追求平衡的思路。
在推理階段,某些專家可能會因任務(wù)量過多而成為瓶頸。冗余專家機制通過為高負載專家創(chuàng)建“副本”,讓這些任務(wù)分配到不同的副本上,緩解了計算壓力并提升了整體推理速度。這種方法可以顯著提升分布式推理的吞吐量,尤其是在高并發(fā)場景下,實現(xiàn)了資源的彈性擴展和更穩(wěn)定的服務(wù)性能。
這些動作相當于是告訴那些調(diào)不好參數(shù)和平衡的人們:
我比你們更聰明。那些所謂的負載矛盾,我可以解決,并同時保持高水平的推理精度。
多Token預(yù)測目標(Multi-Token Prediction Objective, MTP)
傳統(tǒng)語言模型一次只預(yù)測一個Token,訓(xùn)練信號較為稀疏,數(shù)據(jù)效率低。MTP讓模型在每個輸入Token的基礎(chǔ)上同時預(yù)測多個未來Token,這樣每次訓(xùn)練能提供更多的反饋信號,加速模型的學(xué)習(xí)。也就是,不是簡單地并行預(yù)測多個Token,而是通過順序預(yù)測保持每個Token間的因果鏈條。這樣既提升了訓(xùn)練效率,也讓模型在推理時能夠更好地“規(guī)劃”其輸出。
對FP8 低精度訓(xùn)練的優(yōu)化。
FP8 是一種極低精度的數(shù)據(jù)表示形式,比FP16 和BF16 的精度更低,但占用的內(nèi)存和計算資源也更少。問題是FP8 的動態(tài)范圍有限,容易出現(xiàn)數(shù)值溢出或不足。DeepSeek通過分塊量化,將數(shù)據(jù)分成更小的組進行獨立縮放,這樣可以讓模型更靈活地適應(yīng)輸入數(shù)據(jù)的變化范圍,避免低精度帶來的精度損失。
這種“分塊量化+高精度累加”的策略就是先將數(shù)據(jù)分組,每組單獨計算縮放因子,再通過高精度累加器進行累加計算。這種方法結(jié)合FP8 的低資源消耗和高精度運算,解決了傳統(tǒng)低精度訓(xùn)練中的不穩(wěn)定性問題。它大幅減少了訓(xùn)練所需的內(nèi)存和計算成本,同時保持了與高精度訓(xùn)練相當?shù)姆€(wěn)定性和性能。
除了模型方面,在訓(xùn)練設(shè)施上的創(chuàng)新也很關(guān)鍵,比如DualPipe流水線并行策略。
在分布式訓(xùn)練中,多個GPU需要同時處理大量數(shù)據(jù),其中的通信開銷是一個瓶頸。傳統(tǒng)流水線方法很難做到完全的計算與通信重疊,造成資源浪費。DualPipe通過更精細的任務(wù)分解和調(diào)度,將計算和通信時間完全重疊,從而最大限度地利用了每一塊GPU的性能。這個設(shè)計的核心是將數(shù)據(jù)分成小塊,交替執(zhí)行“計算”和“通信”任務(wù)。通過精確調(diào)整各任務(wù)的優(yōu)先級和資源分配,讓GPU在計算時也能同時處理通信操作,幾乎完全消除了流水線中的“空閑時間”。除了提升效率,它值得玩味的地方更在于:
它顯著降低了對硬件資源的需求。
技術(shù)報告發(fā)布后,Deepseek V3 更是受到了猶如暢銷書發(fā)布的待遇——大佬們紛紛為他撰寫推薦“腰封”,體驗了它的效果然后又讀了它的技術(shù)報告的,都在叫好:
推特上各個大佬紛紛點贊。
Meta的田淵棟也直接表示:
“DeepSeek這真是把H800 hack了底朝天[捂臉]太夸張了??”
Andrej Kaparthy也再次贊揚Deepseek的技術(shù)報告值得一讀。
另外一個有意思的地方是,今天最重要的一些AI Infra創(chuàng)業(yè)公司的創(chuàng)始人們也對Deepseek V3 充滿好感。一個在推理側(cè)再次推動著創(chuàng)新并由此可以刺激市場需求的模型,自然是推理側(cè)的創(chuàng)業(yè)公司們需要和希望客戶們看到的。
硅基流動的袁進輝在朋友圈點評:
“DeepSeek V3 訓(xùn)練僅用了 2000 張H800,算力成本 6 百萬美元,給海外同行蠻大思想沖擊,很多業(yè)內(nèi)專家都點贊了,算力不是唯一決定因素,聰明的人加創(chuàng)新更讓人敬佩?!?/p>
Lepton的創(chuàng)始人賈揚清則在朋友圈和X同時點評了V3 給他帶來的思考。
?首先,現(xiàn)在我們正式進入了分布式推理的時代。一臺單GPU機器(80*8=640G)的顯存已經(jīng)裝不下參數(shù)了。新的大顯存機器確實能容納模型,但不管怎樣,為了性能和未來擴展,分布式推理是不可避免的選擇。
?即使在單個模型中,也需要關(guān)注 MoE 的負載均衡,因為每次推理只有大約5%的參數(shù)激活。目前還沒仔細研究這部分的工作負載細節(jié),但應(yīng)該會很有趣。
?論文中特別提到引入“redundant expert”的概念,正是為了解決這個問題。這已經(jīng)不是“一個模型多個副本”的問題,而是“每個模型子模塊都有多個副本”,然后獨立擴縮容。
?輸入token的盈利模式已經(jīng)很明確了。我個人推測,想讓輸出token變得盈利或至少收支平衡需要更多優(yōu)化。不過如果我們相信“軟件摩爾定律”(每 18 個月單token成本減半),這就不是問題。
? Tile或block級別的量化是必需的。這也和我們在 Lepton 的觀察一致。我們還支持基于輸入數(shù)據(jù)的動態(tài)量化(ahead-of-time dynamic quantization)。另外等硬件支持FP4 以后肯定還有不少可以玩的花樣。
?冷知識:FP4 乘法實際上就是個16* 16 的table lookup…
?論文提到,在很多情況下,內(nèi)存帶寬是瓶頸。很期待看看即將推出的NVIDIA新硬件形態(tài)(比如NVL72)能如何提升分布式推理的性能和便捷性。
“Exciting years.” 他說。
在V3 發(fā)布之前,Deepseek曾經(jīng)被海外知名的“爆料+深度分析”的技術(shù)博客又一次提到Deepseek,這個以芯片領(lǐng)域的一手信息著稱的博客已經(jīng)是對Deepseek最關(guān)注的海外分析師,但它似乎依然沒想到Deepseek的重要性并不在于與OpenAI們用比拼資源的方式比拼創(chuàng)新,在這篇文章中,Semianalysis“爆料”稱Deepseek已經(jīng)有很多很多的卡。但在V3 發(fā)布后,它所指向的方向看來并不如此。
你依然需要萬卡集群,但不是誰的卡多誰燒的錢多誰就理所應(yīng)當會贏得一切了。
有網(wǎng)友甚至戲稱:“想快進到Nvidia泡沫破裂的時刻”。
一切都在快速的展開。神話OpenAI們,尤其是以“卡”的名義神話然后看低中國開發(fā)者們自己的模型和Infra創(chuàng)新能力的階段看起來要結(jié)束了。當然,前提是你不是只想“跟著喊幾句”的創(chuàng)新,而是你真的做著
(舉報)