幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

首頁 > 業(yè)界 > 關(guān)鍵詞  > DeepSeek最新資訊  > 正文

DeepSeek V3刷屏,550萬元2000張卡做出的開源模型,和OpenAI幾億燒出來的一樣好

2024-12-27 11:08 · 稿源: ?硅星人Pro公眾號

聲明:本文來自于微信公眾號硅星人Pro,作者:王兆洋,授權(quán)站長之家轉(zhuǎn)載發(fā)布。

像是迷霧中走出的一頭怪獸,DeepSeek V3 在先行“泄露”并引發(fā)一陣驚嘆后,開發(fā)方深度求索正式發(fā)布了技術(shù)報告。

圖片

在這個報告中,Deepseek透露了訓(xùn)練的關(guān)鍵數(shù)據(jù),其中最引人注目的,是它的高效和對算力資源依賴之小,同時效果又異常的好——

“在預(yù)訓(xùn)練階段,在每個萬億標記上訓(xùn)練 DeepSeek-V3 只需要 180K H800 GPU 小時,也就是說,在我們的具有 2048 個 H800 GPU 的集群上需要 3.7 天。因此,我們的預(yù)訓(xùn)練階段在不到兩個月的時間內(nèi)完成,成本為 2664K GPU 小時。結(jié)合 119K GPU 小時的上下文長度擴展和 5K GPU 小時的后訓(xùn)練,DeepSeek-V3 的完整訓(xùn)練成本僅為 2.788M GPU 小時。假設(shè)H800 GPU的租金為每GPU小時2美元,我們的總訓(xùn)練成本僅為557萬美元。請注意,上述成本僅包括 DeepSeek-V3 的正式訓(xùn)練,不包括與架構(gòu)、算法或數(shù)據(jù)相關(guān)的先前的研究或精簡實驗的成本?!?/p>

圖片

“我們對DeepSeek-V3 進行了全面的基準測試。盡管 DeepSeek-V3-Base 的訓(xùn)練成本較低,但綜合評估表明,DeepSeek-V3-Base已經(jīng)成為目前可用的最強大的開源基礎(chǔ)模型,特別是在代碼和數(shù)學(xué)方面。它的聊天版本在其他開源模型上的表現(xiàn)也優(yōu)于其他開源模型,并在一系列標準和開放式基準測試中實現(xiàn)了與 GPT-4o 和 Claude-3.5-Sonnet 等領(lǐng)先閉源模型的性能相當。”

而不久前,Anthropic的CEO達里奧·阿莫迪曾透露,GPT-4o這樣的模型訓(xùn)練成本約為 1 億美元,而目前正在開發(fā)的AI大模型訓(xùn)練成本可能高達 10 億美元。未來三年內(nèi),AI大模型的訓(xùn)練成本將上升至 100 億美元甚至 1000 億美元。

也就是,現(xiàn)在DeepSeek用 550 萬美金 2000 張卡訓(xùn)出的開源模型,和OpenAI幾億燒出的模型一樣好了。

它旋即被再次稱為“國貨之光”,在預(yù)訓(xùn)練撞墻,一切都要扭轉(zhuǎn)到推理階段的變換節(jié)點,deepseek v3 的一系列技術(shù)方法,數(shù)據(jù)指標和測試性能,以及口碑,都讓它成了一件事的最好代表:

在“o1”時代,當算力不再是唯一因素,中國模型開發(fā)者的機會更多了。

“性能對標GPT-4o 以及 Claude-3.5-Sonnet”,而且是用開發(fā)者的嘴講出

DeepSeek-V3 為幻方旗下的深度求索公司自研的MoE 模型,671B 參數(shù),激活 37B,在 14.8T token 上進行了預(yù)訓(xùn)練。在Deepseek V3 技術(shù)報告公布的性能指標上來看,這個開源MoE模型,已經(jīng)在性能上“對齊海外領(lǐng)軍閉源模型”。

圖片

根據(jù)它的官方公告,它在多項評測成績上,超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他開源模型,并在性能上和世界頂尖的閉源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。

Deepseek羅列了幾個關(guān)鍵的表現(xiàn)領(lǐng)域:

  • 百科知識:DeepSeek-V3 在知識類任務(wù)(MMLU, MMLU-Pro, GPQA, SimpleQA)上的水平相比前代 DeepSeek-V2.5 顯著提升,接近當前表現(xiàn)最好的模型 Claude-3.5-Sonnet-1022。

  • 長文本:在長文本測評中,DROP、FRAMES 和 LongBench v2 上,DeepSeek-V3 平均表現(xiàn)超越其他模型。

  • 代碼:DeepSeek-V3 在算法類代碼場景(Codeforces),遠遠領(lǐng)先于市面上已有的全部非 o1 類模型;并在工程類代碼場景(SWE-Bench Verified)逼近 Claude-3.5-Sonnet-1022。

  • 數(shù)學(xué):在美國數(shù)學(xué)競賽(AIME 2024, MATH)和全國高中數(shù)學(xué)聯(lián)賽(CNMO 2024)上,DeepSeek-V3 大幅超過了所有開源閉源模型。

  • 中文能力:DeepSeek-V3 與 Qwen2.5-72B 在教育類測評 C-Eval 和代詞消歧等評測集上表現(xiàn)相近,但在事實知識 C-SimpleQA 上更為領(lǐng)先。

這些打榜的行為已經(jīng)是所有新模型的慣例操作,而因為這些官方數(shù)據(jù)是在模型悄悄在社區(qū)以及一些AI Infra平臺上線后才跟著發(fā)布,反而讓它“口碑先行”,在人們紛紛體驗了它的媲美頭部模型的能力后,這些數(shù)據(jù)讓開發(fā)者社區(qū)印象更為深刻。

圖片

但V3 真正重要的意義不止在于開源再次逼近閉源,還在于它通過各種新的方法,不止在模型層卷,而是把整個模型的訓(xùn)練和推理當做一個系統(tǒng)來優(yōu)化到了極致,并給出了諸多新的技術(shù)思路。

這一方面也體現(xiàn)在他的生成速度提升上,根據(jù)Deepseek官方,它的生成速度提升至 3 倍。

通過算法和工程上的創(chuàng)新,DeepSeek-V3 的生成吐字速度從 20 TPS 大幅提高至 60 TPS,相比 V2.5 模型實現(xiàn)了 3 倍的提升,為用戶帶來更加迅速流暢的使用體驗。

想體驗的可以登陸官網(wǎng) chat.deepseek.com,它也支持 API 訪問。而且,新版本將提供 45 天優(yōu)惠價格體驗期,直至 2025 年2 月8 日。

在技術(shù)報告和官方正式發(fā)布前,全球開發(fā)者就已經(jīng)對這個來自東方的“圣誕禮物”歡呼了一陣。

能夠做到“提前泄露”并引起一群自來水測試和把玩的國產(chǎn)模型并不多,無論它是否是Deepseek的某種策略,它確實證明了自己受關(guān)注和在開發(fā)者社區(qū)里的真實使用的程度。

根據(jù)Reddit上最早的“泄露”,它在基準測試LiveBench上評分都擠進了前列。整體性能超過了gemini 2 flash,以及Claude 3.5 Sonnet。

圖片

而隨后,技術(shù)報告正式發(fā)布,開發(fā)者開始深挖它究竟做對了什么。

贊譽一片,“想快進到英偉達泡沫破裂”

簡單來說,DeepSeek-V3 針對分布式推理做了創(chuàng)新的優(yōu)化,進而顯著提升了分布式MoE模型的負載分配效率,這不再只是從算法上,而是從整個系統(tǒng)上為未來更大規(guī)模的模型提供了新的可擴展性框架的可能。尤其在硬件資源有限的情況下,它最大化了效率。

在模型架構(gòu)上,它和此前的V2 一樣繼續(xù)使用Deepseek自己一直相信和沿用的MLA+細顆粒度的MoE。簡單說就是在注意力機制上做創(chuàng)新,對內(nèi)存進行壓縮,對MoE的運行機制進行創(chuàng)新的設(shè)計。

圖片

此外,幾個亮點包括:

Deepseek V3 使用了輔助損失自由負載均衡策略(Auxiliary-Loss-Free Load Balancing)。

在混合專家模型(MoE)中,每個輸入Token會分配給不同的“專家”進行計算。如果分配不均衡(某些專家負載過高),會導(dǎo)致效率降低和模型性能下降。傳統(tǒng)方法通過增加一個額外的“輔助損失”來強制均衡負載,但這會對模型性能造成負面影響。DeepSeek通過動態(tài)調(diào)整專家的偏置值,使輸入Token更均勻地分配給不同的專家,而無需引入額外損失。

這個方法有趣的地方是,通過監(jiān)控每個專家的負載情況,在訓(xùn)練中動態(tài)調(diào)整每個專家的偏置,使得分配更公平。它避免了引入額外的優(yōu)化目標,直接在負載均衡和模型性能之間找到了更優(yōu)解。

另外,在MoE方面的冗余專家機制(Redundant Experts)也是這種追求平衡的思路。

在推理階段,某些專家可能會因任務(wù)量過多而成為瓶頸。冗余專家機制通過為高負載專家創(chuàng)建“副本”,讓這些任務(wù)分配到不同的副本上,緩解了計算壓力并提升了整體推理速度。這種方法可以顯著提升分布式推理的吞吐量,尤其是在高并發(fā)場景下,實現(xiàn)了資源的彈性擴展和更穩(wěn)定的服務(wù)性能。

這些動作相當于是告訴那些調(diào)不好參數(shù)和平衡的人們:

我比你們更聰明。那些所謂的負載矛盾,我可以解決,并同時保持高水平的推理精度。

圖片

多Token預(yù)測目標(Multi-Token Prediction Objective, MTP)

傳統(tǒng)語言模型一次只預(yù)測一個Token,訓(xùn)練信號較為稀疏,數(shù)據(jù)效率低。MTP讓模型在每個輸入Token的基礎(chǔ)上同時預(yù)測多個未來Token,這樣每次訓(xùn)練能提供更多的反饋信號,加速模型的學(xué)習(xí)。也就是,不是簡單地并行預(yù)測多個Token,而是通過順序預(yù)測保持每個Token間的因果鏈條。這樣既提升了訓(xùn)練效率,也讓模型在推理時能夠更好地“規(guī)劃”其輸出。

對FP8 低精度訓(xùn)練的優(yōu)化。

FP8 是一種極低精度的數(shù)據(jù)表示形式,比FP16 和BF16 的精度更低,但占用的內(nèi)存和計算資源也更少。問題是FP8 的動態(tài)范圍有限,容易出現(xiàn)數(shù)值溢出或不足。DeepSeek通過分塊量化,將數(shù)據(jù)分成更小的組進行獨立縮放,這樣可以讓模型更靈活地適應(yīng)輸入數(shù)據(jù)的變化范圍,避免低精度帶來的精度損失。

這種“分塊量化+高精度累加”的策略就是先將數(shù)據(jù)分組,每組單獨計算縮放因子,再通過高精度累加器進行累加計算。這種方法結(jié)合FP8 的低資源消耗和高精度運算,解決了傳統(tǒng)低精度訓(xùn)練中的不穩(wěn)定性問題。它大幅減少了訓(xùn)練所需的內(nèi)存和計算成本,同時保持了與高精度訓(xùn)練相當?shù)姆€(wěn)定性和性能。

除了模型方面,在訓(xùn)練設(shè)施上的創(chuàng)新也很關(guān)鍵,比如DualPipe流水線并行策略。

在分布式訓(xùn)練中,多個GPU需要同時處理大量數(shù)據(jù),其中的通信開銷是一個瓶頸。傳統(tǒng)流水線方法很難做到完全的計算與通信重疊,造成資源浪費。DualPipe通過更精細的任務(wù)分解和調(diào)度,將計算和通信時間完全重疊,從而最大限度地利用了每一塊GPU的性能。這個設(shè)計的核心是將數(shù)據(jù)分成小塊,交替執(zhí)行“計算”和“通信”任務(wù)。通過精確調(diào)整各任務(wù)的優(yōu)先級和資源分配,讓GPU在計算時也能同時處理通信操作,幾乎完全消除了流水線中的“空閑時間”。除了提升效率,它值得玩味的地方更在于:

它顯著降低了對硬件資源的需求。

技術(shù)報告發(fā)布后,Deepseek V3 更是受到了猶如暢銷書發(fā)布的待遇——大佬們紛紛為他撰寫推薦“腰封”,體驗了它的效果然后又讀了它的技術(shù)報告的,都在叫好:

推特上各個大佬紛紛點贊。

圖片

Meta的田淵棟也直接表示:

“DeepSeek這真是把H800 hack了底朝天[捂臉]太夸張了??”

Andrej Kaparthy也再次贊揚Deepseek的技術(shù)報告值得一讀。

圖片

另外一個有意思的地方是,今天最重要的一些AI Infra創(chuàng)業(yè)公司的創(chuàng)始人們也對Deepseek V3 充滿好感。一個在推理側(cè)再次推動著創(chuàng)新并由此可以刺激市場需求的模型,自然是推理側(cè)的創(chuàng)業(yè)公司們需要和希望客戶們看到的。

硅基流動的袁進輝在朋友圈點評:

“DeepSeek V3 訓(xùn)練僅用了 2000 張H800,算力成本 6 百萬美元,給海外同行蠻大思想沖擊,很多業(yè)內(nèi)專家都點贊了,算力不是唯一決定因素,聰明的人加創(chuàng)新更讓人敬佩?!?/p>

Lepton的創(chuàng)始人賈揚清則在朋友圈和X同時點評了V3 給他帶來的思考。

?首先,現(xiàn)在我們正式進入了分布式推理的時代。一臺單GPU機器(80*8=640G)的顯存已經(jīng)裝不下參數(shù)了。新的大顯存機器確實能容納模型,但不管怎樣,為了性能和未來擴展,分布式推理是不可避免的選擇。

?即使在單個模型中,也需要關(guān)注 MoE 的負載均衡,因為每次推理只有大約5%的參數(shù)激活。目前還沒仔細研究這部分的工作負載細節(jié),但應(yīng)該會很有趣。

?論文中特別提到引入“redundant expert”的概念,正是為了解決這個問題。這已經(jīng)不是“一個模型多個副本”的問題,而是“每個模型子模塊都有多個副本”,然后獨立擴縮容。

?輸入token的盈利模式已經(jīng)很明確了。我個人推測,想讓輸出token變得盈利或至少收支平衡需要更多優(yōu)化。不過如果我們相信“軟件摩爾定律”(每 18 個月單token成本減半),這就不是問題。

? Tile或block級別的量化是必需的。這也和我們在 Lepton 的觀察一致。我們還支持基于輸入數(shù)據(jù)的動態(tài)量化(ahead-of-time dynamic quantization)。另外等硬件支持FP4 以后肯定還有不少可以玩的花樣。

?冷知識:FP4 乘法實際上就是個16* 16 的table lookup…

?論文提到,在很多情況下,內(nèi)存帶寬是瓶頸。很期待看看即將推出的NVIDIA新硬件形態(tài)(比如NVL72)能如何提升分布式推理的性能和便捷性。

“Exciting years.” 他說。

圖片

在V3 發(fā)布之前,Deepseek曾經(jīng)被海外知名的“爆料+深度分析”的技術(shù)博客又一次提到Deepseek,這個以芯片領(lǐng)域的一手信息著稱的博客已經(jīng)是對Deepseek最關(guān)注的海外分析師,但它似乎依然沒想到Deepseek的重要性并不在于與OpenAI們用比拼資源的方式比拼創(chuàng)新,在這篇文章中,Semianalysis“爆料”稱Deepseek已經(jīng)有很多很多的卡。但在V3 發(fā)布后,它所指向的方向看來并不如此。

你依然需要萬卡集群,但不是誰的卡多誰燒的錢多誰就理所應(yīng)當會贏得一切了。

有網(wǎng)友甚至戲稱:“想快進到Nvidia泡沫破裂的時刻”。

圖片

一切都在快速的展開。神話OpenAI們,尤其是以“卡”的名義神話然后看低中國開發(fā)者們自己的模型和Infra創(chuàng)新能力的階段看起來要結(jié)束了。當然,前提是你不是只想“跟著喊幾句”的創(chuàng)新,而是你真的做著

舉報

  • 相關(guān)推薦
  • AI日報:理想汽車AI大模型APP將上線;小米搭建GPU卡集群投入AI;Deepseek V3開源;ChatGPT搜索有被操縱風(fēng)險

    歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、理想汽車AI大模型APP即將上線!“理想同學(xué)”入駐手機,化身全能生活助手理想汽車的CEO李想在2024理想AITalk上宣布,‘理想同學(xué)’AI大模型APP將于12月27日正式上線。Gemini2.0引入了代理功能,Veo2改變了視頻內(nèi)容生成方式,Mariner項目改善了人機交互,LearnLM為教育提供個性化支持NotebookLM則幫助用戶更好地管理信息。

  • AI日報:百川智能金融大模型發(fā)布;ChatGPT新增跨對話記憶功能;DeepSeek模型一開發(fā)者將加盟小米;OpenAI最強推理模型o3

    歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、OpenAI發(fā)布o3:AI推理能力的重大突破,得分高達87.5%OpenAI最近推出了其最新的o-Model推理系列模型o3,標志著在數(shù)學(xué)和科學(xué)推理領(lǐng)域的重大進展。閃極還推出了一個吸引人的促銷活動,用戶在300天內(nèi)打卡200天可獲得全額退款。

  • 國產(chǎn)之光DeepSeek把AI大佬全炸出來了!671B大模型訓(xùn)練只需此前算力1/10,細節(jié)全公開

    DeepSeek新版模型正式發(fā)布,技術(shù)大佬們都轉(zhuǎn)瘋了!延續(xù)便宜大碗特點的基礎(chǔ)之上,DeepSeekV3發(fā)布即完全開源,直接用了53頁論文把訓(xùn)練細節(jié)和盤托出的那種。QLoRA一作的一個詞評價就是:優(yōu)雅。當然最后也確實幫上忙了賈揚清也再次感嘆:最最后,除了本次官方公布的測試結(jié)果,Imsys匿名競技場也出來提前預(yù)熱了。

  • OpenAI世界最貴大模型上熱搜:每月200美元 ChatGPT Pro擁有無限使用權(quán)

    OpenAI公司在“12天12場直播”活動的首秀中宣布了推理大模型o1的完整版本和進階模式,同時推出了每月200美元的ChatGPTPro訂閱服務(wù)。ChatGPTPlus用戶將逐步獲得完整版o1模型的使用權(quán)限,該模型以o1預(yù)覽版形式于9月上線,其特點在于回答用戶問題時會形成類似人類思維方式的內(nèi)部思維鏈條,提高回答專業(yè)問題時的準確性。OpenAI計劃未來為這一訂閱服務(wù)添加更多強大、計算密集型的功能。

  • 美團宣布為騎手發(fā)放5000萬元餐補!改善用餐難問題

    為了改善外賣騎手就餐貴、就餐難的現(xiàn)象,美團日前宣布聯(lián)合投入5000萬元補貼,用于騎手暖心餐供給。騎手可通過美團騎手App,進入【保障中心/騎手之家】,查看并領(lǐng)取騎手用餐專屬優(yōu)惠,暖心餐均價為10元,部分優(yōu)惠餐食價格將低至6元。當騎手App檢測到騎手工作時間過長時,起初會提示騎手休息,如果騎手沒有理會,最終會強制騎手下線并休息。

  • 400OpenAI員工迎股票套現(xiàn)機會 每人最多1000萬美元

    近期,約400名OpenAI的現(xiàn)任及前任員工即將迎來一筆意外之財數(shù)百萬美元的套現(xiàn)機會。這一舉動源自于舊金山的這家創(chuàng)新巨頭與日本軟銀集團達成的一項特殊股票回購協(xié)議。作為全球領(lǐng)先的風(fēng)險投資公司之一,軟銀一直在尋找具有潛力的科技公司進行投資OpenAI作為人工智能領(lǐng)域的佼佼者,自然成為了軟銀的目標之一。

  • 50000臺小鵬MONA M03量產(chǎn)下線:當前每72秒可生產(chǎn)一臺

    小鵬汽車官宣,今天迎來第五萬臺MONAM03量產(chǎn)下線,持續(xù)刷新新勢力純電下線速度紀錄,目前可以做到72秒生產(chǎn)一臺車,在新勢力車企中算比較快的造車速度。小鵬MONA系列首車M03于今年8月27日正式上市,起售價11.98萬元,徹底賣爆,9月份首月交付破萬輛,創(chuàng)下了新勢力純電轎車首月交付量紀錄。該車哨兵模式會在1月春節(jié)前上線,天璣系統(tǒng)期待”在第二季度上車,正在做非常多的細致的工作,包括Max版本、天璣系統(tǒng)、整個適合MONA的硬軟件新能力組合。

  • 500萬粉絲網(wǎng)紅收入超千萬:申報個稅竟未達5000元起征點 偷稅121萬元

    近年來,網(wǎng)紅偷稅、漏稅頻發(fā)。#網(wǎng)紅收入超千萬報稅竟未達5000元#話題登上微博熱搜榜第一,再次引發(fā)大家對類似事件的關(guān)注。今年5月21日,有多名百萬級網(wǎng)紅全平臺賬號被封號、禁言,除王紅權(quán)星外,其中就有柏公子,他們有一個共同特點:頻繁展示奢侈的生活方式,也就是炫富。

  • OpenAI發(fā)布最強模型o1滿血版!史上最貴訂閱費1450元/月

    在12天12場直播”活動首日,OpenAI推出了其最強推理模型o1滿血版本,同時宣布了史上最貴的訂閱服務(wù)ChatGPTPro,每月訂閱費用高達200美元。此次發(fā)布的滿血版o1模型在速度、性能和準確性上相較于預(yù)覽版有了顯著提升,同時新增了多模態(tài)輸入功能,允許用戶上傳圖片以獲得更準確的回答。如果是一名科學(xué)研究人員或程序員,且o1模型的推理能力不足以滿足需求,那么可以考慮氪金”進階模式。

  • Shopee 12.12生日大促收官,開場2分鐘即售出1,200萬件商品

    2024年12月16日,中國——東南亞領(lǐng)航電商平臺Shopee12.12生日大促圓滿落幕,開場僅2分鐘即售出1,200萬件商品,消費者在2小時內(nèi)領(lǐng)取超過2.36億張平臺優(yōu)惠券。借助大促的強勁勢頭,越來越多的中國品牌和賣家成功拓展東南亞及拉美市場?;谄煜氯蠛诵臉I(yè)務(wù):Shopee、Garena和SeaMoney,Sea集團致力于運用科技的力量改善當?shù)叵M者及中小企業(yè)的生活。

熱文

  • 3 天
  • 7天