顯卡可能沒那么重要了？中國公司給硅谷好好上了一課。

2025-01-03 08:51 · 稿源： ?差評X.PIN公眾號

聲明:本文來自于微信公眾號差評X.PIN，作者:差評君，授權(quán)站長之家轉(zhuǎn)載發(fā)布。

我是萬萬沒想到，就在西方還沉浸在圣誕假期，瘋狂“過年”的時候，咱們中國企業(yè)給人家放了個新年二踢腳，給人家腦瓜子崩得嗡嗡得。

前有宇樹科技的機(jī)器狗視頻讓大家驚呼，還要啥波士頓動力。

緊接著又來了個國產(chǎn)大模型 DeepSeek，甚至有股做空英偉達(dá)的味道。

具體咋回事兒，咱給你嘮明白咯。

前幾天，DeepSeek剛剛公布最新版本V3，注意，與大洋彼岸那個自稱 Open ，卻越來越 Close 的公司產(chǎn)品不同，這個 V3是開源的。

不過開源還不是他最重要的標(biāo)簽，DeepSeek-V3（以下簡稱V3）還兼具了性能國際一流，技術(shù)力牛逼，價格擊穿地心三個特點(diǎn)，這一套不解釋連招打得業(yè)內(nèi)大模型廠商們都有點(diǎn)暈頭轉(zhuǎn)向了。

V3一發(fā)布， OpenAI 創(chuàng)始成員 Karpathy 直接看嗨了，甚至發(fā)出了靈魂提問，難道說大模型們壓根不需要大規(guī)模顯卡集群?

我估計老黃看到這頭皮都得發(fā)麻了吧。

同時， Meta 的 AI 技術(shù)官也是直呼DeepSeek 的成果偉大。

知名 AI 評測博主 Tim Dettmers ，直接吹起來了，表示 DeepSeek 的處理優(yōu)雅“elegant”。

而在這些技術(shù)出身的人，看著 V3的成績送去贊揚(yáng)的時候，也有些人急了。

比如奧特曼就擱那說，復(fù)制比較簡單啦，很難不讓人覺得他在內(nèi)涵 DeepSeek 。

更有意思的是，做到這些的公司既不是什么大廠，也不是純血 AI 廠商。

DeepSeek 公司中文名叫深度求索，他們本來和 AI 沒任何關(guān)系。

就在大模型爆火之前，他們其實是私募機(jī)構(gòu)幻方量化的一個團(tuán)隊。

而深度求索能夠?qū)崿F(xiàn)彎道超車，既有點(diǎn)必然，也好像有點(diǎn)運(yùn)氣的意思。

早在2019年，幻方就投資2億元搭建了自研深度學(xué)習(xí)訓(xùn)練平臺“螢火蟲一號”，到了2021年已經(jīng)買了足足1萬丈英偉達(dá) A100顯卡的算力儲備了。

超級計算機(jī) 數(shù)據(jù)中心 (1)

圖源備注：圖片由AI生成，圖片授權(quán)服務(wù)商Midjourney

要知道，這個時候大模型沒火，萬卡集群的概念更是還沒出現(xiàn)。

而正是憑借這部分硬件儲備，幻方才拿到了 AI 大模型的入場券，最終卷出了現(xiàn)在的 V3。

你說好好的一個量化投資領(lǐng)域的大廠，干嘛要跑來搞 AI 呢?

深度求索的 CEO 梁文鋒在接受采訪的時候給大家聊過，并不是什么看中 AI 前景。

而是在他們看來，“通用人工智能可能是下一個最難的事之一”，對他們來說，“這是一個怎么做的問題，而不是為什么做的問題?！?/p>

就是抱著這么股“莽”勁，深度求索才搞出了這次的大新聞，下面給大家具體講講 V3有啥特別的地方。

首先就是性能強(qiáng)悍，目前來看，在 V3面前，開源模型幾乎沒一個能打的。

還記得去年年中，小扎的Meta推出模型Llama3.1，當(dāng)時就因為性能優(yōu)秀而且開源，一時間被捧上神壇，結(jié)果在V3手里，基本是全面落敗。

而在各種大廠手里的閉源模型，那些大家耳熟能詳?shù)氖裁?GPT-4o 、 Claude3.5Sonnet 啥的， V3也能打得有來有回。

你看到這，可能覺得不過如此，也就是追上了國際領(lǐng)先水平嘛，值得這么吹嗎?

殘暴的還在后面。

大家大概都知道了，現(xiàn)在的大模型就是一個通過大量算力，讓模型吃各種數(shù)據(jù)的煉丹過程。

在這個煉丹期，需要的是大量算力和時間往里砸。

所以在圈子里有了一個新的計量單位“GPU 時”，也就是用了多少塊 GPU 花了多少個小時的訓(xùn)練時間。

GPU 時越高，意味著花費(fèi)的時間、金錢成本就越高，反之就物美價廉了。

前面說的此前開源模型王者， Llama3.1405B ，訓(xùn)練周期花費(fèi)了3080萬 GPU 時。

可性能更強(qiáng)的 V3，只花了不到280萬 GPU 時。

以錢來換算， DeepSeek 搞出 V3版本，大概只花了4000多萬人民幣。

而 Llama3.1405B 的訓(xùn)練期間， Meta 光是在老黃那買了16000多個 GPU ，保守估計至少都花了十幾億人民幣。

至于另外的那幾家閉源模型，動輒都是幾十億上百億大撒幣的。

你別以為 DeepSeek 靠的是什么歪門邪道，人家是正兒八經(jīng)的有技術(shù)傍身的。

為了搞清楚 DeepSeek 的技術(shù)咋樣，咱們特地聯(lián)系了語核科技創(chuàng)始人兼 CTO 池光耀，他們主力發(fā)展企業(yè)向的 agent 數(shù)字人，早就是 DeepSeek 的鐵粉了。

池光耀告訴我們，這次V3的更新主要是3個方面的優(yōu)化，分別是通信和顯存優(yōu)化、推理專家的負(fù)載均衡以及FP8混合精度訓(xùn)練。

各個部分怎么實現(xiàn)的咱也就不多說了，總體來說，大的整體結(jié)構(gòu)沒啥變化，更多的像是咱們搞基建的那一套傳統(tǒng)藝能，把工程做得更高效、更合理了。

首先，V3通過通信和顯存優(yōu)化，極大幅度減少了資源空閑率，提升了利用效率。

而推理專家（具備推理能力的 AI 系統(tǒng)或算法，能夠通過數(shù)據(jù)分析得出結(jié)論）的負(fù)載均衡就更巧妙了，一般的大模型，每次啟動，必須把所有專家都等比例放進(jìn)工位(顯存)，但真正回答用戶問題時，十幾個專家里面只用到一兩個，剩下的專家占著工位(顯存)摸魚，也干不了別的事情。

而DeepSeek把專家分成熱門和冷門兩種，熱門的專家，復(fù)制一份放進(jìn)顯存，處理熱門問題;冷門的專家也不摸魚，總是能被分配到問題。

FP8混合精度訓(xùn)練則是在之前被很多團(tuán)隊嘗試無果的方向上拓展了新的一步，通過降低訓(xùn)練精度以降低訓(xùn)練時算力開銷，但卻神奇地保持了回答質(zhì)量基本不變。

也正是這些技術(shù)上的革新，才得到了大模型圈的一致好評。

通過一直以來的技術(shù)更新迭代， DeepSeek 收獲的回報也是相當(dāng)驚人的。

他們 V3版本推出后，他們的價格已經(jīng)是低到百萬次幾毛錢、幾塊錢。

他們甚至還在搞了個新品促銷活動，到明年2月8號之前，在原來低價的基礎(chǔ)上再打折。

而一開始提到同樣開源的 Claude3.5Sonnet ，每百萬輸入輸出，至少都得要幾十塊以上。。。

更要命的是，這對 DeepSeek 來說已經(jīng)是常規(guī)套路了。

早在去年初，DeepSeek V2模型發(fā)布后，就靠著一手低價，被大家叫做了AI界拼多多。

他們還進(jìn)一步引發(fā)了國內(nèi)大模型公司的價格戰(zhàn)，諸如智譜、字節(jié)、阿里、百度、騰訊等大廠紛紛降價。

池光耀也告訴我們，他們公司早在去年6、7月份就開始用上了 DeepSeek ，當(dāng)時也有國內(nèi)其他一些大模型廠商來找過他們。

但和DeepSeek價格差不多的，模型“又太笨了，跟DeepSeek不在一個維度”;如果模型能力和 DeepSeek 差不多，那個價格“基本都是10倍以上”。

更夸張的是，由于技術(shù)“遙遙領(lǐng)先”帶來的降本增效，哪怕DeepSeek賣得這么便宜，根據(jù)他們創(chuàng)始人梁文峰所說，他們公司還是賺錢的。。。是不是有種隔壁比亞迪搞998，照樣財報飄紅的味道了。

不過對于我們普通用戶來說， DeepSeek 似乎也有點(diǎn)偏門了。

因為他的強(qiáng)項主要是在推理、數(shù)學(xué)、代碼方向，而多模態(tài)和一些娛樂化的領(lǐng)域不是他們的長處。

而且眼下，盡管 DeepSeek 說自己還是賺錢的，但他們團(tuán)隊上上下下都有股極客味，所以他們的商業(yè)化比起其他廠商就有點(diǎn)弱了。

但不管怎么說， DeepSeek 的成功也證明了，在 AI 這個賽道還存在的更多的可能。

按以前的理解，想玩轉(zhuǎn) AI 后面沒有個金主爸爸砸錢買顯卡，壓根就玩不轉(zhuǎn)。

但現(xiàn)在看起來，掌握了算力并不一定就是掌握了一切。

我們不妨期待下未來，更多的優(yōu)化出現(xiàn)，讓更多的小公司、初創(chuàng)企業(yè)都能進(jìn)入 AI 領(lǐng)域，差評君總感覺，那才是真正的 AI 浪潮才對。

（舉報）

相關(guān)推薦

關(guān)鍵詞：

顯卡

薦貼身追隨OpenAI的中國公司，從智譜換成了月之暗面

大洋彼岸的OpenAI系列春晚還在繼續(xù)，連續(xù)發(fā)布會的第9天，OpenAI正式發(fā)布了o1模型的API。對已發(fā)布的圣誕季特別功能們略作盤點(diǎn):滿血版o1模型VSChatGPTPro訂閱計劃、年初引爆全球的鴿王——視頻生成模型Sora全面開放、全新Canvas寫作功能、ChatGPT正式接入蘋果全家桶、GPT-4o的視頻通話和屏幕共享功能，重構(gòu)AI協(xié)作模式的復(fù)雜項目Projects……這些發(fā)布與過往OpenAI一次次的模型更新相比，?

?OpenAI ?o1模型 ?ChatGPT
育碧想把自己賣給騰訊！但又不想被中國公司控制

育碧這幾年越混越差，不得不關(guān)閉了大量服務(wù)器、單機(jī)游戲，并裁員超過250人在考慮把自己賣給騰訊，但又有自己的小心思。騰訊目前持有育碧大約10％的股份，是僅次于創(chuàng)始人Guillemot家族之外的第二大股東，但似乎從未考慮更多持股，更別提全盤收購。騰訊的計劃是耐心等待，一切都要看Guillemot家族的態(tài)度。

?育碧 ?騰訊收購 ?游戲產(chǎn)業(yè)
薦年包70萬挖人、出海精準(zhǔn)撒錢，中國公司與Sora短兵相接

過去10個月，是中國公司集體狙擊Sora的10個月，為此，他們高薪挖人、出海撒錢投放。近日Sora的正式開放也讓不少人松了一口氣，“已經(jīng)不再那么驚艷了”。（注:應(yīng)受訪對象要求，文中采用化名。

?AI視頻生成 ?騰訊混元大模型 ?國內(nèi)互聯(lián)網(wǎng)大廠
納秒級寫入、超萬億次擦寫！中國公司實現(xiàn)SOT-MRAM存儲關(guān)鍵突破

快科技12月26日消息，據(jù)媒體報道，在國際微電子領(lǐng)域頂級學(xué)術(shù)會議IEDM第70屆年度會議上，來自中國的浙江馳拓科技發(fā)布了一項突破性的SOT-MRAM（自旋軌道矩磁性隨機(jī)存取存儲器）技術(shù)進(jìn)展，解決了該技術(shù)在大規(guī)模生產(chǎn)中面臨的主要挑戰(zhàn)。馳拓科技首次提出了適合大規(guī)模制造的無軌道垂直型SOT-MRAM器件結(jié)構(gòu)，顯著降低了SOT-MRAM工藝流程的復(fù)雜性和難度，并從原理上提升了器件良率。該結(jié)構(gòu)的創(chuàng)新之處在于將MTJ直接放置在兩個底部電極之間，并允許過刻蝕，從而大幅度增加了刻蝕窗口，降低了刻蝕過程的難度。這一突破性設(shè)計使得12英寸晶圓上SOT-MRAM?

?微電子 ?SOT-MRAM ?浙江馳拓科技
長安汽車董事長朱華榮：2024年被小米雷軍上了一課

快科技12月30日消息，日前，長安汽車舉辦2025長安汽車全球伙伴大會。會上，長安汽車董事長朱華榮表示：小米汽車最新公布的銷量數(shù)據(jù)，關(guān)注度是我們平常車企的40倍。40倍是什么概念，就是我要去講40遍，才能達(dá)到它的聲量和關(guān)注度，所以我們必須轉(zhuǎn)型。朱華榮進(jìn)一步介紹道：長安汽車轉(zhuǎn)型后，效果也是非常明顯的，長安汽車現(xiàn)在這個領(lǐng)域的聲量，已經(jīng)提升了100倍。2024年是?

?長安汽車 ?銷量增長 ?汽車轉(zhuǎn)型
小米總裁盧偉冰分享考研經(jīng)驗稱今年應(yīng)該比較好上岸

2025年全國碩士研究生招生考試將于2024年12月21日至22日舉行。小米集團(tuán)總裁盧偉冰發(fā)布視頻稱，作為有一些備考經(jīng)驗的山東人，他向考生分享了三點(diǎn)備考經(jīng)驗，希望對大家有所幫助?？炜萍甲ⅲ荷习丁敝缚忌鷧⒓庸珓?wù)員、事業(yè)編考試或考取碩博士研究生被錄取。

?考研 ?備考經(jīng)驗 ?碩士招生
薦Sora終于來了，但卷王可靈已經(jīng)「拍」上了AI電影

輪到名導(dǎo)們下場整活了。短片一開場就相當(dāng)震撼:鐘馗手持一把斬鬼劍，穿行在一片烏漆麻黑、虬枝盤曲的密林中。相信幾年之后，AI將制作出非常有水準(zhǔn)的電影大作。

?Sora
你達(dá)標(biāo)沒！中國住戶存款一年增加16.6萬億元 10城人均存款超15萬

據(jù)國內(nèi)媒體報道稱，近期發(fā)布的中國統(tǒng)計年鑒2024中，公布了全國36個重點(diǎn)城市2023年的住戶存款余額情況，其中22座城市住戶存款余額超過萬億元。有29座城市人均住戶存款水平超越了全國平均線，其中，北京、上海人均存款余額超過20萬元?，F(xiàn)在問題就來了，你跑贏了上述平均數(shù)沒？

?住戶存款 ?重點(diǎn)城市 ?經(jīng)濟(jì)活躍度
數(shù)字化時代的教育革新：猿輔導(dǎo)素養(yǎng)課如何通過AI提升素養(yǎng)教育

在當(dāng)今數(shù)字化時代，技術(shù)的迅速發(fā)展深刻地影響著我們生活的方方面面，教育領(lǐng)域亦不例外。傳統(tǒng)的教學(xué)模式已逐漸無法滿足時代的需求，創(chuàng)新與變革成為教育發(fā)展的新方向。猿輔導(dǎo)作為教育科技的先鋒，積極探索并推出了全新的素養(yǎng)課程，旨在激發(fā)學(xué)生的底層學(xué)習(xí)力，以適應(yīng)快速變化的世界。當(dāng)今學(xué)生面臨的信息爆炸，知識更新的加速，使得傳統(tǒng)的教學(xué)方式難以保證其學(xué)習(xí)?

?教育科技 ?創(chuàng)新教學(xué) ?素養(yǎng)課程
升學(xué)e網(wǎng)通網(wǎng)課效果如何？學(xué)習(xí)利器，成就升學(xué)之路

總聽同學(xué)們抱怨高中數(shù)學(xué)真的好難啊，突然發(fā)現(xiàn)語文好像也沒放過大家！你是否總感覺語文成績的提升就像攀登一座高山，望也望不到頂？以上就是語文學(xué)科學(xué)習(xí)經(jīng)驗的分享啦～TA的提升相較其他學(xué)科是一個相對漫長的過程，但真正讓你突破的力量就藏在一點(diǎn)一滴的堅持里！

?高中語文 ?語文學(xué)習(xí)技巧 ?語言理解能力

熱文

3 天
7天

站長商機(jī)

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

顯卡可能沒那么重要了？中國公司給硅谷好好上了一課。

薦貼身追隨OpenAI的中國公司，從智譜換成了月之暗面

育碧想把自己賣給騰訊！但又不想被中國公司控制

薦年包70萬挖人、出海精準(zhǔn)撒錢，中國公司與Sora短兵相接

納秒級寫入、超萬億次擦寫！中國公司實現(xiàn)SOT-MRAM存儲關(guān)鍵突破

長安汽車董事長朱華榮：2024年被小米雷軍上了一課

小米總裁盧偉冰分享考研經(jīng)驗稱今年應(yīng)該比較好上岸

薦Sora終于來了，但卷王可靈已經(jīng)「拍」上了AI電影

你達(dá)標(biāo)沒！中國住戶存款一年增加16.6萬億元 10城人均存款超15萬

數(shù)字化時代的教育革新：猿輔導(dǎo)素養(yǎng)課如何通過AI提升素養(yǎng)教育

升學(xué)e網(wǎng)通網(wǎng)課效果如何？學(xué)習(xí)利器，成就升學(xué)之路

熱文

蘋果市值一夜蒸發(fā)7248億此前官網(wǎng)已開啟降價活動

雷軍親自出面海底撈正式入駐小米科技園全體員工88折

辛巴要花15億開超市：號稱將改變大家消費(fèi)習(xí)慣

周鴻祎：打工不可能賺大錢創(chuàng)業(yè)才能財富自由

法拉第未來股價一夜暴漲超50% 第二品牌FX原型車即將亮相

胖東來正式規(guī)定員工不得收付彩禮、依靠父母買房買車

1999元全球首款媽祖平安智能手表發(fā)布：搭載華為智能機(jī)芯

抖音宣布將加強(qiáng)內(nèi)容推薦多樣性破除“信息繭房”

周鴻祎：我也要送車什么車大家算了算

格力申請董瓷、明珠瓷和格力好老公等商標(biāo)

雷軍辟謠只招聘35歲以下員工：僅針對未來之星項目

雷軍曬健身房照片：此前設(shè)定100次健身打卡目標(biāo)

雷軍感謝網(wǎng)友祝他年入百萬：愿大家夢想成真今晚8點(diǎn)跨年直播

阿里巴巴AI“生意管家”: 400萬商家的秘密武器

蘋果市值一夜蒸發(fā)7248億此前官網(wǎng)已開啟降價活動

拼手氣分紅包！支付寶宣布2025年集五福1月20日開啟

抖音副總裁回應(yīng)吳柳芳同名賬號被封：仿冒當(dāng)事人

董明珠曾喊話雷軍給股民分多少錢！格力：擬分紅超55億

蘋果官網(wǎng)突然降價客服回應(yīng)能否退差價

俞敏洪稱東方甄選是火藥桶：未來一定會更加美好

站長商機(jī)

顯卡可能沒那么重要了？中國公司給硅谷好好上了一課。

熱文

站長商機(jī)

顯卡可能沒那么重要了？中國公司給硅谷好好上了一課。