快科技1月12日消息,據(jù)媒體報道,DeepSeek作為開年AI領(lǐng)域的重大突破,以其國產(chǎn)之光”的新形象震撼了海內(nèi)外科技界。這家AI創(chuàng)業(yè)企業(yè)以其獨特的團隊構(gòu)成和卓越的技術(shù)成就,成為了業(yè)界關(guān)注的焦點。
從公開資料來看,DeepSeek的團隊規(guī)模雖小,但實力不容小覷。其創(chuàng)始人梁文鋒領(lǐng)導(dǎo)的團隊僅有139名工程師和研究人員,相比之下,OpenAI擁有1200名研究人員,Anthropic也有500多名。
然而,DeepSeek憑借一系列吸睛的標(biāo)簽,如未尋求外部融資”、創(chuàng)始人囤卡富翁”、團隊成員均為清北等名校畢業(yè)生”等,成功在AI創(chuàng)業(yè)圈中嶄露頭角。
2024年12月,DeepSeek發(fā)布了最新的V3開源模型,該模型在評測中表現(xiàn)出色,不僅超越了阿里自研的Qwen2.5-72B和Meta自研的Llama 3.1-405B等頂級開源模型,甚至能與GPT-4o、Claude 3.5-Sonnet等頂級閉源模型相媲美。
值得注意的是,DeepSeek V3大模型發(fā)布后便完全開源,且其訓(xùn)練成本遠低于同類模型。據(jù)SemiAnalysis數(shù)據(jù)顯示,OpenAI GPT-4的訓(xùn)練成本高達6300萬美元,而DeepSeek-V3的成本僅為其十分之一不到。
此外,DeepSeek V3模型的訓(xùn)練是在2000塊英偉達H800 GPU上完成的,這一數(shù)量遠低于硅谷大廠普遍使用的幾十萬塊更高性能的GPU。這一成就打破了算力芯片對國產(chǎn)大模型的限制瓶頸,為創(chuàng)業(yè)團隊提供了新的解法:即便在算力有限的情況下,使用高質(zhì)量數(shù)據(jù)和更好的算法,同樣能訓(xùn)練出高性能大模型。
OpenAI創(chuàng)始團隊成員Andrej Karpathy發(fā)帖贊嘆:DeepSeek-V3性能高過Llama3最強模型,且耗費資源僅十分之一,未來或許不需要超大規(guī)模的GPU集群了”。
Meta科學(xué)家田淵棟驚嘆道:FP8預(yù)訓(xùn)練、MoE、預(yù)算非常有限的強大性能、從CoT中提取以進行引導(dǎo)哇!這是偉大的工作!”
DeepSeek的創(chuàng)始人梁文鋒對硅谷的驚嘆并不感到意外。他認(rèn)為,這是因為DeepSeek作為一個中國公司,正在以創(chuàng)新貢獻者的身份加入到全球AI技術(shù)的競爭中。他指出,中國需要逐步成為技術(shù)的貢獻者,而不是一直依賴西方的創(chuàng)新成果。
梁文鋒還強調(diào)了中國AI發(fā)展需要建立自己的技術(shù)生態(tài),就像西方主導(dǎo)的技術(shù)社區(qū)一代代創(chuàng)造出了摩爾定律和Scaling Law一樣。他認(rèn)為,很多國產(chǎn)芯片發(fā)展不起來,正是因為缺乏配套的技術(shù)社區(qū)和前沿技術(shù)的參與。
公開資料顯示,DeepSeek的母公司幻方量化是一家量化基金起家的企業(yè),與DeepSeek的用人風(fēng)格相似,均注重本土人才。DeepSeek在AI產(chǎn)品正式亮相前,曾長時間內(nèi)部孵化該產(chǎn)品,并招聘文科人才提供相關(guān)知識來源。這一獨特的歷程使得DeepSeek在AI領(lǐng)域獨樹一幟,成為中國AI技術(shù)創(chuàng)新的佼佼者。
(舉報)