幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

首頁 > 業(yè)界 > 關(guān)鍵詞  > DeepSeek最新資訊  > 正文

都在扒的DeepSeek團(tuán)隊(duì),是清北應(yīng)屆生撐起一片天

2025-01-05 10:19 · 稿源:量子位公眾號(hào)

聲明:本文來自于微信公眾號(hào) 量子位,作者:夢(mèng)晨 西風(fēng),授權(quán)站長(zhǎng)之家轉(zhuǎn)載發(fā)布。

DeepSeek-v3大模型橫空出世,以1/11算力訓(xùn)練出超過Llama3的開源模型,震撼了整個(gè)AI圈。

緊接著,“雷軍開千萬年薪挖DeepSeek研究員羅福莉”的傳聞,也使得人們把目光聚焦向DeepSeek的人才。

這下不只科技圈,全網(wǎng)都在好奇,連小紅書上都有人發(fā)帖詢問,這究竟是一只怎樣的團(tuán)隊(duì)?

圖片

國(guó)際上,也有人把創(chuàng)始人梁文鋒的訪談翻譯成英語,還加了注釋,試圖從中尋找這家公司崛起的蛛絲馬跡。

圖片

量子位整理各種資料發(fā)現(xiàn),DeepSeek團(tuán)隊(duì)最大的特點(diǎn)就是年輕

應(yīng)屆生、在讀生,特別是來自清北的應(yīng)屆生在其中非常活躍。

他們中的一些人,2024年一邊在DeepSeek搞研究,另一邊新鮮熱乎的博士學(xué)位論文剛評(píng)上獎(jiǎng)。

圖片

圖片

他們中有的參與了從DeepSeek LLM v1到DeepSeek-v3的全程,有的只是實(shí)習(xí)了一段時(shí)間也做出重要成果。

為DeepSeek提出MLA新型注意力、GRPO強(qiáng)化學(xué)習(xí)對(duì)齊算法等關(guān)鍵創(chuàng)新的,幾乎都是年輕人。

DeepSeek核心成員揭秘

2024年5月發(fā)布的DeepSeek-V2,是致使這家大模型公司破圈的關(guān)鍵一環(huán)。

其中最重要的創(chuàng)新是提出了一種新型注意力,在Transformer架構(gòu)的基礎(chǔ)上,用MLA(Multi-head Latent Attention)替代了傳統(tǒng)的多頭注意力,大幅減少了計(jì)算量和推理顯存。

圖片

在一眾貢獻(xiàn)者中,高華佐曾旺丁為MLA架構(gòu)做出了關(guān)鍵創(chuàng)新。

圖片

高華佐非常低調(diào),目前只知道是北大物理系畢業(yè)。

另外,在“大模型創(chuàng)業(yè)六小強(qiáng)”之一階躍星辰的專利信息中也可以看到這個(gè)名字,暫不確定是否是同一人。

圖片

而曾旺丁來自北郵,研究生導(dǎo)師是北郵人工智能與網(wǎng)絡(luò)搜索教研中心主任張洪剛。

圖片

DeepSeek-V2工作中還涉及到了另一項(xiàng)關(guān)鍵成果——GRPO。

DeepSeek-V2發(fā)布前三個(gè)月,DeepSeek-Math問世,其中提出了GRPO(Group Relative Policy Optimization)。

GRPO是PPO的一種變體RL算法,放棄了critic模型,而是從群體得分中估算baseline,顯著減少了訓(xùn)練資源的需求。

圖片

GRPO在圈內(nèi)得到廣泛關(guān)注,另一家國(guó)內(nèi)開源大模型阿里Qwen2.5的技術(shù)報(bào)告中也透露用到了GRPO。

圖片

DeepSeekMath有三位核心作者是在DeepSeek實(shí)習(xí)期間完成的工作。

圖片

核心作者之一邵智宏是清華交互式人工智能(CoAI)課題組博士生,師從黃民烈教授。

圖片

他的研究領(lǐng)域包括自然語言處理、深度學(xué)習(xí),特別對(duì)如何能構(gòu)建一個(gè)穩(wěn)健且可擴(kuò)展的AI系統(tǒng)感興趣,這個(gè)AI系統(tǒng)能利用多樣化的技能整合異構(gòu)信息,并能準(zhǔn)確回答各種復(fù)雜的自然語言問題。

邵智宏之前還曾在微軟研究院工作過。

DeepSeekMath之后,他還參與了DeepSeek-Prover、DeepSeek-Coder-v2、DeepSeek-R1等項(xiàng)目。

圖片

另一位核心作者朱琪豪是北大計(jì)算機(jī)學(xué)院軟件研究所2024屆博士畢業(yè)生,受熊英飛副教授和張路教授指導(dǎo),研究方向?yàn)樯疃却a學(xué)習(xí)。

據(jù)北大計(jì)算機(jī)學(xué)院官方介紹,朱琪豪曾發(fā)表CCF-A類論文16篇。在ASE和ESEC/FSE上分別獲得ACM SIGSOFT杰出論文獎(jiǎng)一次,提名一次。一篇論文進(jìn)入ESEC/FSE會(huì)議同年的引用前三名。

在DeepSeek團(tuán)隊(duì),朱琪豪還基于他的博士論文工作,主導(dǎo)開發(fā)了DeepSeek-Coder-V1。

其博士論文《語言定義感知的深度代碼學(xué)習(xí)技術(shù)及應(yīng)用》也入選了2024CCF軟件工程專業(yè)委員會(huì)博士學(xué)位論文激勵(lì)計(jì)劃。

圖片

圖源:北京大學(xué)計(jì)算機(jī)學(xué)院公眾號(hào)

還有一位核心作者同樣來自北大。

北大博士生Peiyi Wang,受北京大學(xué)計(jì)算語言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室穗志方教授指導(dǎo)。

圖片

除了DeepSeek-V2MLA、DeepSeekMath GRPO這兩項(xiàng)關(guān)鍵破圈成果,值得一提的是,還有一些成員從v1就加入其中,一直到v3。

代表人物之一代達(dá)勱,2024年博士畢業(yè)于北京大學(xué)計(jì)算機(jī)學(xué)院計(jì)算語言所,導(dǎo)師同樣是穗志方教授。

圖片

圖源:北京大學(xué)計(jì)算機(jī)學(xué)院公眾號(hào)

代達(dá)勱學(xué)術(shù)成果頗豐,曾獲EMNLP2023最佳長(zhǎng)論文獎(jiǎng)、CCL2021最佳中文論文獎(jiǎng),在各大頂會(huì)發(fā)表學(xué)術(shù)論文20篇+。

2024年中國(guó)中文信息學(xué)會(huì)“博士學(xué)位論文激勵(lì)計(jì)劃”共入選10篇來自中國(guó)大陸高校的博士畢業(yè)論文,其中就有他的《預(yù)訓(xùn)練語言模型知識(shí)記憶的機(jī)理分析及能力增強(qiáng)關(guān)鍵技術(shù)研究》。

以及北大元培學(xué)院的王炳宣。

圖片

王炳宣來自山東煙臺(tái),2017年進(jìn)入北大。

碩士畢業(yè)加入DeepSeek,參與了從DeepSeek LLM v1開始的一系列重要工作。

清華這邊的代表人物還有趙成鋼。

趙成鋼此前是衡水中學(xué)信息學(xué)競(jìng)賽班成員,CCF NOI2016銀牌得主。

之后趙成鋼進(jìn)入清華,大二時(shí)成為清華學(xué)生超算團(tuán)隊(duì)正式成員,三次獲得世界大學(xué)生超算競(jìng)賽冠軍。

趙成鋼在DeepSeek擔(dān)任訓(xùn)練/推理基礎(chǔ)架構(gòu)工程師,有英偉達(dá)實(shí)習(xí)經(jīng)歷。

圖片

圖源:清華新聞網(wǎng)

DeepSeek是一支怎樣的團(tuán)隊(duì)

這些鮮活的個(gè)體,足以引發(fā)人們的贊嘆。

但還不足以回答最初的問題,DeepSeek到底是一支怎樣的團(tuán)隊(duì)?有怎樣的組織架構(gòu)?

答案或許還要從創(chuàng)始人梁文鋒身上找。

早在2023年5月,DeepSeek剛剛宣布下場(chǎng)做大模型,還沒發(fā)布成果的時(shí)候,梁文鋒在接受36氪旗下「暗涌」采訪時(shí)透露過招人標(biāo)準(zhǔn)。

看能力,而不是看經(jīng)驗(yàn)。

我們的核心技術(shù)崗位,基本以應(yīng)屆和畢業(yè)一兩年的人為主。

從后面一年多陸續(xù)發(fā)表的論文貢獻(xiàn)名單中也可以看出,確實(shí)如此,博士在讀、應(yīng)屆以及畢業(yè)一兩年的成員占很大一部分。

即使是團(tuán)隊(duì)leader級(jí)別也偏年輕化,以畢業(yè)4-6年的為主。

例如領(lǐng)導(dǎo)DeepSeek的后訓(xùn)練團(tuán)隊(duì)的吳俁,2019年北航博士畢業(yè)、在微軟MSRA參與過小冰和必應(yīng)百科項(xiàng)目。

圖片

吳俁博士期間接受北航李舟軍教授和MSRA前副院長(zhǎng)周明博士的聯(lián)合培養(yǎng)。

與他師出半個(gè)同門的是郭達(dá)雅,中山大學(xué)印鑒教授與MSRA周明博士聯(lián)合培養(yǎng),2023年博士畢業(yè)。

2024年7月他加入DeepSeek,主要參與了一系列數(shù)學(xué)和代碼大模型的工作。

郭達(dá)雅上學(xué)期間還有一項(xiàng)事跡,本科期間在MSRA實(shí)習(xí)一年里發(fā)表兩篇頂會(huì)論文,他笑稱“在剛?cè)雽W(xué)的第三天,就完成了中大博士生的畢業(yè)要求?!?/p>

圖片

除了團(tuán)隊(duì)成員年輕化之外,DeepSeek在國(guó)內(nèi)AI公司中突出的特點(diǎn):非常重視模型算法和硬件工程的配合。

DeepSeek v3論文總共200位作者,并不都是負(fù)責(zé)AI算法或數(shù)據(jù)。

有這樣一批人從早期的DeepSeek LLM v1到v3一直都在參與,他們更多偏向算力的部分,負(fù)責(zé)優(yōu)化硬件。

他們以DeepSeek AI的名義發(fā)表了論文《Fire-Flyer AI-HPC》,通過軟硬件協(xié)同設(shè)計(jì)降低訓(xùn)練成本,解決傳統(tǒng)超算架構(gòu)在AI訓(xùn)練需求上的不足。

Fire-Flyer也就是幻方AI搭建的螢火2號(hào)萬卡集群,使用英偉達(dá)A100GPU,卻做到相比英偉達(dá)官方的DGX-A100服務(wù)器有成本和能耗的優(yōu)勢(shì)。

這支團(tuán)隊(duì)中有的人在英偉達(dá)工作或?qū)嵙?xí)過,有的來自同在杭州的阿里云,也有許多人從幻方AI借調(diào)又或干脆轉(zhuǎn)崗到DeepSeek,參與了每一項(xiàng)大模型工作。

而如此重視軟硬件協(xié)同的成果,就是以Llama3405B的1/11算力,訓(xùn)練出性能更高的DeepSeek-v3了。

圖片

最后,我們還發(fā)現(xiàn)DeepSeek開源項(xiàng)目中有一個(gè)特別的存在,不是語言模型相關(guān)工作,卻是3D生成相關(guān)。

這項(xiàng)成果由清華博士生孫景翔在DeepSeek實(shí)習(xí)期間,與導(dǎo)師劉燁斌以及DeepSeek成員合作完成。

圖片

像這樣實(shí)習(xí)生在DeepSeek做出重要成果的還有中山大學(xué)邏輯學(xué)專業(yè)的辛華劍。

他在DeepSeek實(shí)習(xí)期間參與了用大模型證明數(shù)學(xué)定理的DeepSeek-Prover,現(xiàn)在在愛丁堡大學(xué)讀博士。

圖片

看過這些例子,再一次回到梁文鋒的訪談,或許更能理解這只團(tuán)隊(duì)的運(yùn)作結(jié)構(gòu)。

  • 不做前置的崗位分工,而是自然分工

  • 每個(gè)人對(duì)于卡和人的調(diào)動(dòng)是不設(shè)上限的,每個(gè)人可以隨時(shí)調(diào)用訓(xùn)練集群,只要幾個(gè)人都有興趣就可以開始一個(gè)項(xiàng)目

  • 當(dāng)一個(gè)idea顯示出潛力,也會(huì)自上而下地去調(diào)配資源。

這難免讓人想起AI界另一家不可忽視的力量,沒錯(cuò)就是OpenAI。

同樣的用人不看經(jīng)驗(yàn),本科生、輟學(xué)生只要有能力照樣招進(jìn)來。

同樣的重用新人,應(yīng)屆生與00后可以調(diào)動(dòng)資源從無到有研究Sora。

同樣的面對(duì)潛力方向,整個(gè)公司從頂層開始設(shè)計(jì)布局和資源推動(dòng)。

DeepSeek,可能是組織形態(tài)上最像OpenAI的一家中國(guó)AI公司了。

參考鏈接:

[1]https://mp.weixin.qq.com/s/Cajwfve7f-z2Blk9lnD0hA

[2]https://mp.weixin.qq.com/s/r9zZaEgqAa_lml_fOEZmjg

[3]https://mp.weixin.qq.com/s/9AV6Qrm_1HAK1V3t1MZXOw

[4]https://mp.weixin.qq.com/s/y4QwknL7e2Xcnk19LocR4A

[5]https://mp.weixin.qq.com/s/C9sYYQc6e0EAPegLMd_LVQ

舉報(bào)

  • 相關(guān)推薦

熱文

  • 3 天
  • 7天