**劃重點(diǎn):**
1. ?? Nemotron-415B擁有150億參數(shù),基于8萬億文本標(biāo)注數(shù)據(jù)預(yù)訓(xùn)練,在多領(lǐng)域測(cè)試中超越同類大小的開源模型,尤其在代碼語言準(zhǔn)確率上表現(xiàn)出色。
2. ??采用標(biāo)準(zhǔn)Transformer架構(gòu),結(jié)合自注意力、全局注意力和多頭注意力等機(jī)制,以及旋轉(zhuǎn)位置編碼技術(shù),提升模型表達(dá)和泛化能力。
3. ?? 利用384個(gè)DGX H100節(jié)點(diǎn),每節(jié)點(diǎn)搭載8個(gè)NVIDIA Hopper架構(gòu)的H10080GB SXM5GPU,采用8路張量并行和數(shù)據(jù)并行的組合,以及分布式優(yōu)化器進(jìn)行分片。
站長(zhǎng)之家(ChinaZ.com)3月7日 消息:英偉達(dá)最新推出的大型語言模型Nemotron-415B,以其卓越性能和創(chuàng)新架構(gòu)引起廣泛關(guān)注。該模型擁有150億參數(shù),基于龐大的8萬億文本標(biāo)注數(shù)據(jù)進(jìn)行了預(yù)訓(xùn)練。
在多領(lǐng)域測(cè)試中,Nemotron-415B在7個(gè)領(lǐng)域中的4個(gè)表現(xiàn)優(yōu)異,超越了同類大小的開源模型。特別值得注意的是,在代碼語言方面,Nemotron-415B展現(xiàn)出更高的準(zhǔn)確率,尤其在資源稀缺的編程語言上超過了Starcoder和Mistral7B等模型。
該模型采用了標(biāo)準(zhǔn)的Transformer架構(gòu),包括多頭自注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò)。其獨(dú)特之處在于,Nemotron-415B結(jié)合了自注意力和全局注意力機(jī)制,以更好地理解輸入序列內(nèi)部的依賴關(guān)系和輸入序列與輸出序列之間的對(duì)應(yīng)關(guān)系。多頭注意力的引入進(jìn)一步提高了模型的表達(dá)能力和泛化能力。
在訓(xùn)練過程中,研究人員充分利用了384個(gè)DGX H100節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)搭載8個(gè)基于NVIDIA Hopper架構(gòu)的H10080GB SXM5GPU。通過8路張量并行和數(shù)據(jù)并行的組合,以及分布式優(yōu)化器進(jìn)行分片,成功完成了Nemotron-415B的訓(xùn)練。
Nemotron-415B在英語、數(shù)學(xué)推理、多語言分類和代碼等多個(gè)測(cè)試任務(wù)中表現(xiàn)出色,不僅在性能上超越了LLaMA-234B和Mistral7B,在廣泛的代碼語言中也取得了更高的準(zhǔn)確率。這一成就為大型語言模型的發(fā)展和應(yīng)用提供了嶄新的視角。
技術(shù)報(bào)告https://arxiv.org/abs/2402.16819
(舉報(bào))