**劃重點(diǎn):**
1. ?? Nemotron-4是英偉達(dá)最新的通用大模型,擁有150億參數(shù),在各語言和編碼任務(wù)中表現(xiàn)出色。
2. ?? 該模型采用Chinchilla模型的「縮放定律」,通過優(yōu)化計(jì)算預(yù)算、數(shù)據(jù)和模型大小實(shí)現(xiàn)性能提升。
3. ?? 在多領(lǐng)域下游評(píng)估中,Nemotron-415B超越同等參數(shù)規(guī)模的模型,甚至擊敗4倍大的模型,成為最強(qiáng)通用語言模型。
站長之家(ChinaZ.com)2月29日 消息:英偉達(dá)最新推出的Nemotron-4語言模型引起廣泛關(guān)注。這一通用大模型擁有150億參數(shù),經(jīng)過在8T token上的訓(xùn)練,在英語、多語言和編碼任務(wù)中表現(xiàn)出色。具體而言,Nemotron-4在7個(gè)評(píng)估基準(zhǔn)上的15B模型表現(xiàn)優(yōu)異,超越同等參數(shù)規(guī)模的模型,甚至擊敗了4倍大的模型。
該模型的設(shè)計(jì)靈感來自Chinchilla模型的「縮放定律」,該定律強(qiáng)調(diào)在給定固定計(jì)算預(yù)算的情況下,同時(shí)優(yōu)化數(shù)據(jù)和模型大小。與過去主要關(guān)注模型大小不同,這一研究強(qiáng)調(diào)將計(jì)算分配給更多數(shù)據(jù)的訓(xùn)練,以降低延遲和服務(wù)模型所需的計(jì)算量。因此,Nemotron-4的主要目標(biāo)是打造一個(gè)能在單個(gè)英偉達(dá)A100或H100GPU上運(yùn)行的最佳「通用大模型」。
在架構(gòu)方面,Nemotron-4采用了標(biāo)準(zhǔn)的純解碼器Transformer架構(gòu),并帶有因果注意掩碼。核心超參數(shù)包括32億個(gè)嵌入?yún)?shù)和125億個(gè)非嵌入?yún)?shù)。在數(shù)據(jù)方面,研究人員使用了包含8萬億個(gè)token的預(yù)訓(xùn)練數(shù)據(jù)集,分為英語自然語言數(shù)據(jù)(70%)、多語言自然語言數(shù)據(jù)(15%)和源代碼數(shù)據(jù)(15%)。
為了實(shí)現(xiàn)這一龐大模型的訓(xùn)練,Nemotron-4使用了384個(gè)DGX H100節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)包含8個(gè)英偉達(dá)H10080GB SXM5GPU。在16位浮點(diǎn)(bfloat16)算術(shù)下,每個(gè)GPU的峰值吞吐量為989teraFLOP/s。研究人員通過張量并行和數(shù)據(jù)并行的組合進(jìn)行訓(xùn)練,并使用了分布式優(yōu)化器。
在下游評(píng)估中,Nemotron-4在各領(lǐng)域均表現(xiàn)強(qiáng)勁,特別是在常識(shí)推理、熱門綜合基準(zhǔn)和數(shù)學(xué)、代碼任務(wù)上。該模型在多語言分類和生成任務(wù)中也實(shí)現(xiàn)了最佳性能,展現(xiàn)了其在不同語言的卓越理解能力。值得注意的是,Nemotron-4在機(jī)器翻譯任務(wù)中取得了顯著的進(jìn)展,不僅在中文翻譯成英文方面表現(xiàn)出色,而且在中文直接翻譯成其他語言方面也取得了印象深刻的效果。
Nemotron-4的推出標(biāo)志著英偉達(dá)在通用大模型領(lǐng)域的一次重要突破,為單個(gè)A100或H100GPU上運(yùn)行的最佳通用大模型設(shè)定了新標(biāo)準(zhǔn)。
論文地址:https://arxiv.org/abs/2402.16819
(舉報(bào))