站長之家(ChinaZ.com) 10月12日消息:據(jù)微軟官網(wǎng)發(fā)布的博客文章顯示,微軟和英偉達(dá)宣布了由 DeepSpeed 和 Megatron 驅(qū)動(dòng)的 Megatron-Turing 自然語言生成模型(MT-NLG),這是迄今為止訓(xùn)練的最大和最強(qiáng)大的解碼語言模型。
據(jù)介紹,這個(gè)模型包括5300億個(gè)參數(shù),與現(xiàn)有最大的模型GPT-3相比,參數(shù)數(shù)量是其3倍。訓(xùn)練這樣的大型模型涉及各種挑戰(zhàn),沿著所有的人工智能軸線進(jìn)行了許多創(chuàng)新和突破。例如,通過緊密合作,英偉達(dá)和微軟將最先進(jìn)的GPU加速訓(xùn)練基礎(chǔ)設(shè)施與尖端的分布式學(xué)習(xí)軟件堆棧相融合,實(shí)現(xiàn)了前所未有的訓(xùn)練效率。
微軟與NVIDIA建立了高質(zhì)量的自然語言訓(xùn)練語料庫,其中包含數(shù)千億個(gè)標(biāo)記,并共同開發(fā)了訓(xùn)練配方,以提高優(yōu)化效率和穩(wěn)定性。
(舉報(bào))