AI世界如今最大的贏家是誰(shuí)?
毫無(wú)疑問(wèn)是黃仁勛的NVIDIA,布局早,技術(shù)強(qiáng),根本找不到對(duì)手,躺著”就可以掙大錢了。
現(xiàn)在,NVIDIA又公布了最新一代Hopper H100計(jì)算卡在MLPerf AI測(cè)試中創(chuàng)造的新紀(jì)錄。
Hopper H100早在2022年3月就發(fā)布了,GH100 GPU核心,臺(tái)積電4nm工藝,800億晶體管,814平方毫米面積。
它集成18432個(gè)CUDA核心、576個(gè)Tensor核心、60MB二級(jí)緩存,搭配6144-bit位寬的六顆HBM3/HBM2e高帶寬內(nèi)存,支持第四代NVLink、PCIe 5.0總線。
相比于ChatGPT等目前普遍使用的A100,H100的理論性能提升了足足6倍。
不過(guò)直到最近,H100才開(kāi)始大規(guī)模量產(chǎn),微軟、谷歌、甲骨文等云計(jì)算服務(wù)已開(kāi)始批量部署。
MLPerf Inference是測(cè)試AI推理性能的行業(yè)通行標(biāo)準(zhǔn),最新版本v3.0,也是這個(gè)工具誕生以來(lái)的第七個(gè)大版本更新。
對(duì)比半年前的2.1版本,NVIDIA H100的性能在不同測(cè)試項(xiàng)目中提升了7-54%不等,其中進(jìn)步最大的是RetinaNet全卷積神經(jīng)網(wǎng)絡(luò)測(cè)試,3D U-Net醫(yī)療成像網(wǎng)絡(luò)測(cè)試也能提升31%。
對(duì)比A100,跨代提升更是驚人,無(wú)延遲離線測(cè)試的變化幅度少則1.8倍,多則可達(dá)4.5倍,延遲服務(wù)器測(cè)試少則超過(guò)1.7倍,多則也能接近4倍。
其中,DLRM、BERT訓(xùn)練模型的提升最為顯著。
NVIDIA還頗為羞辱性地列上了Intel最新數(shù)據(jù)中心處理器旗艦至強(qiáng)鉑金8480 的成績(jī),雖然有56個(gè)核心,但畢竟術(shù)業(yè)有專攻,讓通用處理器跑AI訓(xùn)練實(shí)在有點(diǎn)為難,可憐的分?jǐn)?shù)不值一提,BERT 99.9%甚至都無(wú)法運(yùn)行,而這正是NVIDIA H100的最強(qiáng)項(xiàng)。
此外,NVIDIA還第一次公布了L4 GPU的性能。
它基于最新的Ada架構(gòu),只有Tensor張量核心,支持FP8浮點(diǎn)計(jì)算,主要用于AI推理,也支持AI視頻編碼加速。
對(duì)比上代T4,L4的性能可加速2.2-3.1倍之多,最關(guān)鍵的是它功耗只有72W,再加上單槽半高造型設(shè)計(jì),可謂小巧彪悍。
幾乎所有的大型云服務(wù)供應(yīng)商都部署了T4,升級(jí)到L4只是時(shí)間問(wèn)題,Google就已經(jīng)開(kāi)始內(nèi)測(cè)。
(舉報(bào))