英偉達(dá) H100 vs. 蘋(píng)果M2，大模型訓(xùn)練，哪款性價(jià)比高？

2023-07-24 10:54 · 稿源：站長(zhǎng)之家用戶

關(guān)鍵詞：M2 芯片；Ultra；M1 芯片；UltraFusion；ULTRAMAN；RTX4090、A800;A100；H100；LLAMA、LM、AIGC、CHATGLM、LLVM、LLM、LLMs、GLM、NLP、ChatGPT、AGI、HPC、GPU、CPU、CPU+GPU、英偉達(dá)、Nvidia、英特爾、AMD、高性能計(jì)算、高性能服務(wù)器、藍(lán)海大腦、多元異構(gòu)算力、高性能計(jì)算、大模型訓(xùn)練、大型語(yǔ)言模型、通用人工智能、GPU服務(wù)器、GPU集群、大模型訓(xùn)練GPU集群、大語(yǔ)言模型

摘要：訓(xùn)練和微調(diào)大型語(yǔ)言模型對(duì)于硬件資源的要求非常高。目前，主流的大模型訓(xùn)練硬件通常采用英特爾的CPU和英偉達(dá)的GPU。然而，最近蘋(píng)果的M2 Ultra芯片和AMD的顯卡進(jìn)展給我們帶來(lái)了一些新的希望。

蘋(píng)果的M2 Ultra芯片是一項(xiàng)重要的技術(shù)創(chuàng)新，它為蘋(píng)果設(shè)備提供了卓越的性能和能效。與此同時(shí)，基于AMD軟硬件系統(tǒng)的大模型訓(xùn)練體系也在不斷發(fā)展，為用戶提供了更多選擇。盡管英偉達(dá)沒(méi)有推出與蘋(píng)果相媲美的200G顯卡，但他們?cè)陲@卡領(lǐng)域的競(jìng)爭(zhēng)仍然激烈。對(duì)比蘋(píng)果芯片與英偉達(dá)、英特爾、AMD的最新硬件和生態(tài)建設(shè)，我們可以看到不同廠商在性價(jià)比方面帶來(lái)了全新的選擇。

藍(lán)海大腦為生成式AI應(yīng)用提供了相當(dāng)吸引力的算力平臺(tái)，與英特爾緊密協(xié)作，為客戶提供強(qiáng)大的大模型訓(xùn)練和推理能力，加速AIGC創(chuàng)新步伐、賦力生成式AI產(chǎn)業(yè)創(chuàng)新。

一、基于英特爾CPU+英偉達(dá)GPU的大模型訓(xùn)練基礎(chǔ)架構(gòu)

1、深度學(xué)習(xí)架構(gòu)大模型的主要優(yōu)勢(shì)

當(dāng)前主流大模型架構(gòu)都是基于深度學(xué)習(xí)transformer的架構(gòu)模型，使用GPU訓(xùn)練深度學(xué)習(xí)架構(gòu)的大模型主要有以下優(yōu)勢(shì)：

1）高性能計(jì)算

深度學(xué)習(xí)中的大部分計(jì)算都是浮點(diǎn)計(jì)算，包括矩陣乘法和激活函數(shù)的計(jì)算。GPU在浮點(diǎn)計(jì)算方面表現(xiàn)出色，具有高性能計(jì)算能力。

2）并行計(jì)算能力

GPU具有高度并行的計(jì)算架構(gòu)，能夠同時(shí)執(zhí)行多個(gè)計(jì)算任務(wù)。深度學(xué)習(xí)模型通常需要執(zhí)行大量的矩陣乘法和向量運(yùn)算，這些操作可以高度并行的方式進(jìn)行，從而提高深度學(xué)習(xí)模型訓(xùn)練效率。

3）高內(nèi)存帶寬

GPU提供高達(dá)幾百GB/s的內(nèi)存帶寬，滿足深度學(xué)習(xí)模型對(duì)數(shù)據(jù)大容量訪問(wèn)需求。這種高內(nèi)存帶寬能夠加快數(shù)據(jù)傳輸速度，提高模型訓(xùn)練的效率。

2、當(dāng)前大多數(shù)大模型采用英特爾的CPU加英偉達(dá)的GPU作為計(jì)算基礎(chǔ)設(shè)施的原因

盡管GPU在訓(xùn)練大模型時(shí)發(fā)揮著重要作用，但單靠GPU遠(yuǎn)遠(yuǎn)不夠。除GPU負(fù)責(zé)并行計(jì)算和深度學(xué)習(xí)模型訓(xùn)練外，CPU在訓(xùn)練過(guò)程中也扮演著重要角色，其主要負(fù)責(zé)數(shù)據(jù)的預(yù)處理、后處理以及管理整個(gè)訓(xùn)練過(guò)程的任務(wù)。通過(guò)GPU和CPU之間的協(xié)同工作，可以實(shí)現(xiàn)有效的大規(guī)模模型訓(xùn)練。

1）強(qiáng)大的性能

英特爾最新CPU采用Alder Lake架構(gòu)，具備出色的通用計(jì)算能力。而英偉達(dá)最新GPU H100 擁有3.35TB/s的顯存帶寬、80GB的顯存大小和900GB/s的顯卡間通信速度，對(duì)大數(shù)據(jù)吞吐和并行計(jì)算提供友好的支持。

2）廣泛的支持和生態(tài)系統(tǒng)

基于英特爾CPU提供的AVX2 指令集和基于英偉達(dá)GPU提供的CUDA并行計(jì)算平臺(tái)和編程模型，構(gòu)建優(yōu) 秀的底層加速庫(kù)如PyTorch等上層應(yīng)用。

3）良好的兼容性和互操作性

在硬件和軟件設(shè)計(jì)上考慮彼此配合使用的需求，能夠有效地協(xié)同工作。這種兼容性和互操作性使得英特爾的CPU和英偉達(dá)的GPU成為流行的組合選擇，在大規(guī)模模型訓(xùn)練中得到廣泛應(yīng)用。

二、蘋(píng)果的M2 Ultra和統(tǒng)一內(nèi)存架構(gòu)

在WWDC2023 開(kāi)發(fā)者大會(huì)上蘋(píng)果推出M2 Ultra芯片，以及搭載該芯片的新款Mac Studio和Mac Pro。這款芯片采用了第二代5nm制程工藝技術(shù)，是蘋(píng)果迄今為止比較強(qiáng)大的芯片。

去年 3 月，蘋(píng)果展示了一種將兩塊M1 芯片“粘”在一起的設(shè)計(jì)，發(fā)布集成 1140 億顆晶體管、 20 核CPU、最高 64 核GPU、 32 核神經(jīng)網(wǎng)絡(luò)引擎、2.5TB/s數(shù)據(jù)傳輸速率、800GB/s內(nèi)存帶寬、128GB統(tǒng)一內(nèi)存的“至尊版”芯片M1 Ultra。延續(xù)M1 Ultra的設(shè)計(jì)思路，M2 Ultra芯片通過(guò)采用突破性的UltraFusion架構(gòu)，將兩塊M2 Max芯片拼接到一起，擁有 1340 億個(gè)晶體管，比上一代M1 Ultra多出 200 億個(gè)。

UltraFusion是蘋(píng)果在定制封裝技術(shù)方面的領(lǐng)先技術(shù)，其使用硅中介層（interposer）將芯片與超過(guò) 10000 個(gè)信號(hào)連接起來(lái)，從而提供超過(guò)2.5TB/s的低延遲處理器間帶寬?；谶@一技術(shù)，M2 Ultra芯片在內(nèi)存方面比M1 Ultra高出了50%，達(dá)到192GB的統(tǒng)一內(nèi)存，并且擁有比M2 Max芯片高兩倍的800GB/s內(nèi)存帶寬。以往由于內(nèi)存不足，即使是比較強(qiáng)大的獨(dú)立GPU也無(wú)法處理大型模型。然而，蘋(píng)果通過(guò)將超大內(nèi)存帶寬集成到單個(gè)SoC中，實(shí)現(xiàn)單臺(tái)設(shè)備可以運(yùn)行龐大的機(jī)器學(xué)習(xí)工作負(fù)載，如大型Transformer模型等。

三、AMD的大模型訓(xùn)練生態(tài)

除蘋(píng)果的M2 Ultra在大模型訓(xùn)練方面取得了顯著進(jìn)展之外，AMD的生態(tài)系統(tǒng)也在加速追趕。

據(jù) 7 月 3 日消息，NVIDIA以其顯著的優(yōu)勢(shì)在顯卡領(lǐng)域獲得了公認(rèn)的地位，無(wú)論是在游戲還是計(jì)算方面都有著顯著的優(yōu)勢(shì)，而在AI領(lǐng)域更是幾乎壟斷。然而，有好消息傳來(lái)，AMD已經(jīng)開(kāi)始發(fā)力，其MI250 顯卡性能已經(jīng)達(dá)到了NVIDIA A100 顯卡的80%。 AMD在AI領(lǐng)域的落后主要是因?yàn)槠滠浖鷳B(tài)無(wú)法跟上硬件發(fā)展的步伐。盡管AMD的顯卡硬件規(guī)格很高，但其運(yùn)算環(huán)境與NVIDIA的CUDA相比仍然存在巨大的差距。最近，AMD升級(jí)了MI250 顯卡，使其更好地支持PyTorch框架。

MosaicML的研究結(jié)果顯示，MI250 顯卡在優(yōu)化后的性能提升顯著，大語(yǔ)言模型訓(xùn)練速度已達(dá)到A100 顯卡的80%。AMD指出，他們并未為MosaicML進(jìn)行這項(xiàng)研究提供資助，但表示將繼續(xù)與初創(chuàng)公司合作，以優(yōu)化軟件支持。但需要注意的是，NVIDIA A100 顯卡是在 2020 年 3 月發(fā)布的，已經(jīng)是上一代產(chǎn)品，NVIDIA目前最新的AI加速卡是H100，其AI性能有數(shù)倍至數(shù)十倍的提升。AMD的MI250 顯卡也不是最新產(chǎn)品，其在 2021 年底發(fā)布，采用CDNA2 架構(gòu)，6nm工藝，擁有 208 個(gè)計(jì)算單元和 13312 個(gè)流處理器核心。

AMD體系的特點(diǎn)如下：

1、LLM訓(xùn)練穩(wěn)定

使用AMD MI250 和NVIDIA A100 在MPT-1B LLM模型上進(jìn)行訓(xùn)練時(shí)，從相同的檢查點(diǎn)開(kāi)始，損失曲線幾乎完全相同。

2、性能與現(xiàn)有的A100 系統(tǒng)相媲美

MosaicML對(duì)MPT模型的1B到13B參數(shù)進(jìn)行了性能分析發(fā)現(xiàn)MI250 每個(gè)GPU的訓(xùn)練吞吐量在80%的范圍內(nèi)與A100-40GB相當(dāng)，并且與A100-80GB相比在73%的范圍內(nèi)。隨著AMD軟件的改進(jìn)，預(yù)計(jì)這一差距將會(huì)縮小。

3、基本無(wú)需代碼修改

得益于PyTorch對(duì)ROCm的良好支持，基本上不需要修改現(xiàn)有代碼。

四、英偉達(dá)顯卡與蘋(píng)果M2 Ultra 相比性能如何

1、英偉達(dá)顯卡與M2 Ultra 相比性能如何

在傳統(tǒng)英特爾+英偉達(dá)獨(dú)立顯卡架構(gòu)下，CPU與GPU之間的通信通常通過(guò)PCIe進(jìn)行。比較強(qiáng)大的H100 支持PCIe Gen5，傳輸速度為128GB/s，而A100 和 4090 則支持PCIe 4，傳輸速度為64GB/s。

另一個(gè)重要的參數(shù)是GPU的顯存帶寬，即GPU芯片與顯存之間的讀寫(xiě)速度。顯存帶寬是影響訓(xùn)練速度的關(guān)鍵因素。例如，英偉達(dá) 4090 顯卡的顯存帶寬為1.15TB/s，而A100 和H100 的顯存帶寬分別為1.99TB/s和3.35TB/s。

最后一個(gè)重要的參數(shù)是顯存大小，它指的是顯卡上的存儲(chǔ)容量。目前， 4090 是消費(fèi)級(jí)顯卡的好選擇，顯存大小為24GB，而A100 和H100 單張顯卡的顯存大小均為80GB。這個(gè)參數(shù)對(duì)于存儲(chǔ)大規(guī)模模型和數(shù)據(jù)集時(shí)非常重要。

M2 Ultra的芯片參數(shù)和 4090 以及A100 的對(duì)比（CPU采用英特爾最新的i9-13900KS）

從這些參數(shù)來(lái)看，蘋(píng)果的M2 Ultra相對(duì)來(lái)說(shuō)性能稍低。然而，M2 Ultra最重要的優(yōu)勢(shì)在于統(tǒng)一內(nèi)存，即CPU讀寫(xiě)的內(nèi)存可以直接被顯卡用作顯存。因此，擁有192GB的顯存幾乎相當(dāng)于 8 個(gè) 4090 或者2. 5 個(gè)A100/H100 的顯存。這意味著單個(gè)M2 Ultra芯片可以容納非常大的模型。例如，當(dāng)前開(kāi)源的LLaMA 65B模型需要120GB的顯存才能進(jìn)行推理。這意味著蘋(píng)果的M2 Ultra可以直接適用于LLaMA 65B，而目前沒(méi)有其他芯片能夠單獨(dú)承載如此龐大的模型，甚至包括最新的H100。

從上述參數(shù)對(duì)比來(lái)看，M2 Ultra在其他指標(biāo)接近 4090 的情況下，顯存大小成為其最大的優(yōu)勢(shì)。盡管M2 Ultra并非專(zhuān)為大模型訓(xùn)練而設(shè)計(jì)，但其架構(gòu)非常適合進(jìn)行大模型訓(xùn)練。

在上層生態(tài)方面，進(jìn)展也非常良好。 2022 年 5 月 18 日，PyTorch宣布支持蘋(píng)果芯片，并開(kāi)始適配M1 Ultra，利用蘋(píng)果提供的芯片加速庫(kù)MPS進(jìn)行加速Ultra上使用PyTorch進(jìn)行訓(xùn)練。以文本生成圖片為例，它能夠一次性生成更多且更高精度的圖片。

2、NVIDIA為什么不推出一款200GB顯存以上的GPU？

主要原因可以分為以下幾點(diǎn)：

1）大語(yǔ)言模型火起來(lái)還沒(méi)多久；

2）顯存容量和算力是要匹配的，空有192GB顯存，但是算力不足并無(wú)意義；

3）蘋(píng)果大內(nèi)存，適合在本地進(jìn)行推理，有希望引爆在端側(cè)部署AI的下一輪熱潮。

從 2022 年 11 月ChatGPT火起來(lái)到現(xiàn)在，時(shí)間也不過(guò)才半年時(shí)間。從項(xiàng)目立項(xiàng)，到確定具體的規(guī)格，再到設(shè)計(jì)產(chǎn)品，并且進(jìn)行各種測(cè)試，最終上市的全流程研發(fā)時(shí)間至少在一年以上?？陀^上講，大語(yǔ)言模型形成全球范圍的熱潮，一定會(huì)帶動(dòng)對(duì)于顯存容量的需求。英偉達(dá)未來(lái)顯存容量的升級(jí)速度一定會(huì)提速。

過(guò)去之所以消費(fèi)級(jí)顯卡的顯存容量升級(jí)較慢，根本原因是沒(méi)有應(yīng)用場(chǎng)景。8GB的消費(fèi)級(jí)顯卡用來(lái)打游戲足矣，加速一些視頻剪輯也綽綽有余。更高的顯存容量，只能服務(wù)于少量科研人員，而且大多都去買(mǎi)了專(zhuān)業(yè)卡專(zhuān)門(mén)應(yīng)用?，F(xiàn)在有了大語(yǔ)言模型，可以在本地部署一個(gè)開(kāi)源的模型。有了對(duì)于顯存的明確需求，未來(lái)一定會(huì)快速提升顯存容量的。

其次，蘋(píng)果有192GB的統(tǒng)一內(nèi)存可以用于大語(yǔ)言模型的“訓(xùn)練”。這個(gè)認(rèn)知是完全錯(cuò)誤的。AI模型可以分為訓(xùn)練（train）、微調(diào)（fine-tune）和推理(inference)。簡(jiǎn)單來(lái)說(shuō)，訓(xùn)練就是研發(fā)人員研發(fā)AI模型的過(guò)程，推理就是用戶部署在設(shè)備上來(lái)用。從算力消耗上來(lái)說(shuō)，是訓(xùn)練>微調(diào)>推理，訓(xùn)練要比推理的算力消耗高至少 3 個(gè)數(shù)量級(jí)以上。

訓(xùn)練也不純粹看一個(gè)顯存容量大小，而是和芯片的算力高度相關(guān)的。因?yàn)閷?shí)際訓(xùn)練的過(guò)程當(dāng)中，將海量的數(shù)據(jù)切塊成不同的batch size，然后送入顯卡進(jìn)行訓(xùn)練。顯存大，意味著一次可以送進(jìn)更大的數(shù)據(jù)塊。但是芯片算力如果不足，單個(gè)數(shù)據(jù)塊就需要更長(zhǎng)的等待時(shí)間。

顯存和算力，必須要相輔相成。在有限的產(chǎn)品成本內(nèi)，兩者應(yīng)當(dāng)是恰好在一個(gè)平衡點(diǎn)上?，F(xiàn)階段英偉達(dá)的H100 能夠廣泛用于各大廠商的真實(shí)模型訓(xùn)練，而不是只存在于幾個(gè)自媒體玩具級(jí)別的視頻里面，說(shuō)明H100 能夠滿足廠商的使用需要。

要按蘋(píng)果的顯存算法，一塊Grace Hopper就超過(guò)了啊。一塊Grace Hopper的統(tǒng)一內(nèi)存高達(dá)512GB，外加Hopper還有96GB的獨(dú)立顯存，早就超了。

3、使用NVIDIA H100 訓(xùn)練ChatGPT大模型僅用 11 分鐘

AI技術(shù)的蓬勃發(fā)展使得NVIDIA的顯卡成為市場(chǎng)上備受矚目的熱門(mén)產(chǎn)品。尤其是高端的H100 加速卡，其售價(jià)超過(guò) 25 萬(wàn)元，然而市場(chǎng)供不應(yīng)求。該加速卡的性能也非常驚人，最新的AI測(cè)試結(jié)果顯示，基于GPT- 3 的大語(yǔ)言模型訓(xùn)練任務(wù)刷新了記錄，完成時(shí)間僅為 11 分鐘。

據(jù)了解，機(jī)器學(xué)習(xí)及人工智能領(lǐng)域的開(kāi)放產(chǎn)業(yè)聯(lián)盟MLCommons發(fā)布了最新的MLPerf基準(zhǔn)評(píng)測(cè)。包括 8 個(gè)負(fù)載測(cè)試，其中就包含基于GPT- 3 開(kāi)源模型的LLM大語(yǔ)言模型測(cè)試，這對(duì)于評(píng)估平臺(tái)的AI性能提出了很高的要求。

參與測(cè)試的NVIDIA平臺(tái)由 896 個(gè)Intel至強(qiáng)8462Y+處理器和 3584 個(gè)H100 加速卡組成，是所有參與平臺(tái)中一家能夠完成所有測(cè)試的。并且，NVIDIA平臺(tái)刷新了記錄。在關(guān)鍵的基于GPT- 3 的大語(yǔ)言模型訓(xùn)練任務(wù)中，H100 平臺(tái)僅用了10. 94 分鐘，與之相比，采用 96 個(gè)至強(qiáng) 8380 處理器和 96 個(gè)Habana Gaudi2 AI芯片構(gòu)建的Intel平臺(tái)完成同樣測(cè)試所需的時(shí)間為311. 94 分鐘。

H100 平臺(tái)的性能幾乎是Intel平臺(tái)的 30 倍，當(dāng)然，兩套平臺(tái)的規(guī)模存在很大差異。但即便只使用 768 個(gè)H100 加速卡進(jìn)行訓(xùn)練，所需時(shí)間仍然只有45. 6 分鐘，遠(yuǎn)遠(yuǎn)超過(guò)采用Intel平臺(tái)的AI芯片。

H100 加速卡采用GH100 GPU核心，定制版臺(tái)積電4nm工藝制造，擁有 800 億個(gè)晶體管。它集成了 18432 個(gè)CUDA核心、 576 個(gè)張量核心和60MB的二級(jí)緩存，支持6144-bit HBM高帶寬內(nèi)存以及PCIe 5. 0 接口。

H100 計(jì)算卡提供SXM和PCIe 5. 0 兩種樣式。SXM版本擁有 15872 個(gè)CUDA核心和 528 個(gè)Tensor核心，而PCIe 5. 0 版本則擁有 14952 個(gè)CUDA核心和 456 個(gè)Tensor核心。該卡的功耗最高可達(dá)700W。

就性能而言，H100 加速卡在FP64/FP32 計(jì)算方面能夠達(dá)到每秒 60 萬(wàn)億次的計(jì)算能力，而在FP16 計(jì)算方面達(dá)到每秒 2000 萬(wàn)億次的計(jì)算能力。此外，它還支持TF32 計(jì)算，每秒可達(dá)到 1000 萬(wàn)億次，是A100 的三倍。而在FP8 計(jì)算方面，H100 加速卡的性能可達(dá)每秒 4000 萬(wàn)億次，是A100 的六倍。

五、藍(lán)海大腦大模型訓(xùn)練平臺(tái)

藍(lán)海大腦大模型訓(xùn)練平臺(tái)提供強(qiáng)大的支持，包括基于開(kāi)放加速模組高速互聯(lián)的AI加速器。配置高速內(nèi)存且支持全互聯(lián)拓?fù)?，滿足大模型訓(xùn)練中張量并行的通信需求。支持高性能I/O擴(kuò)展，同時(shí)可以擴(kuò)展至萬(wàn)卡AI集群，滿足大模型流水線和數(shù)據(jù)并行的通信需求。強(qiáng)大的液冷系統(tǒng)熱插拔及智能電源管理技術(shù)，當(dāng)BMC收到PSU故障或錯(cuò)誤警告（如斷電、電涌，過(guò)熱），自動(dòng)強(qiáng)制系統(tǒng)的CPU進(jìn)入U(xiǎn)LFM（超低頻模式，以實(shí)現(xiàn)最低功耗）。致力于通過(guò)“低碳節(jié)能”為客戶提供環(huán)保綠色的高性能計(jì)算解決方案。主要應(yīng)用于深度學(xué)習(xí)、學(xué)術(shù)教育、生物醫(yī)藥、地球勘探、氣象海洋、超算中心、AI及大數(shù)據(jù)等領(lǐng)域。

1、為什么需要大模型？

1）模型效果更優(yōu)

大模型在各場(chǎng)景上的效果均優(yōu)于普通模型

2）創(chuàng)造能力更強(qiáng)

大模型能夠進(jìn)行內(nèi)容生成（AIGC），助力內(nèi)容規(guī)模化生產(chǎn)

3）靈活定制場(chǎng)景

通過(guò)舉例子的方式，定制大模型海量的應(yīng)用場(chǎng)景

4）標(biāo)注數(shù)據(jù)更少

通過(guò)學(xué)習(xí)少量行業(yè)數(shù)據(jù)，大模型就能夠應(yīng)對(duì)特定業(yè)務(wù)場(chǎng)景的需求

2、平臺(tái)特點(diǎn)

1）異構(gòu)計(jì)算資源調(diào)度

一種基于通用服務(wù)器和專(zhuān)用硬件的綜合解決方案，用于調(diào)度和管理多種異構(gòu)計(jì)算資源，包括CPU、GPU等。通過(guò)強(qiáng)大的虛擬化管理功能，能夠輕松部署底層計(jì)算資源，并有效運(yùn)行各種模型。同時(shí)充分發(fā)揮不同異構(gòu)資源的硬件加速能力，以加快模型的運(yùn)行速度和生成速度。

2）穩(wěn)定可靠的數(shù)據(jù)存儲(chǔ)

支持多存儲(chǔ)類(lèi)型協(xié)議，包括塊、文件和對(duì)象存儲(chǔ)服務(wù)。將存儲(chǔ)資源池化實(shí)現(xiàn)模型和生成數(shù)據(jù)的自由流通，提高數(shù)據(jù)的利用率。同時(shí)采用多副本、多級(jí)故障域和故障自恢復(fù)等數(shù)據(jù)保護(hù)機(jī)制，確保模型和數(shù)據(jù)的安全穩(wěn)定運(yùn)行。

3）高性能分布式網(wǎng)絡(luò)

提供算力資源的網(wǎng)絡(luò)和存儲(chǔ)，并通過(guò)分布式網(wǎng)絡(luò)機(jī)制進(jìn)行轉(zhuǎn)發(fā)，透?jìng)魑锢砭W(wǎng)絡(luò)性能，顯著提高模型算力的效率和性能。

4）全方位安全保障

在模型托管方面，采用嚴(yán)格的權(quán)限管理機(jī)制，確保模型倉(cāng)庫(kù)的安全性。在數(shù)據(jù)存儲(chǔ)方面，提供私有化部署和數(shù)據(jù)磁盤(pán)加密等措施，保證數(shù)據(jù)的安全可控性。同時(shí)，在模型分發(fā)和運(yùn)行過(guò)程中，提供全面的賬號(hào)認(rèn)證和日志審計(jì)功能，全方位保障模型和數(shù)據(jù)的安全性。

3、常用配置

目前大模型訓(xùn)練多常用H100、H800、A800、A100 等GPU顯卡，其中H100 配備第四代 Tensor Core 和 Transformer 引擎（FP8 精度），與上一代產(chǎn)品相比，可為多專(zhuān)家 (MoE) 模型提供高 9 倍的訓(xùn)練速度。通過(guò)結(jié)合可提供 900 GB/s GPU 間互連的第四代 NVlink、可跨節(jié)點(diǎn)加速每個(gè) GPU 通信的 NVLINK Switch 系統(tǒng)、PCIe 5.0 以及 NVIDIA Magnum IO? 軟件，為小型企業(yè)到大規(guī)模統(tǒng)一 GPU 集群提供有效的可擴(kuò)展性。

搭載 H100 的加速服務(wù)器可以提供相應(yīng)的計(jì)算能力，并利用 NVLink 和 NVSwitch 每個(gè) GPU 3 TB/s 的顯存帶寬和可擴(kuò)展性，憑借高性能應(yīng)對(duì)數(shù)據(jù)分析以及通過(guò)擴(kuò)展支持龐大的數(shù)據(jù)集。通過(guò)結(jié)合使用 NVIDIA Quantum-2 InfiniBand、Magnum IO 軟件、GPU 加速的 Spark 3.0 和?NVIDIA RAPIDS?，NVIDIA 數(shù)據(jù)中心平臺(tái)能夠以出色的性能和效率加速這些大型工作負(fù)載。

1）H100 工作站常用配置

CPU：英特爾至強(qiáng)Platinum 8468 48C 96T 3.80GHz 105MB 350W *2

內(nèi)存：動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器64GB DDR54800 兆赫 *24

存儲(chǔ)：固態(tài)硬盤(pán)3.2TB U.2 PCIe第 4 代 *4

GPU ：Nvidia Vulcan PCIe H100 80GB *8

平臺(tái) ：HD210 *1

散熱：CPU+GPU液冷一體散熱系統(tǒng) *1

網(wǎng)絡(luò) ：英偉達(dá)IB 400Gb/s單端口適配器 *8

電源：2000W(2+2)冗余有效電源 *1

2）A800 工作站常用配置

CPU：Intel 8358P 2.6G 11.2UFI 48M 32C 240W *2

內(nèi)存：DDR4 3200 64G *32

數(shù)據(jù)盤(pán)：960G 2.5 SATA 6Gb R SSD *2

硬盤(pán)：3.84T 2.5-E4x4R SSD *2

網(wǎng)絡(luò)：雙口10G光纖網(wǎng)卡（含模塊）*1

???????? ??雙口25G SFP28 無(wú)模塊光纖網(wǎng)卡（MCX512A-ADAT ）*1

GPU：HV HGX A800 8-GPU 8OGB *1

電源：3500W電源模塊*4

其他：25G SFP28 多模光模塊 *2

? ? ? ? 單端口200G HDR HCA卡(型號(hào):MCX65310優(yōu)秀-HDAT) *4

? ? ? ? ?2GB SAS 12Gb8 口 RAID卡 *1

? ? ? ? ?16A電源線纜國(guó)標(biāo)1.8m *4

? ? ? ? ?托軌 *1

? ? ? ? ?主板預(yù)留PCIE4.0x16 接口 *4

? ? ? ? ?支持 2 個(gè)M.2 *1

? ? ? ? ?原廠質(zhì)保 3 年 *1

3）A100 工作站常用配置

CPU：Intel Xeon Platinum 8358P_2.60 GHz_32C 64T_230W *2

RAM：64GB DDR4 RDIMM服務(wù)器內(nèi)存 *16

SSD1：480GB 2. 5 英寸SATA固態(tài)硬盤(pán) *1

SSD2：3.84TB 2. 5 英寸NVMe固態(tài)硬盤(pán) *2

GPU：NVIDIA TESLA A100 80G SXM *8

網(wǎng)卡1：100G 雙口網(wǎng)卡IB 邁絡(luò)思 *2

網(wǎng)卡2：25G CX5 雙口網(wǎng)卡 *1

4）H800 工作站常用配置

CPU：Intel Xeon Platinum 8468 Processor，48C64T，105M Cache 2.1GHz，350W *2

內(nèi)存：64GB 3200MHz RECC DDR4 DIMM *32

系統(tǒng)硬盤(pán)： intel D7-P5620 3.2T NVMe PCle4.0x4 3DTLCU.2 15mm 3DWPD *4

GPU： NVIDIA Tesla H800 -80GB HBM2 *8

GPU網(wǎng)絡(luò)： NVIDIA 900-9x766-003-SQO PCle 1-Port IB 400 OSFP Gen5 *8

存儲(chǔ)網(wǎng)絡(luò) ：雙端口 200GbE IB *1

網(wǎng)卡：25G網(wǎng)絡(luò)接口卡雙端口 *1

（推廣）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))均為站長(zhǎng)傳媒平臺(tái)用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)，對(duì)本頁(yè)面內(nèi)容所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任，相關(guān)信息僅供參考。站長(zhǎng)之家將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。任何單位或個(gè)人認(rèn)為本頁(yè)面內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，可及時(shí)向站長(zhǎng)之家提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明（點(diǎn)擊查看反饋聯(lián)系地址）。本網(wǎng)站在收到上述法律文件后，將會(huì)依法依規(guī)核實(shí)信息，溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

相關(guān)推薦

關(guān)鍵詞：

裸金屬 GPU 上線！DigitalOcean 提供單用戶獨(dú)享H100資源

對(duì)于需要直接控制硬件，需要更強(qiáng)性能的AI開(kāi)發(fā)者來(lái)講，DigitalOcean已經(jīng)為你們準(zhǔn)備好了更適合的GPU服務(wù)器——DigitalOcean基于NVIDIAGPU的裸金屬服務(wù)器。這些服務(wù)器特別設(shè)計(jì)用來(lái)應(yīng)對(duì)最復(fù)雜的AI和機(jī)器學(xué)習(xí)任務(wù)，無(wú)論是大規(guī)模的模型訓(xùn)練還是高度定制的基礎(chǔ)設(shè)施設(shè)置，都能輕松勝任。如需預(yù)約測(cè)試裸金屬GPU服務(wù)器，咨詢更多相關(guān)信息，可聯(lián)系DigitalOcean中國(guó)區(qū)獨(dú)家戰(zhàn)略合作伙伴卓普云。

?DigitalOcean ?GPU ?服務(wù)器
2000元投影儀雙十二攻略：這兩款性價(jià)比高，輕松享受大屏觀影

雙十二馬上要到了，這次是清倉(cāng)，優(yōu)惠力度也會(huì)更大，如果想在這個(gè)時(shí)候入手投影儀的，那么可以提前準(zhǔn)備了。從雙十一的銷(xiāo)售情況來(lái)看，2000元左右的投影儀最受歡迎，為了方便大家選購(gòu)，這里分享一下2000元左右投影儀的選購(gòu)建議，以及值得入手的型號(hào)推薦。具體選擇哪一款，需要根據(jù)自己的預(yù)算、需求和使用環(huán)境等因素進(jìn)行綜合考慮。

?投影儀選購(gòu) ?雙十二促銷(xiāo) ?高清投影儀
英偉達(dá)展示AI模型Fugatto：可修改并生成新聲音

據(jù)報(bào)道，英偉達(dá)展示了一種用于生成音樂(lè)和音頻的新型人工智能模型Fugatto，它可以修改聲音并生成新的聲音。Fugatto的獨(dú)特魅力在于其超越傳統(tǒng)的人工智能界限，不僅能夠接收并分析現(xiàn)有音頻素材能對(duì)其進(jìn)行靈活修改。行業(yè)內(nèi)的其他巨頭如OpenAI與Meta，對(duì)于何時(shí)會(huì)推出能夠生成音頻或視頻的先進(jìn)模型，同樣保持著神秘的態(tài)度，尚未透露具體的時(shí)間表。

?人工智能 ?音頻生成 ?英偉達(dá)
雙十二攻略：如何挑選2024年性價(jià)比高的千元投影儀？

在家庭娛樂(lè)和辦公演示中，投影儀因其大屏幕顯示越來(lái)越受歡迎。對(duì)于那些預(yù)算有限但仍然希望享受大屏幕體驗(yàn)的用戶來(lái)說(shuō)，一千元級(jí)別的投影儀提供了一個(gè)經(jīng)濟(jì)實(shí)惠的選擇。如果您的預(yù)算在一千元左右，當(dāng)貝Smart1絕對(duì)值得您的關(guān)注和選擇。

?投影儀 ?家庭娛樂(lè) ?辦公演示
英偉達(dá)在華涉反壟斷突遭調(diào)查！中國(guó)是英偉達(dá)Q3主要收入來(lái)源

日前，國(guó)家市場(chǎng)監(jiān)管總局發(fā)布公告，因英偉達(dá)公司涉嫌違反《中華人民共和國(guó)反壟斷法》及《市場(chǎng)監(jiān)管總局關(guān)于附加限制性條件批準(zhǔn)英偉達(dá)公司收購(gòu)邁絡(luò)思科技有限公司股權(quán)案反壟斷審查決定的公告》，市場(chǎng)監(jiān)管總局依法對(duì)英偉達(dá)公司開(kāi)展立案調(diào)查。此次反壟斷事件涉英偉達(dá)2020年完成的對(duì)以色列網(wǎng)絡(luò)設(shè)備商邁絡(luò)思的收購(gòu)，該筆收購(gòu)作價(jià)69億美元，為英偉達(dá)史上最大一筆收購(gòu)。英偉達(dá)的芯片中有大量零部件產(chǎn)自中國(guó)，這與全球汽車(chē)供應(yīng)鏈的復(fù)雜性道理相通。

?英偉達(dá) ?反壟斷調(diào)查 ?市場(chǎng)監(jiān)管總局
字節(jié)跳動(dòng)起訴攻擊模型訓(xùn)練實(shí)習(xí)生：索賠800萬(wàn)

字節(jié)跳動(dòng)起訴前實(shí)習(xí)生田某某篡改代碼攻擊公司內(nèi)部模型訓(xùn)練一案，已獲北京市海淀區(qū)人民法院正式受理。字節(jié)跳動(dòng)請(qǐng)求法院，判令田某某賠償公司侵權(quán)損失800萬(wàn)元及合理支出2萬(wàn)元，并公開(kāi)賠禮道歉。字節(jié)跳動(dòng)已與其解除實(shí)習(xí)協(xié)議，同步陽(yáng)光誠(chéng)信聯(lián)盟及企業(yè)反舞弊聯(lián)盟，并同步至其就讀學(xué)校處理。

?字節(jié)跳動(dòng) ?實(shí)習(xí)生 ?代碼篡改
英偉達(dá)AI芯片最大買(mǎi)家揭曉！微軟力壓同行霸榜

Omdia的最新研究數(shù)據(jù)顯示，微軟成為英偉達(dá)旗艦產(chǎn)品Hopper芯片的最大買(mǎi)家，其購(gòu)買(mǎi)量遠(yuǎn)超其他科技巨頭。微軟今年采購(gòu)了48.5萬(wàn)顆Hopper芯片，這一數(shù)字是英偉達(dá)在美國(guó)第二大客戶Meta的兩倍多，后者僅購(gòu)買(mǎi)了22.4萬(wàn)顆。微軟之所以要購(gòu)買(mǎi)這么多AI芯片，主要是由于微軟不僅需要數(shù)據(jù)中心運(yùn)行自己的AI服務(wù)要通過(guò)Azure部門(mén)將算力出租給云服務(wù)客戶。

?微軟 ?英偉達(dá) ?Hopper芯片
薦英特爾錯(cuò)失AI芯片浪潮，從放棄收購(gòu)英偉達(dá)開(kāi)始

【新智元導(dǎo)讀】幾十年來(lái)，英特爾一直是硅谷占主導(dǎo)地位的芯片廠家。但錯(cuò)失大好時(shí)機(jī)，加上糟糕的執(zhí)行力，讓這家公司在科技行業(yè)如火如荼的AI淘金熱中被迫退居觀望狀態(tài)。考慮到面臨的其他挑戰(zhàn)，我們不會(huì)很快參與競(jìng)爭(zhēng)。

?英特爾 ?英偉達(dá) ?AI
英偉達(dá)核彈來(lái)了！RTX 5090售價(jià)再次曝光：想買(mǎi)準(zhǔn)備2萬(wàn)預(yù)算

對(duì)于那些打算入手RTX5090的用戶，至少要準(zhǔn)備2萬(wàn)左右的預(yù)算，因?yàn)樗⒍ú槐阋?。按照一些NV零售商流傳出的消息，RTX5090的價(jià)格區(qū)間可能為1899至1999美元，其最快開(kāi)賣(mài)時(shí)間預(yù)計(jì)在2月初左右。RTX5090將搭配32GBGDDR7顯存，速率28Gbps，位寬512-bit，帶寬1792GB/s，TBP600W，相比上一代RTX4090提升了150W之多。

?RTX ?5090 ?顯卡價(jià)格
小米YU7座艙前瞻：有特殊屏幕、英偉達(dá)智駕芯片拖上市后腿

近日，小米第二款車(chē)型YU7正式登陸工信部按照小米官方的說(shuō)法，這款車(chē)將于明年6-7月份上市。新車(chē)會(huì)提前一個(gè)季度，也就是三個(gè)月登陸工信部后就會(huì)發(fā)布上市，為何小米YU7會(huì)提前半年呢?雷軍的解釋是:希望YU7測(cè)試車(chē)可以盡早拆除重偽裝，有助于做更全面、更細(xì)致的長(zhǎng)時(shí)間大規(guī)模測(cè)試，來(lái)確保產(chǎn)品質(zhì)量，做出更好的產(chǎn)品。目前這些僅為猜測(cè)，但相信小米YU7的座艙絕對(duì)會(huì)新驚喜等待著大家。

?小米汽車(chē) ?YU7車(chē)型 ?雷軍

熱文

3 天
7天

站長(zhǎng)商機(jī)

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

英偉達(dá) H100 vs. 蘋(píng)果M2，大模型訓(xùn)練，哪款性價(jià)比高？

裸金屬 GPU 上線！DigitalOcean 提供單用戶獨(dú)享H100資源

2000元投影儀雙十二攻略：這兩款性價(jià)比高，輕松享受大屏觀影

英偉達(dá)展示AI模型Fugatto：可修改并生成新聲音

雙十二攻略：如何挑選2024年性價(jià)比高的千元投影儀？

英偉達(dá)在華涉反壟斷突遭調(diào)查！中國(guó)是英偉達(dá)Q3主要收入來(lái)源

字節(jié)跳動(dòng)起訴攻擊模型訓(xùn)練實(shí)習(xí)生：索賠800萬(wàn)

英偉達(dá)AI芯片最大買(mǎi)家揭曉！微軟力壓同行霸榜

薦英特爾錯(cuò)失AI芯片浪潮，從放棄收購(gòu)英偉達(dá)開(kāi)始

英偉達(dá)核彈來(lái)了！RTX 5090售價(jià)再次曝光：想買(mǎi)準(zhǔn)備2萬(wàn)預(yù)算

小米YU7座艙前瞻：有特殊屏幕、英偉達(dá)智駕芯片拖上市后腿

熱文

小紅書(shū)封號(hào)上熱搜：違規(guī)原因涉及發(fā)布引流、牟利等內(nèi)容

周鴻祎：AGI發(fā)展遇瓶頸智能體和專(zhuān)業(yè)大模型將扛大旗

小紅書(shū)被吐槽無(wú)理由封號(hào) 客服回應(yīng)：未說(shuō)明處罰時(shí)間就是永封

極越公關(guān)負(fù)責(zé)人被開(kāi)除本人回應(yīng)：此前未接到任何通知

微信緊急提醒：警惕木馬病毒將加強(qiáng)對(duì)此類(lèi)行為打擊

馬斯克稱星鏈可實(shí)現(xiàn)火星玩游戲：但存在約4到20分鐘延遲

雷軍：小米是北方車(chē)廠 SU7研發(fā)之初就要做冬季電車(chē)?yán)m(xù)航之王

美團(tuán)：冬至期間將針對(duì)餃子等應(yīng)時(shí)食品訂單提供“超時(shí)保護(hù)”

沒(méi)網(wǎng)也能聯(lián)絡(luò)！小米15系列星辰無(wú)網(wǎng)通12月底升級(jí)6km級(jí)通話范圍

不得使用惡俗惡趣味微短劇片名！廣電總局出手整治“霸總愛(ài)上我

英偉達(dá)AI芯片最大買(mǎi)家揭曉！微軟力壓同行霸榜

微信朋友圈崩了上熱搜騰訊客服：請(qǐng)嘗試這幾種方法

極越員工萬(wàn)字怒懟ceo：公關(guān)總監(jiān)徐繼業(yè)怒罵員工蒼蠅

馬斯克將推出X Mail電子郵箱服務(wù)

百度回應(yīng)進(jìn)軍短劇：當(dāng)前內(nèi)容生態(tài)的一個(gè)重點(diǎn)發(fā)展方向

小紅書(shū)封號(hào)上熱搜：違規(guī)原因涉及發(fā)布引流、牟利等內(nèi)容

極越員工善后方案已出爐：?jiǎn)T工獲“N+1”賠償由百度吉利出資

周鴻祎：AGI發(fā)展遇瓶頸智能體和專(zhuān)業(yè)大模型將扛大旗

螞蟻集團(tuán)否認(rèn)借殼上市：目前沒(méi)有上市計(jì)劃

阿里74億元出售銀泰！銀泰集團(tuán)回應(yīng)：與銀泰百貨無(wú)直接關(guān)聯(lián)

站長(zhǎng)商機(jī)

英偉達(dá) H100 vs. 蘋(píng)果M2，大模型訓(xùn)練，哪款性價(jià)比高？

熱文

站長(zhǎng)商機(jī)

英偉達(dá) H100 vs. 蘋(píng)果M2，大模型訓(xùn)練，哪款性價(jià)比高？