亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)宣布了一個新的基于GPU的實例Amazon P4d的可用性,該實例基于Nvidia的新Ampere架構(gòu),并且兩家公司都在宣稱性能。
AWS十年來一直提供基于GPU的實例,最新一代的實例稱為P3。AWS和Nvidia都聲稱,與P3實例相比,P4d實例在機器學(xué)習(xí)培訓(xùn)和高性能計算工作負(fù)載方面的性能提高了三倍,成本降低了60%,GPU內(nèi)存增加了2.5倍。
根據(jù)Nvidia的說法,與默認(rèn)的FP32精度相比,使用FP16實例可以將機器學(xué)習(xí)模型的訓(xùn)練時間減少三倍,而使用TF32則可以將訓(xùn)練時間減少多達(dá)六倍,但是還可以訓(xùn)練更大,更復(fù)雜的模型。
這些也是一些重量級的實例。在一個EC2實例中,具有八個Nvidia A100 GPU的P4d實例能夠提供高達(dá)2.5 petaflops的混合精度性能和320GB的高帶寬GPU內(nèi)存。AWS表示,P4d實例是第一個通過Elastic Fabric Adapter(EFA)和Nvidia GPUDirect RDMA網(wǎng)絡(luò)接口提供400 Gbps網(wǎng)絡(luò)帶寬的設(shè)備,以實現(xiàn)跨服務(wù)器的GPU之間的直接通信,從而降低延遲和提高擴展效率。
每個P4d實例還提供96個Intel Xeon可擴展(級聯(lián)湖)vCPU,1.1TB系統(tǒng)內(nèi)存和8TB本地NVMe存儲,以減少單節(jié)點訓(xùn)練時間。通過將上一代P3實例的性能提高一倍以上,P4d實例可以將訓(xùn)練機器學(xué)習(xí)模型的成本降低多達(dá)60%。
“隨著數(shù)據(jù)變得越來越豐富,客戶正在訓(xùn)練具有數(shù)百萬甚至數(shù)十億個參數(shù)的模型,例如用于自然語言處理以進(jìn)行文檔摘要和問題解答,用于自動駕駛汽車的對象檢測和分類,用于大規(guī)模內(nèi)容審核的圖像分類等參數(shù),電子商務(wù)網(wǎng)站的推薦引擎,以及智能搜索引擎的排名算法,所有這些都需要增加網(wǎng)絡(luò)吞吐量和GPU內(nèi)存?!?AWS在一份聲明中說。
該公司表示,客戶可以使用帶有Amazon Elastic Kubernetes服務(wù)(Amazon EKS)或Amazon Elastic Container Service(Amazon ECS)庫的AWS深度學(xué)習(xí)容器運行P4d實例。為了獲得更全面的管理體驗,客戶可以通過Amazon SageMaker使用P4d實例,該實例旨在幫助開發(fā)人員和數(shù)據(jù)科學(xué)家快速構(gòu)建,訓(xùn)練和部署ML模型。
HPC客戶可以將AWS Batch和AWS ParallelCluster與P4d實例結(jié)合使用,以幫助協(xié)調(diào)作業(yè)和集群。P4d實例支持所有的ML學(xué)習(xí)框架,包括TensorFlow,PyTorch和Apache MXNet,使客戶可以靈活地選擇他們喜歡的框架。
P4d實例在美國東部(弗吉尼亞北部)和美國西部(俄勒岡)地區(qū)可用,并計劃在不久的將來提供更多的可用性。AWS實例的起價為每小時32.77美元,但一年保留實例的價格降至每小時19.22美元,三年下來為11.57美元。
(舉報)