今日,記者獲悉,在 2023 年度AI網絡創(chuàng)新大會上,騰訊云星脈網絡獲得了“標桿應用獎”。大會由中國通信學會主辦,該獎項旨在表彰具有強商業(yè)價值、高服務水平和顯著應用效益的優(yōu)秀AI網絡行業(yè)應用案例。
星脈網絡是騰訊云自研的大模型專屬高性能網絡。基于騰訊云新一代算力集群HCC,可支持 10 萬卡的超大計算規(guī)模;同時,星脈網絡具備業(yè)界比較高的3.2T通信帶寬,時延降到10us-40us,丟包率降到0,為AI大模型帶來 10 倍通信性能提升,提升40%的GPU利用率,節(jié)省30%-60%的模型訓練成本。
騰訊云副總裁王亞晨在現(xiàn)場的分享中介紹了星脈網絡。星脈網絡基于高速以太網絡技術進行構建,為騰訊混元大模型提供了高性能互聯(lián)底座。
王亞晨指出,隨著AI大模型的不斷發(fā)展,對網絡的傳輸和穩(wěn)定提出了新的需求。傳統(tǒng)的網絡架構已經越來越滿足不了大模型訓練的需求。
騰訊云副總裁王亞晨
千億、萬億參數規(guī)模的大模型,訓練過程中通信占比比較大可達50%,傳統(tǒng)低速網絡的帶寬遠遠無法支撐。同時,傳統(tǒng)網絡協(xié)議容易導致網絡擁塞、高延時和丟包,而僅0.1%的網絡丟包就可能導致50%的算力損失,最終造成算力資源的嚴重浪費。大帶寬、高利用率、信息無損,是AI大模型時代網絡面臨的核心挑戰(zhàn)。
基于全面自研能力,騰訊云在交換機、通信協(xié)議、通信庫以及運營系統(tǒng)等方面,進行了軟硬一體的升級和創(chuàng)新,率先推出業(yè)界領先的大模型專屬高性能網絡——星脈網絡。
在硬件方面,星脈網絡基于騰訊的網絡研發(fā)平臺,采用全自研設備構建互聯(lián)底座,實現(xiàn)自動化部署和配置。
在軟件方面,騰訊云自研的TiTa網絡協(xié)議,采用先進的擁塞控制和管理技術,能夠實時監(jiān)測并調整網絡擁塞,滿足大量服務器節(jié)點之間的通信需求,確保數據交換流暢、延時低,實現(xiàn)高負載下的零丟包,使集群通信效率達90%以上。
此外,騰訊云還為星脈網絡設計了高性能集合通信庫TCCL,融入定制化解決方案,使系統(tǒng)實現(xiàn)了微秒級感知網絡質量。結合動態(tài)調度機制合理分配通信通道,可以避免因網絡問題導致的訓練中斷等問題,讓通信時延降低40%。
網絡的可用性,也決定了整個集群的計算穩(wěn)定性。為確保星脈網絡的高可用,騰訊云自研了端到端的全棧網絡運營系統(tǒng),通過端網立體化監(jiān)控與智能定位系統(tǒng),將端網問題自動定界分析,讓整體故障的排查時間由天級降低至分鐘級。同時,大模型訓練系統(tǒng)的整體部署時間從 19 天縮減至4. 5 天,保證基礎配置高準確。
2023 AI網絡創(chuàng)新大會由中國通信學會指導,中國通信學會信息通信網絡技術委員會、江蘇省未來網絡創(chuàng)新研究院主辦,SDNLAB協(xié)辦;邀請運營商、互聯(lián)網公司、設備廠商代表、高校與科研單位代表,圍繞AI下的網絡互連架構、AI網絡設備、高性能網絡傳輸技術、網絡調度與資源分配等議題進行分享交流,搭建國內頭個AI網絡垂直交流平臺,為AI行業(yè)穩(wěn)健發(fā)展夯實網絡基礎設施,以技術創(chuàng)新升級驅動賦能網絡發(fā)展。
(推廣)