幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

首頁 > 傳媒 > 關(guān)鍵詞  > AI基礎(chǔ)設(shè)施最新資訊  > 正文

騰訊發(fā)布星脈網(wǎng)絡(luò)2.0,讓AI大模型訓(xùn)練效率提升20%

2024-07-03 10:48 · 稿源: 站長之家用戶

(騰訊云副總裁王亞晨)

隨著大模型的火熱持續(xù)迭代,AI基礎(chǔ)設(shè)施愈發(fā)成為云廠商的核心競爭力之一。

7月1日,騰訊宣布其自研星脈高性能計算網(wǎng)絡(luò)全面升級,升級后的星脈網(wǎng)絡(luò)2.0搭載全自研的網(wǎng)絡(luò)設(shè)備與AI算力網(wǎng)卡,支持超10萬卡大規(guī)模組網(wǎng),網(wǎng)絡(luò)通信效率比上一代提升60%,讓大模型訓(xùn)練效率提升20%。這意味著,如果原來訓(xùn)練中某個計算結(jié)果的同步需要花100秒完成,現(xiàn)在只需要40秒;原來需要花50天訓(xùn)練的模型,只需要花40天。

AI大模型就像是一場F1比賽,騰訊云專門設(shè)計了星脈高性能算力網(wǎng)絡(luò)“賽道”,并自研了TiTa和TCCL網(wǎng)絡(luò)協(xié)議作為“賽事指揮中心與專業(yè)車隊(duì)”,共同讓“騰訊云高性能計算集群HCC的GPU服務(wù)器”這臺馬力強(qiáng)大的F1賽車發(fā)揮最 大的算力性能,助力客戶在AI大模型的競爭中領(lǐng)先。

AIGC的火熱推動著AI大模型參數(shù)量從億級到萬億級的飆升。模型參數(shù)規(guī)模與架構(gòu)升級對底層網(wǎng)絡(luò)網(wǎng)絡(luò)也提出了新的要求。

為支撐AIGC中海量數(shù)據(jù)的大規(guī)模訓(xùn)練,大量服務(wù)器通過高速網(wǎng)絡(luò)組成大規(guī)模算力集群,互聯(lián)互通,共同完成訓(xùn)練任務(wù)。

然而,集群規(guī)模越大,所產(chǎn)生的通信損耗會越高;同時,AI訓(xùn)練的通信模式,與傳統(tǒng)的通信模式差異較大,不同大模型架構(gòu)也存在著通信模式的差異。部分大模型訓(xùn)練過程中通信占比最 大可達(dá)50%。同時,分布式計算模式也意味著,單點(diǎn)的故障將導(dǎo)致整個集群不可用,因此在故障的時候需要快速定位與恢復(fù)訓(xùn)練,把損失降到最 低。

如何在大規(guī)模組網(wǎng)前提下,提升通信效率、降低通信占比,讓訓(xùn)練穩(wěn)定高可用,進(jìn)而提升GPU的利用率和模型訓(xùn)練效率,是AI網(wǎng)絡(luò)要解決的核心問題。

數(shù)據(jù)顯示,星脈網(wǎng)絡(luò)2.0可實(shí)現(xiàn)大模型訓(xùn)練過程中,網(wǎng)絡(luò)通信占比(通信時間占總體時間比例)低至6%,遠(yuǎn)低于10%的業(yè)界水平;通信負(fù)載率達(dá)到90%,與IB網(wǎng)絡(luò)(Infiniband)持平,相較于標(biāo)準(zhǔn)以太網(wǎng)提升60%。整體能力處于業(yè)界頂 尖水平。

四大組件全面升級,助力AI訓(xùn)練提速

騰訊自研星脈網(wǎng)絡(luò)是一套軟硬協(xié)同的高性能網(wǎng)絡(luò)體系,包括自研網(wǎng)絡(luò)設(shè)備、通信協(xié)議、通信庫以及運(yùn)營系統(tǒng)四大關(guān)鍵組件,每個組件均采用了業(yè)界首創(chuàng)的騰訊核心技術(shù)。

(騰訊云副總裁王亞晨)

硬件方面,騰訊星脈網(wǎng)絡(luò)是業(yè)界首 個采用全自研網(wǎng)絡(luò)設(shè)備的高性能網(wǎng)絡(luò),包括交換機(jī)、自研光模塊、網(wǎng)卡等。自研交換機(jī)從25.6T容量升級到51.2T,同時在業(yè)界率先引入400G硅光模塊,速率翻倍,讓網(wǎng)絡(luò)延遲降低40%,支持超10萬卡大規(guī)模組網(wǎng)。

值得注意的是,星脈網(wǎng)絡(luò)2.0支持搭載騰訊自研的全新算力網(wǎng)卡,這是公共云業(yè)內(nèi)首 款為AI訓(xùn)練設(shè)計的網(wǎng)卡,網(wǎng)卡采用最 新一代 FPGA 芯片,整卡帶寬可達(dá)400Gbps,具備業(yè)界最 高的3.2T整機(jī)通信帶寬。該自研算力網(wǎng)卡運(yùn)行著新一代騰訊自研通信協(xié)議TiTa,并搭載了騰訊獨(dú)有的主動擁塞控制算法。

相比起上一代,TiTa協(xié)議2.0從部署在交換機(jī)轉(zhuǎn)移到了端側(cè)的網(wǎng)卡上,從原來的被動擁塞算法升級到了更為智能的主動擁塞控制算法,可主動調(diào)整數(shù)據(jù)包發(fā)送速率,從而避免網(wǎng)絡(luò)擁堵;并通過擁堵智能調(diào)度,實(shí)現(xiàn)網(wǎng)絡(luò)擁塞快速自愈。這讓混合專家(MoE)模型訓(xùn)練下網(wǎng)絡(luò)通信性能相比1.0提升30%,帶來訓(xùn)練效率10%的提升。

專為星脈網(wǎng)絡(luò)設(shè)計的高性能集合通信庫TCCL,也進(jìn)行了升級。通過創(chuàng)新的NVLINK+NET異構(gòu)并行通信、Auto-Tune?Network?Expert自適應(yīng)算法等通信庫的升級,在MoE模型訓(xùn)練下,給星脈網(wǎng)絡(luò)帶來了30%的通信效率提升,讓模型訓(xùn)練效率提升10%。

TCCL 對外的接口跟原生通信庫接口完全一致的,主流AI大模型客戶不需要額外適配,只需要替換通信庫就可以發(fā)揮星脈的能力。

通信協(xié)議TiTa與通信庫TCCL的升級帶來的效果疊加,讓星脈網(wǎng)絡(luò)的通信效率提升60%,MoE大模型訓(xùn)練效率提升20%。

網(wǎng)絡(luò)的故障或任何單點(diǎn)的故障,將導(dǎo)致整個集群不可用,讓模型訓(xùn)練暫停。因此,網(wǎng)絡(luò)的高可用、穩(wěn)定性也極為重要。為確保星脈網(wǎng)絡(luò)的高可用,騰訊云自研了端到端的全棧網(wǎng)絡(luò)運(yùn)營系統(tǒng),這也是星脈網(wǎng)絡(luò)第四大關(guān)鍵組件。

運(yùn)營系統(tǒng)2.0新增騰訊獨(dú) 家技術(shù)靈境仿真平臺,從原來僅能定位網(wǎng)絡(luò)問題,到可定位GPU節(jié)點(diǎn)問題,實(shí)現(xiàn)萬卡級訓(xùn)練故障卡頓、慢節(jié)點(diǎn)分鐘級定位。這對星脈網(wǎng)絡(luò)進(jìn)行了360度無死角的立體監(jiān)控,可以更快發(fā)現(xiàn)與定位網(wǎng)絡(luò)問題,讓整體故障的排查時間再次大幅縮短,故障時盡快恢復(fù)續(xù)訓(xùn)。

打造最適合大模型的云

目前,騰訊云已經(jīng)面向AIGC場景推出了基于星脈網(wǎng)絡(luò)的大模型訓(xùn)練集群HCC、AIGC存儲解決方案、向量數(shù)據(jù)庫以及行業(yè)大模型服務(wù)MaaS、天御AIGC內(nèi)容安全解決方案等大模型全鏈路云服務(wù)。超過80%的頭部大模型企業(yè)使用了騰訊云服務(wù)。

大模型訓(xùn)練集群在HCC將高性能云服務(wù)器作為節(jié)點(diǎn),滿配最 新代次的GPU,節(jié)點(diǎn)之間通過自研星脈網(wǎng)絡(luò)互聯(lián),提供高性能、高帶寬和低延遲的一體化高性能計算產(chǎn)品。

騰訊云AIGC云存儲解決方案是國內(nèi)首 個實(shí)現(xiàn)存儲引擎全面自研的云存儲解決方案,可將大模型的數(shù)據(jù)清洗和訓(xùn)練效率均提升一倍,需要的時間縮短一半。

騰訊云向量數(shù)據(jù)庫Tencent Cloud VectorDB每日支撐超過3700億次向量檢索請求,可支持千億級向量規(guī)模存儲,萬級 QPS 及毫秒級查詢延遲,適用于大模型的訓(xùn)練推理、RAG場景、AI應(yīng)用以及搜索推薦服務(wù),實(shí)現(xiàn)企業(yè)數(shù)據(jù)接入AI的效率比傳統(tǒng)方案提升10倍。

騰訊云打造了天御AIGC全鏈路的內(nèi)容安全解決方案,提供包含數(shù)據(jù)服務(wù)、安全專家、機(jī)器審核、版權(quán)保護(hù)、客戶體驗(yàn)管理五大服務(wù)體系,護(hù)航企業(yè)從模型訓(xùn)練到事后運(yùn)營全過程的內(nèi)容安全建設(shè)。

同時,在自身AI基礎(chǔ)設(shè)施支撐下,騰訊自研的通用大模型騰訊混元大模型也在持續(xù)迭代。

借助基于星脈網(wǎng)絡(luò)的大模型訓(xùn)練集群HCC、Angel機(jī)器學(xué)習(xí)平臺等自研底層技術(shù),騰訊搭建起萬卡AI訓(xùn)練集群,可以用更少的資源訓(xùn)練更大的模型,訓(xùn)練速度是主流框架的2.6倍;推理成本相比業(yè)界主流框架下降70%,并且支持國產(chǎn)主流硬件的適配。

騰訊混元已擴(kuò)展至萬億級參數(shù)規(guī)模,采用混合專家模型(MoE)結(jié)構(gòu),在通用基礎(chǔ)能力和專業(yè)應(yīng)用能力方面處于國內(nèi)主流大模型領(lǐng)先地位。無論是企業(yè)客戶還是個人開發(fā)者,都可以通過騰訊云上API直接調(diào)用騰訊混元,實(shí)現(xiàn)更便捷的智能化升級。騰訊還聯(lián)合生態(tài)伙伴,將大模型技術(shù)與20多個行業(yè)結(jié)合,提供超50個行業(yè)大模型解決方案。

大模型時代的來臨,將開創(chuàng)下一代云服務(wù),騰訊云致力于打造“最適合大模型的云”,也將持續(xù)升級底層AI基礎(chǔ)設(shè)施,助力企業(yè)把握AI時代。

推廣

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))均為站長傳媒平臺用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù),對本頁面內(nèi)容所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任,相關(guān)信息僅供參考。站長之家將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。任何單位或個人認(rèn)為本頁面內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,可及時向站長之家提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明(點(diǎn)擊查看反饋聯(lián)系地址)。本網(wǎng)站在收到上述法律文件后,將會依法依規(guī)核實(shí)信息,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

  • 相關(guān)推薦
  • IBM發(fā)布全新光電共封裝工藝:AI模型訓(xùn)練速度將提升5倍

    快科技12月12日消息,據(jù)報道,IBM在光學(xué)技術(shù)方面獲得新進(jìn)展,有望提升數(shù)據(jù)中心訓(xùn)練和運(yùn)行生成式AI模型的效率。IBM推出了新一代光電共封裝(CPO)工藝。該技術(shù)利用光學(xué)連接,實(shí)現(xiàn)了數(shù)據(jù)中心內(nèi)部的光速數(shù)據(jù)傳輸,完美補(bǔ)充了現(xiàn)有的短距離光纜系統(tǒng)。研究人員展示了光電共封裝技術(shù)將如何重新定義計算行業(yè)在芯片、電路板和服務(wù)器之間的高帶寬數(shù)據(jù)傳輸。最大限度地減少GPU?

  • AI大模型時代,人才的需求已經(jīng)變了

    什么是AI發(fā)展的第一驅(qū)動力?最近,全球科技大廠都在用行動告訴我們:人才。谷歌NotebookLM的核心團(tuán)隊(duì)共同宣布離職創(chuàng)業(yè),他們新公司的網(wǎng)站已經(jīng)進(jìn)入了「建設(shè)中」的狀態(tài)。但要真正解決AI人才短缺的問題需要更多企業(yè)、高校和社會各界的共同努力。

  • 李開復(fù)周志華縱論AI大模型,萬字梳理MEET'25大咖激辯,320萬觀眾同見證

    「ScalingLaw」和「打臉時刻」,絕對是2024年科技智能領(lǐng)域的年度關(guān)鍵詞。這是20余位工業(yè)界、學(xué)術(shù)界乃至投資界的頂流大咖,在量子位MEET2025智能未來大會上反復(fù)提及、探討的話題。后續(xù)還將有大會嘉賓更詳細(xì)版內(nèi)容分享,敬請關(guān)注!

  • 思必馳智能語音攜手茅臺,打造“國酒級”AI大模型智能會議方案

    茅臺集團(tuán)是中國乃至全球知名的白酒企業(yè),自 1951 年成立以來,始終堅守傳統(tǒng)工藝與創(chuàng)新精神的融合之道。 1996 年,茅臺酒的釀造工藝被正式確認(rèn)為國家機(jī)密,受到嚴(yán)格保護(hù)。 2001 年,這一傳統(tǒng)工藝榮獲國家級首批物質(zhì)文化遺產(chǎn)的殊榮。思必馳是國內(nèi)專業(yè)的大模型對話式人工智能平臺型企業(yè)。公司以“溝通萬物、打理萬事”為使命,基于公司自主研發(fā)的全鏈路智能對話系統(tǒng)定?

  • 谷歌史上最強(qiáng)大模型!Gemini 2.0正式發(fā)布

    今天凌晨,谷歌正式發(fā)布了為新智能體時代構(gòu)建的下一代模型Gemini2.0。這是谷歌迄今為止功能最強(qiáng)的AI模型,帶來了更強(qiáng)的性能、更多的多模態(tài)表現(xiàn)和新的原生工具應(yīng)用。Gemini2.0還會擴(kuò)展到更多Google產(chǎn)品中。

  • AI日報:階躍星辰內(nèi)測視頻大模型Step-Video;即夢AI圖片2.1模型支持生成文字;騰訊發(fā)布混元視頻生成大模型

    歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、階躍星辰視頻生成大模型Step-Video開啟內(nèi)測可在躍問視頻申請階躍星辰的Step-Video模型正式開啟內(nèi)測,用戶可以通過躍問視頻官網(wǎng)申請資格。用戶可在最新版本的WPSOffice中輕松找到?

  • 業(yè)界首次!中國聯(lián)通AI大模型存算分離技術(shù)新突破

    快科技12月8日消息,中國聯(lián)通宣布,中國聯(lián)通研究院日前與浙江聯(lián)通、聯(lián)通服裝制造軍團(tuán)協(xié)同攻關(guān),針對AI敏感數(shù)據(jù)的本地存儲異地訓(xùn)練需求提出了創(chuàng)新的業(yè)務(wù)模式,并成功在杭州與金華兩地間實(shí)施了業(yè)界首次30TB樣本數(shù)據(jù)的跨200公里存算分離拉遠(yuǎn)訓(xùn)練。經(jīng)過實(shí)際測算,訓(xùn)練效率高達(dá)97%以上。中國聯(lián)通表示,上述業(yè)務(wù)模式為業(yè)界首例,實(shí)現(xiàn)了AI大模型存算分離技術(shù)的突破。通過測試,充分驗(yàn)證了存算分離技術(shù)的安全性、可行性和高效性,為未來AI技術(shù)的發(fā)展提供了新的思路和方向。據(jù)介紹,存算分離技術(shù)是指將存儲數(shù)據(jù)的倉庫和對數(shù)據(jù)進(jìn)行計算的加工廠獨(dú)立?

  • AI日報:阿里發(fā)布推理模型QwQ-32B-Preview;360新AI搜索產(chǎn)品“納米搜索”;字節(jié)訴攻擊模型訓(xùn)練實(shí)習(xí)生索賠800萬;ComfyUI桌面版發(fā)布

    歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、360發(fā)布多模態(tài)內(nèi)容創(chuàng)作引擎“納米搜索”360公司在發(fā)布會上推出了“納米搜索”這一創(chuàng)新的多模態(tài)內(nèi)容創(chuàng)作引擎。盡管申請尚未獲得批準(zhǔn),但OpenAI在牙買加提前申請了相關(guān)商標(biāo),并在與GuyRavine的商標(biāo)爭議中獲得了初步勝訴,這進(jìn)一步鞏固了其品牌權(quán)益。

  • 字節(jié)跳動起訴攻擊模型訓(xùn)練實(shí)習(xí)生:索賠800萬

    字節(jié)跳動起訴前實(shí)習(xí)生田某某篡改代碼攻擊公司內(nèi)部模型訓(xùn)練一案,已獲北京市海淀區(qū)人民法院正式受理。字節(jié)跳動請求法院,判令田某某賠償公司侵權(quán)損失800萬元及合理支出2萬元,并公開賠禮道歉。字節(jié)跳動已與其解除實(shí)習(xí)協(xié)議,同步陽光誠信聯(lián)盟及企業(yè)反舞弊聯(lián)盟,并同步至其就讀學(xué)校處理。

  • 2024,大模型殺進(jìn)“決賽圈”

    HenryChesbrough在著作《通過技術(shù)創(chuàng)新盈利勢在必行》中,曾提出過一個創(chuàng)新的“漏斗模型”。開放式創(chuàng)新一開始鼓勵百花齊放,但最終只有10%的技術(shù)能夠通過這個漏斗,成功抵達(dá)目標(biāo)市場targetmarket,進(jìn)入到商業(yè)化與產(chǎn)業(yè)化的下一個階段其余的90%的技術(shù),逐漸淡出人們的視野?!叭巳私钥葾I”的2025離我們越來越近了。

熱文

  • 3 天
  • 7天