【摘要】AI大模型的訓(xùn)練、推理及應(yīng)用落地都需要大量的數(shù)據(jù),其數(shù)據(jù)具有參數(shù)和數(shù)據(jù)量大、質(zhì)量要求高、行業(yè)垂直屬性強(qiáng)、資源消耗大等特點(diǎn),由此帶來(lái)的個(gè)人隱私泄露、數(shù)據(jù)中毒、數(shù)據(jù)篡改等數(shù)據(jù)安全風(fēng)險(xiǎn)已成為業(yè)界必須應(yīng)對(duì)的重要議題。目前大模型的規(guī)?;瘧?yīng)用還存在成本、性能、安全和商業(yè)變現(xiàn)等問(wèn)題,其中的數(shù)據(jù)要素價(jià)值有待進(jìn)一步挖掘。
AI技術(shù)發(fā)展如火如荼,以GPT、Bert、文心等為代表的大模型正引領(lǐng)全球新一輪科技發(fā)展潮流。大模型是基于海量數(shù)據(jù)訓(xùn)練、通過(guò)微調(diào)等方式適配各類下游任務(wù),并根據(jù)用戶指令生成各類內(nèi)容的AI模型,具有極為寬廣的應(yīng)用前景。數(shù)據(jù)則是大模型發(fā)展的必備要素,也是賦能新質(zhì)生產(chǎn)力的關(guān)鍵要素,大模型的數(shù)據(jù)安全風(fēng)險(xiǎn)已進(jìn)入快速迭代、全面覆蓋和智能化的新階段。前文《數(shù)據(jù)安全八大發(fā)展趨勢(shì)》中曾提到:“大模型應(yīng)用面臨著傳統(tǒng)數(shù)據(jù)安全之外的多重安全風(fēng)險(xiǎn),包括AI算法模型被攻擊、訓(xùn)練數(shù)據(jù)中毒、敏感數(shù)據(jù)泄露等等”。那么,大模型中的數(shù)據(jù)有哪些特點(diǎn),落地應(yīng)用又存在哪些問(wèn)題?以及進(jìn)一步如何挖掘大模型中的數(shù)據(jù)要素價(jià)值,發(fā)展負(fù)責(zé)任、可信任、受控的人工智能?希望數(shù)篷的系列文章能給出有價(jià)值的啟示和參考。
一、背景
截至2023年底,我國(guó)公開(kāi)的AI大模型數(shù)量已接近240個(gè),較2023年中翻了3倍,號(hào)稱“百模大戰(zhàn)”;根據(jù)共研產(chǎn)業(yè)的相關(guān)預(yù)測(cè):預(yù)計(jì)到2024年底,我國(guó)大模型的市場(chǎng)規(guī)模將接近1500億元(如圖1所示)。
圖1? 我國(guó)AI大模型市場(chǎng)規(guī)模發(fā)展趨勢(shì)
從全球來(lái)看,我國(guó)已上線和在研的大模型數(shù)量?jī)H次于美國(guó),中美兩國(guó)之和已占到全球的80%以上,妥妥的“二八法則”。大模型在瘋狂擴(kuò)張的同時(shí),數(shù)據(jù)安全和網(wǎng)絡(luò)犯罪也達(dá)到了以前沒(méi)有規(guī)模:2023年10月,Palo Alto Networks的事件響應(yīng)團(tuán)隊(duì)接到的需求數(shù)量達(dá)到歷史最 高水平,網(wǎng)絡(luò)犯罪分子不僅使用勒索軟件攻擊關(guān)鍵基礎(chǔ)設(shè)施,而且還掌握了利用生成式AI等新興技術(shù)實(shí)施攻擊的新手段。
二、AI大模型的數(shù)據(jù)特點(diǎn)
AI大模型訓(xùn)練、推理及應(yīng)用落地都需要大量的數(shù)據(jù)作為支撐,其數(shù)據(jù)具有參數(shù)和數(shù)據(jù)量大、質(zhì)量要求高、行業(yè)垂直屬性強(qiáng)、資源消耗大等特點(diǎn),由此帶來(lái)的諸如個(gè)人隱私泄露、數(shù)據(jù)中毒、數(shù)據(jù)篡改等數(shù)據(jù)安全風(fēng)險(xiǎn)已成為業(yè)界必須應(yīng)對(duì)的重要議題。
大模型的“大”體現(xiàn)在:參數(shù)數(shù)量龐大、訓(xùn)練數(shù)據(jù)量大、多模態(tài)數(shù)據(jù)類型豐富。大模型擁有巨大的參數(shù)規(guī)模和深層的網(wǎng)絡(luò)結(jié)構(gòu),通常包含數(shù)十億到數(shù)百億個(gè)參數(shù),能夠捕捉數(shù)據(jù)中的復(fù)雜關(guān)系,具有強(qiáng)大的數(shù)據(jù)表示和學(xué)習(xí)能力。大模型基于深度學(xué)習(xí),利用“沒(méi)有最 大、只有更大”規(guī)模的訓(xùn)練數(shù)據(jù)集,不斷調(diào)整參數(shù)獲取更全面信息,提高模型的泛化能力,可以在未見(jiàn)過(guò)的新任務(wù)上也有不錯(cuò)的性能表現(xiàn)。此外,訓(xùn)練大模型需要多模態(tài)的數(shù)據(jù)集,包括文本、圖像、語(yǔ)音、視頻等結(jié)構(gòu)化和非結(jié)構(gòu)化的多種形式,數(shù)據(jù)集規(guī)模正呈爆發(fā)式增長(zhǎng),2018年GPT-1數(shù)據(jù)集約為4.6GB,2020年GPT-3數(shù)據(jù)集達(dá)到了753GB,ChatGPT的多模態(tài)數(shù)據(jù)集則達(dá)到45TB,相當(dāng)于超萬(wàn)億單詞的人類語(yǔ)言數(shù)據(jù)集。
數(shù)據(jù)質(zhì)量正成為千億參數(shù)大模型的巨大短板。有專家曾指出:AI發(fā)展正在從“以模型為中心”加速轉(zhuǎn)向“以數(shù)據(jù)為中心”。隨著各種開(kāi)源大模型的涌現(xiàn),數(shù)據(jù)質(zhì)量的重要性進(jìn)一步凸顯,高質(zhì)量的行業(yè)數(shù)據(jù)往往決定著模型的精度與表現(xiàn)。仍以ChatGPT為例,從多個(gè)數(shù)據(jù)源采集到大量原始數(shù)據(jù)后,利用NLP技術(shù)對(duì)原始數(shù)據(jù)進(jìn)行清洗,使用特定的過(guò)濾器去除噪聲數(shù)據(jù)和無(wú)用信息,再使用數(shù)據(jù)增強(qiáng)技術(shù)對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)充,增加語(yǔ)料庫(kù)的規(guī)模和多樣性,從而提高ChatGPT的泛化能力和魯棒性。未來(lái),通過(guò)增加書(shū)籍和科學(xué)論文等專業(yè)數(shù)據(jù)集比例、有效利用公共政務(wù)數(shù)據(jù)、對(duì)互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行開(kāi)放融合等手段,可以進(jìn)一步提升訓(xùn)練數(shù)據(jù)的質(zhì)量,而這些高質(zhì)量的訓(xùn)練數(shù)據(jù)也有望成為數(shù)據(jù)要素交易的重點(diǎn)對(duì)象。
通用大模型的部署重、通用能力強(qiáng),但行業(yè)適配性略差、較難支撐細(xì)分行業(yè)領(lǐng)域和企業(yè)內(nèi)部場(chǎng)景應(yīng)用,垂直化或成未來(lái)大模型發(fā)展的必然趨勢(shì)。行業(yè)垂直大模型在通用大模型的基礎(chǔ)上,加入企業(yè)自身數(shù)據(jù)對(duì)模型精細(xì)化調(diào)整,經(jīng)過(guò)大量行業(yè)數(shù)據(jù)的“投喂改造”,具有輕量化、快速部署的特點(diǎn),可以應(yīng)用在端側(cè)和邊緣側(cè)。將通用大模型和垂直大模型比喻為“通才”和“專才”,前者用一個(gè)模型解決通用性的各種問(wèn)題,而后者使用專用數(shù)據(jù)庫(kù)對(duì)模型進(jìn)行訓(xùn)練改造,解決特定領(lǐng)域的問(wèn)題,改善一些模型“一本正經(jīng)地胡說(shuō)八道”的問(wèn)題,更加準(zhǔn)確地匹配產(chǎn)業(yè)鏈中的供給與需求。
圖2? 人工智能基礎(chǔ)設(shè)施架構(gòu)
大模型的數(shù)據(jù)對(duì)計(jì)算資源和電力資源消耗巨大。大模型具有更大的參數(shù)量和更復(fù)雜的架構(gòu),訓(xùn)練和推理時(shí)需要更高的計(jì)算資源,不管在本地部署還是云上分布式部署,都需要高性能GPU集群或其他專用硬件。此外,大模型算力日新月異的背后,還有對(duì)電力資源的巨大消耗:ChatGPT每天可能會(huì)消耗超過(guò)50萬(wàn)千瓦時(shí)的電力,來(lái)響應(yīng)用戶的約2億個(gè)請(qǐng)求;如果生成式人工智能被廣泛應(yīng)用,耗電量可能會(huì)更多,Uptime Institute預(yù)測(cè)到2025年,人工智能業(yè)務(wù)在全球數(shù)據(jù)中心用電量中的占比將從2%猛增到10%,名副其實(shí)的“電老虎”!
三、AI大模型規(guī)?;瘧?yīng)用的瓶頸問(wèn)題
2023年,我國(guó)提出“重視通用人工智能發(fā)展,營(yíng)造創(chuàng)新生態(tài),重視防范風(fēng)險(xiǎn)”,高度重視人工智能大模型安全。隨后,國(guó)家網(wǎng)信辦等部門(mén)聯(lián)合發(fā)布《生成式人工智能服務(wù)管理暫行辦法》,確立了人工智能產(chǎn)品的安全評(píng)估規(guī)定及管理辦法;配套支撐的《生成式人工智能服務(wù)安全基本要求》、《信息安全技術(shù)生成式人工智能預(yù)訓(xùn)練和優(yōu)化訓(xùn)練數(shù)據(jù)安全規(guī)范》、《信息安全技術(shù)生成式人工智能人工標(biāo)注安全規(guī)范》等相關(guān)標(biāo)準(zhǔn)也相繼發(fā)布,維護(hù)人工智能大模型的規(guī)范應(yīng)用和健康發(fā)展。2024年,國(guó)家數(shù)據(jù)局等17部門(mén)聯(lián)合發(fā)布《“數(shù)據(jù)要素×”三年行動(dòng)計(jì)劃(2024—2026年)》,明確指出“以科學(xué)數(shù)據(jù)支持大模型開(kāi)發(fā),深入挖掘各類科學(xué)數(shù)據(jù)和科技文獻(xiàn),建設(shè)高質(zhì)量語(yǔ)料庫(kù)和基礎(chǔ)科學(xué)數(shù)據(jù)集,支持開(kāi)展人工智能大模型開(kāi)發(fā)和訓(xùn)練”。
大模型要求高性能、低成本、安全可信,目前大模型在行業(yè)的規(guī)?;瘧?yīng)用還存在以下幾個(gè)問(wèn)題:
1成本問(wèn)題
私有化部署的大模型,需要專用的AI芯片及GPU集群,對(duì)于數(shù)據(jù)、計(jì)算、能源資源消耗巨大,成本昂貴。面向中小企業(yè),基于共享資源的云計(jì)算模式可能更加適合,彈性計(jì)算資源適合多租戶訪問(wèn)、隨用隨訓(xùn)隨訓(xùn)隨取的場(chǎng)景,成本相對(duì)可控。此外,大模型研發(fā)需要長(zhǎng)期投入,構(gòu)建完備的訓(xùn)練框架、算子庫(kù)和模型庫(kù),搭建生態(tài)體系、云邊端推廣部署和常態(tài)化運(yùn)營(yíng),企業(yè)的生態(tài)成本也不容小覷。
2性能問(wèn)題
據(jù)AI Index報(bào)告稱,2023年全球發(fā)布的新大型語(yǔ)言模型數(shù)量比上一年翻了一番,其中三分之二的模型是開(kāi)源的,但性能最 高的模型來(lái)自擁有封閉系統(tǒng)的行業(yè)參與者。因此,大模型需要持續(xù)優(yōu)化算法以縮小與封閉大模型的性能差距,提升大模型“軍備競(jìng)賽”中的競(jìng)爭(zhēng)力。此外,大模型還需要結(jié)合高質(zhì)量的行業(yè)數(shù)據(jù)和優(yōu)化算法,解決內(nèi)容質(zhì)量、內(nèi)容可信的問(wèn)題,同時(shí)考慮大模型的可解釋性和公平性等問(wèn)題。
3安全問(wèn)題
大模型數(shù)據(jù)來(lái)源除了公開(kāi)數(shù)據(jù)、自有數(shù)據(jù)、合成數(shù)據(jù)外,用戶在與大模型的交互過(guò)程中產(chǎn)生的數(shù)據(jù)也成為了模型訓(xùn)練的語(yǔ)料基礎(chǔ),在數(shù)據(jù)的輸出過(guò)程中必須確保數(shù)據(jù)安全。中小企業(yè)對(duì)于云上大模型的數(shù)據(jù)開(kāi)發(fā)利用存在后顧之憂,擔(dān)心大模型內(nèi)部類似“黑盒”的處理過(guò)程違規(guī)收集數(shù)據(jù),擔(dān)心計(jì)算過(guò)程中的托管數(shù)據(jù)和產(chǎn)生的高價(jià)值敏感數(shù)據(jù)可能被平臺(tái)方獲取,同時(shí)也擔(dān)心平臺(tái)采用的多租戶隔離技術(shù)存在數(shù)據(jù)泄露風(fēng)險(xiǎn),因此不愿意分享高質(zhì)量的訓(xùn)練數(shù)據(jù)和開(kāi)發(fā)潛在的數(shù)據(jù)價(jià)值。
另一方面,企業(yè)還需警惕“模型中毒”問(wèn)題,大模型數(shù)據(jù)易遭到惡意數(shù)據(jù)的“污染”,模型訓(xùn)練已經(jīng)不再是簡(jiǎn)單的比拼數(shù)據(jù)規(guī)模和算法架構(gòu),糾錯(cuò)和抗干擾能力也相當(dāng)重要。一些大模型的訓(xùn)練語(yǔ)料庫(kù)可能包含大量虛假、色情、暴力等有害信息,存在較大的安全隱患。
基于上述安全問(wèn)題,可信計(jì)算、隱私計(jì)算在大模型時(shí)代迎來(lái)全新機(jī)遇,包括可信執(zhí)行環(huán)境(TEE)、多方安全計(jì)算(MPC)、聯(lián)邦學(xué)習(xí)(FELE)等技術(shù)都有與大模型結(jié)合的探索機(jī)會(huì)。
4商業(yè)變現(xiàn)問(wèn)題
大模型的能源成本、數(shù)據(jù)成本和芯片采購(gòu)成本不斷攀升,在一定程度上也制約阻礙大模型的升級(jí)迭代。目前,大模型的B端應(yīng)用已經(jīng)出現(xiàn)各種定價(jià)方法,包括按時(shí)間段計(jì)費(fèi)、按token計(jì)費(fèi)、按查詢次數(shù)計(jì)費(fèi)以及包含硬件的一站式解決方案;針對(duì)C端客戶,一些大模型也已開(kāi)始嘗試收取月費(fèi)。未來(lái),隨著數(shù)據(jù)要素產(chǎn)業(yè)的成熟,面向大模型的高質(zhì)量訓(xùn)練數(shù)據(jù)集有望加入數(shù)據(jù)交易的行列,多次流轉(zhuǎn)進(jìn)一步釋放數(shù)據(jù)要素價(jià)值,降低數(shù)據(jù)擁有方和大模型平臺(tái)的經(jīng)營(yíng)成本。各地政府鼓勵(lì)的大模型產(chǎn)業(yè)園,旨在拉通并匹配上下游產(chǎn)業(yè)鏈的市場(chǎng)需求,解決大模型數(shù)據(jù)產(chǎn)品化、商業(yè)變現(xiàn)和生態(tài)構(gòu)建的問(wèn)題。
四、結(jié)語(yǔ)
綜上所述,目前大模型規(guī)?;瘧?yīng)用存在的成本、性能、安全和商業(yè)變現(xiàn)等問(wèn)題,制約著其中數(shù)據(jù)要素價(jià)值的進(jìn)一步發(fā)揮。如何將大模型中的價(jià)值數(shù)據(jù)轉(zhuǎn)化為可量化、可交易、可持續(xù)增值的資產(chǎn),并推動(dòng)大模型產(chǎn)業(yè)和數(shù)據(jù)要素市場(chǎng)的高質(zhì)量健康發(fā)展,是當(dāng)前大模型平臺(tái)方、數(shù)據(jù)持有方、數(shù)據(jù)使用方和數(shù)據(jù)監(jiān)管方等多元主體共同關(guān)心的話題。
(推廣)