? ?在ChatGPT的帶動(dòng)下,大模型概念越來(lái)越火熱,僅國(guó)內(nèi)就有包括百度、阿里、騰訊、京東、科大訊飛在內(nèi)的多家互聯(lián)網(wǎng)、AI公司陸續(xù)宣布對(duì)大模型展開(kāi)探索。不過(guò),也有另外一種聲音表示,雖然大模型在推進(jìn)產(chǎn)業(yè)智能化升級(jí)中已表現(xiàn)出巨大潛力,但目前距離大規(guī)模產(chǎn)業(yè)應(yīng)用依然存在諸多未知。
? ? ? ?回歸大模型本身,其主要依賴算法、算力和數(shù)據(jù)的綜合支撐,這三大要素缺一不可,特別是數(shù)據(jù)質(zhì)量的高低,往往決定AI算法模型的性能上限。大模型訓(xùn)練一般需要經(jīng)過(guò)預(yù)訓(xùn)練、強(qiáng)化學(xué)習(xí)、應(yīng)用三個(gè)階段,期間需要對(duì)數(shù)據(jù)進(jìn)行獲取、清洗、訓(xùn)練、調(diào)優(yōu)、對(duì)齊等數(shù)據(jù)管理。因此,大規(guī)模原始數(shù)據(jù)的獲取,高質(zhì)量的數(shù)據(jù)清洗,對(duì)模型訓(xùn)練至關(guān)重要。
? ? ? ?湖倉(cāng)一體作為一種新型的數(shù)據(jù)架構(gòu),為解決數(shù)據(jù)高質(zhì)量問(wèn)題提供了可能性。那么,大模型為什么需要湖倉(cāng)一體架構(gòu)的的數(shù)據(jù)平臺(tái)來(lái)支撐呢?
? ? ? ?從參數(shù)規(guī)模上看,AI大模型先后經(jīng)歷了預(yù)訓(xùn)練模型、大規(guī)模預(yù)訓(xùn)練模型、超大規(guī)模預(yù)訓(xùn)練模型三個(gè)階段,參數(shù)量實(shí)現(xiàn)了從億級(jí)到萬(wàn)億級(jí)的突破,數(shù)據(jù)量極大,比如GPT- 1 是上億規(guī)模的參數(shù)量,數(shù)據(jù)集就使用了 1 萬(wàn)本書的BookCorpus, 25 億單詞量,GPT- 2 參數(shù)量達(dá)到了 15 億規(guī)模,GPT- 3 模型數(shù)據(jù)量更是超過(guò)百億。如此巨大規(guī)模的數(shù)據(jù)量,必然面臨數(shù)據(jù)質(zhì)量參差不齊、有效數(shù)據(jù)難以抓取的問(wèn)題。
? ? ? ?從數(shù)據(jù)類型上來(lái)看,除了語(yǔ)言之外,圖像、視頻、音頻、語(yǔ)義文本等多模態(tài)數(shù)據(jù)的出現(xiàn),對(duì)數(shù)據(jù)采集、數(shù)據(jù)處理的技術(shù)也提出了更高的要求。
? ? ? ?然而,大多數(shù)企業(yè)采用的數(shù)據(jù)倉(cāng)庫(kù)無(wú)法實(shí)現(xiàn)存算分離,數(shù)據(jù)湖的計(jì)算能力又明顯不足,而湖倉(cāng)一體結(jié)合了數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)優(yōu)勢(shì),存儲(chǔ)和計(jì)算分別使用單獨(dú)的群集,這樣系統(tǒng)能夠擴(kuò)展到更多并發(fā)用戶和更大數(shù)據(jù)量,且支持底層多種數(shù)據(jù)模型并存,支持異構(gòu)數(shù)據(jù)的實(shí)時(shí)查詢和分析,流數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等,可以有效提升數(shù)據(jù)管理水平。
? ? ? ?目前,國(guó)內(nèi)外各大廠商都在研發(fā)“湖倉(cāng)一體”架構(gòu),如亞馬遜云科技的Redshift Spectrum、微軟的Azure Data Lake、Databricks、華為云的FusionInsight、滴普科技的FastData等,賦能到各行業(yè)數(shù)據(jù)平臺(tái)建設(shè),實(shí)現(xiàn)海量、高維多源多模態(tài)的實(shí)時(shí)數(shù)據(jù)處理。。
? ? ? ?滴普科技實(shí)時(shí)湖倉(cāng)平臺(tái)FastData,采用存算分離架構(gòu),提供多種數(shù)據(jù)類型的統(tǒng)一存儲(chǔ)能力,具備數(shù)據(jù)入湖、實(shí)時(shí)計(jì)算、即席分析、湖倉(cāng)管理、統(tǒng)一元數(shù)據(jù)管理等核心功能,支持PB級(jí)多模數(shù)據(jù)存儲(chǔ)與處理,并基于DLink Mesh架構(gòu)擴(kuò)展支持分布式多級(jí)數(shù)據(jù)湖,具備統(tǒng)一的多租戶權(quán)限和安全管控機(jī)制,支持流批一體數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)科學(xué)等多工作負(fù)載。
? ? ? ?特別是對(duì)于大模型存在的多個(gè)數(shù)據(jù)源集成帶來(lái)的數(shù)據(jù)錯(cuò)誤、重復(fù)內(nèi)容,實(shí)時(shí)湖倉(cāng)平臺(tái)FastData可以覆蓋數(shù)據(jù)資產(chǎn)化全流程進(jìn)行質(zhì)量監(jiān)管和檢驗(yàn),通過(guò)數(shù)據(jù)治理體系建設(shè),幫助企業(yè)沉淀標(biāo)準(zhǔn)的專業(yè)服務(wù)和數(shù)據(jù)資產(chǎn)分析場(chǎng)景庫(kù),保證數(shù)據(jù)口徑的一致性,提升數(shù)據(jù)資產(chǎn)的完整性、準(zhǔn)確性、一致性。
? ? ? ?作為 “Data+AI”數(shù)據(jù)智能領(lǐng)域的領(lǐng)先實(shí)踐者,滴普科技十分重視數(shù)據(jù)智能技術(shù)的創(chuàng)新價(jià)值,積極在AI大模型領(lǐng)域進(jìn)行產(chǎn)品創(chuàng)新,逐漸構(gòu)建了數(shù)據(jù)基礎(chǔ)設(shè)施+數(shù)據(jù)治理的產(chǎn)品服務(wù)模式,為大模型產(chǎn)業(yè)提供數(shù)據(jù)底層基礎(chǔ)設(shè)施建設(shè)。
? ? ? ?在此基礎(chǔ)上,滴普科技在基礎(chǔ)產(chǎn)業(yè)與垂直領(lǐng)域進(jìn)行數(shù)據(jù)智能模型創(chuàng)新,探索產(chǎn)業(yè)大模型體系。滴普科技成立了專門的FastAGI產(chǎn)品線,通過(guò)將開(kāi)源模型本地化,以及基于行業(yè)知識(shí)形成行業(yè)領(lǐng)域模型,賦能到客戶的業(yè)務(wù)領(lǐng)域中。
? ? ? ?當(dāng)前,大模型主要分為通用模型、垂直模型,如垂直的AI大模型就是針對(duì)某個(gè)特定領(lǐng)域或者場(chǎng)景,利用行業(yè)的數(shù)據(jù)和知識(shí),提供更準(zhǔn)確和有效的解決方案。未來(lái),滴普科技也將繼續(xù)發(fā)揮湖倉(cāng)一體數(shù)據(jù)智能技術(shù)優(yōu)勢(shì)支持大模型發(fā)展,并提供業(yè)務(wù)垂直領(lǐng)域的數(shù)據(jù)智能模型創(chuàng)新服務(wù),以模型+算力驅(qū)動(dòng)企業(yè)數(shù)據(jù)智能決策。
(推廣)