幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

首頁(yè) > 傳媒 > 關(guān)鍵詞  > 大模型最新資訊  > 正文

多模態(tài)數(shù)據(jù)趨勢(shì)下,滴普科技助力AIGC實(shí)現(xiàn)高質(zhì)量數(shù)據(jù)治理

2023-05-26 11:31 · 稿源: 站長(zhǎng)之家用戶

? ?在ChatGPT的帶動(dòng)下,大模型概念越來(lái)越火熱,僅國(guó)內(nèi)就有包括百度、阿里、騰訊、京東、科大訊飛在內(nèi)的多家互聯(lián)網(wǎng)、AI公司陸續(xù)宣布對(duì)大模型展開(kāi)探索。不過(guò),也有另外一種聲音表示,雖然大模型在推進(jìn)產(chǎn)業(yè)智能化升級(jí)中已表現(xiàn)出巨大潛力,但目前距離大規(guī)模產(chǎn)業(yè)應(yīng)用依然存在諸多未知。

? ? ? ?回歸大模型本身,其主要依賴算法、算力和數(shù)據(jù)的綜合支撐,這三大要素缺一不可,特別是數(shù)據(jù)質(zhì)量的高低,往往決定AI算法模型的性能上限。大模型訓(xùn)練一般需要經(jīng)過(guò)預(yù)訓(xùn)練、強(qiáng)化學(xué)習(xí)、應(yīng)用三個(gè)階段,期間需要對(duì)數(shù)據(jù)進(jìn)行獲取、清洗、訓(xùn)練、調(diào)優(yōu)、對(duì)齊等數(shù)據(jù)管理。因此,大規(guī)模原始數(shù)據(jù)的獲取,高質(zhì)量的數(shù)據(jù)清洗,對(duì)模型訓(xùn)練至關(guān)重要。

? ? ? ?湖倉(cāng)一體作為一種新型的數(shù)據(jù)架構(gòu),為解決數(shù)據(jù)高質(zhì)量問(wèn)題提供了可能性。那么,大模型為什么需要湖倉(cāng)一體架構(gòu)的的數(shù)據(jù)平臺(tái)來(lái)支撐呢?

? ? ? ?從參數(shù)規(guī)模上看,AI大模型先后經(jīng)歷了預(yù)訓(xùn)練模型、大規(guī)模預(yù)訓(xùn)練模型、超大規(guī)模預(yù)訓(xùn)練模型三個(gè)階段,參數(shù)量實(shí)現(xiàn)了從億級(jí)到萬(wàn)億級(jí)的突破,數(shù)據(jù)量極大,比如GPT- 1 是上億規(guī)模的參數(shù)量,數(shù)據(jù)集就使用了 1 萬(wàn)本書的BookCorpus, 25 億單詞量,GPT- 2 參數(shù)量達(dá)到了 15 億規(guī)模,GPT- 3 模型數(shù)據(jù)量更是超過(guò)百億。如此巨大規(guī)模的數(shù)據(jù)量,必然面臨數(shù)據(jù)質(zhì)量參差不齊、有效數(shù)據(jù)難以抓取的問(wèn)題。

? ? ? ?從數(shù)據(jù)類型上來(lái)看,除了語(yǔ)言之外,圖像、視頻、音頻、語(yǔ)義文本等多模態(tài)數(shù)據(jù)的出現(xiàn),對(duì)數(shù)據(jù)采集、數(shù)據(jù)處理的技術(shù)也提出了更高的要求。

? ? ? ?然而,大多數(shù)企業(yè)采用的數(shù)據(jù)倉(cāng)庫(kù)無(wú)法實(shí)現(xiàn)存算分離,數(shù)據(jù)湖的計(jì)算能力又明顯不足,而湖倉(cāng)一體結(jié)合了數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)優(yōu)勢(shì),存儲(chǔ)和計(jì)算分別使用單獨(dú)的群集,這樣系統(tǒng)能夠擴(kuò)展到更多并發(fā)用戶和更大數(shù)據(jù)量,且支持底層多種數(shù)據(jù)模型并存,支持異構(gòu)數(shù)據(jù)的實(shí)時(shí)查詢和分析,流數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等,可以有效提升數(shù)據(jù)管理水平。

? ? ? ?目前,國(guó)內(nèi)外各大廠商都在研發(fā)“湖倉(cāng)一體”架構(gòu),如亞馬遜云科技的Redshift Spectrum、微軟的Azure Data Lake、Databricks、華為云的FusionInsight、滴普科技的FastData等,賦能到各行業(yè)數(shù)據(jù)平臺(tái)建設(shè),實(shí)現(xiàn)海量、高維多源多模態(tài)的實(shí)時(shí)數(shù)據(jù)處理。。

? ? ? ?滴普科技實(shí)時(shí)湖倉(cāng)平臺(tái)FastData,采用存算分離架構(gòu),提供多種數(shù)據(jù)類型的統(tǒng)一存儲(chǔ)能力,具備數(shù)據(jù)入湖、實(shí)時(shí)計(jì)算、即席分析、湖倉(cāng)管理、統(tǒng)一元數(shù)據(jù)管理等核心功能,支持PB級(jí)多模數(shù)據(jù)存儲(chǔ)與處理,并基于DLink Mesh架構(gòu)擴(kuò)展支持分布式多級(jí)數(shù)據(jù)湖,具備統(tǒng)一的多租戶權(quán)限和安全管控機(jī)制,支持流批一體數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)科學(xué)等多工作負(fù)載。

? ? ? ?特別是對(duì)于大模型存在的多個(gè)數(shù)據(jù)源集成帶來(lái)的數(shù)據(jù)錯(cuò)誤、重復(fù)內(nèi)容,實(shí)時(shí)湖倉(cāng)平臺(tái)FastData可以覆蓋數(shù)據(jù)資產(chǎn)化全流程進(jìn)行質(zhì)量監(jiān)管和檢驗(yàn),通過(guò)數(shù)據(jù)治理體系建設(shè),幫助企業(yè)沉淀標(biāo)準(zhǔn)的專業(yè)服務(wù)和數(shù)據(jù)資產(chǎn)分析場(chǎng)景庫(kù),保證數(shù)據(jù)口徑的一致性,提升數(shù)據(jù)資產(chǎn)的完整性、準(zhǔn)確性、一致性。

? ? ? ?作為 “Data+AI”數(shù)據(jù)智能領(lǐng)域的領(lǐng)先實(shí)踐者,滴普科技十分重視數(shù)據(jù)智能技術(shù)的創(chuàng)新價(jià)值,積極在AI大模型領(lǐng)域進(jìn)行產(chǎn)品創(chuàng)新,逐漸構(gòu)建了數(shù)據(jù)基礎(chǔ)設(shè)施+數(shù)據(jù)治理的產(chǎn)品服務(wù)模式,為大模型產(chǎn)業(yè)提供數(shù)據(jù)底層基礎(chǔ)設(shè)施建設(shè)。

? ? ? ?在此基礎(chǔ)上,滴普科技在基礎(chǔ)產(chǎn)業(yè)與垂直領(lǐng)域進(jìn)行數(shù)據(jù)智能模型創(chuàng)新,探索產(chǎn)業(yè)大模型體系。滴普科技成立了專門的FastAGI產(chǎn)品線,通過(guò)將開(kāi)源模型本地化,以及基于行業(yè)知識(shí)形成行業(yè)領(lǐng)域模型,賦能到客戶的業(yè)務(wù)領(lǐng)域中。

? ? ? ?當(dāng)前,大模型主要分為通用模型、垂直模型,如垂直的AI大模型就是針對(duì)某個(gè)特定領(lǐng)域或者場(chǎng)景,利用行業(yè)的數(shù)據(jù)和知識(shí),提供更準(zhǔn)確和有效的解決方案。未來(lái),滴普科技也將繼續(xù)發(fā)揮湖倉(cāng)一體數(shù)據(jù)智能技術(shù)優(yōu)勢(shì)支持大模型發(fā)展,并提供業(yè)務(wù)垂直領(lǐng)域的數(shù)據(jù)智能模型創(chuàng)新服務(wù),以模型+算力驅(qū)動(dòng)企業(yè)數(shù)據(jù)智能決策。

推廣

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))均為站長(zhǎng)傳媒平臺(tái)用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù),對(duì)本頁(yè)面內(nèi)容所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任,相關(guān)信息僅供參考。站長(zhǎng)之家將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。任何單位或個(gè)人認(rèn)為本頁(yè)面內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),可及時(shí)向站長(zhǎng)之家提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明(點(diǎn)擊查看反饋聯(lián)系地址)。本網(wǎng)站在收到上述法律文件后,將會(huì)依法依規(guī)核實(shí)信息,溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

  • 相關(guān)推薦

熱文

  • 3 天
  • 7天