MIT等機(jī)構(gòu)推出數(shù)據(jù)溯源平臺(tái) 解決AI領(lǐng)域的數(shù)據(jù)透明危機(jī)

2023-10-26 10:21 · 稿源：站長(zhǎng)之家

?? 劃重點(diǎn):
1. 研究人員聯(lián)合MIT、Cohere for AI等機(jī)構(gòu)發(fā)布了Data Provenance Platform，旨在解決AI領(lǐng)域的數(shù)據(jù)透明危機(jī)。
2. 他們對(duì)近2，000個(gè)廣泛使用的微調(diào)數(shù)據(jù)集進(jìn)行了審計(jì)和追蹤，這些數(shù)據(jù)集已被下載數(shù)千萬(wàn)次，是許多自然語(yǔ)言處理（NLP）突破的基礎(chǔ)。
3. 報(bào)告指出，數(shù)據(jù)集的溯源和透明度問(wèn)題可能導(dǎo)致數(shù)據(jù)泄漏、暴露個(gè)人身份信息、出現(xiàn)意外偏見(jiàn)或行為，從而降低了模型的質(zhì)量，同時(shí)也帶來(lái)了法律和倫理風(fēng)險(xiǎn)。

站長(zhǎng)之家(ChinaZ.com) 10月26日消息:研究人員來(lái)自麻省理工學(xué)院（MIT）、Cohere for AI以及其他11個(gè)機(jī)構(gòu)，他們共同發(fā)布了Data Provenance Platform，旨在應(yīng)對(duì)AI領(lǐng)域的數(shù)據(jù)透明危機(jī)。這一平臺(tái)的推出旨在解決AI模型訓(xùn)練數(shù)據(jù)集的來(lái)源和使用透明度不足的問(wèn)題，這是當(dāng)前AI領(lǐng)域亟待解決的挑戰(zhàn)之一。

腦機(jī)接口 AI機(jī)器人

圖源備注：圖片由AI生成，圖片授權(quán)服務(wù)商Midjourney

這個(gè)跨機(jī)構(gòu)合作的倡議審計(jì)和追蹤了近2，000個(gè)廣泛使用的微調(diào)數(shù)據(jù)集。這些數(shù)據(jù)集被下載了數(shù)千萬(wàn)次，被認(rèn)為是許多自然語(yǔ)言處理（NLP）領(lǐng)域突破的基礎(chǔ)。這一舉措的發(fā)起者包括MIT Media Lab的博士候選人Shayne Longpre和Cohere for AI的負(fù)責(zé)人Sara Hooker。

這個(gè)跨學(xué)科倡議的結(jié)果是迄今為止規(guī)模最大的AI數(shù)據(jù)集審計(jì)。這些數(shù)據(jù)集首次包含了標(biāo)簽，用于指示原始數(shù)據(jù)來(lái)源、多次重新授權(quán)、創(chuàng)建者和其他數(shù)據(jù)屬性。為了使這些信息實(shí)際可操作并易于獲取，他們還開(kāi)發(fā)了一個(gè)名為"Data Provenance Explorer"的互動(dòng)平臺(tái)，允許開(kāi)發(fā)人員根據(jù)法律和倫理考慮來(lái)跟蹤和篩選成千上萬(wàn)個(gè)數(shù)據(jù)集，同時(shí)也讓學(xué)者和記者探索流行AI數(shù)據(jù)集的組成和數(shù)據(jù)淵源。

與此同時(shí)，他們還發(fā)布了一份名為"The Data Provenance Initiative: A Large Scale Audit of Dataset Licensing & Attribution in AI"（數(shù)據(jù)來(lái)源倡議:人工智能中數(shù)據(jù)集許可和歸屬的大規(guī)模審計(jì)）的研究報(bào)告。報(bào)告指出，越來(lái)越多的廣泛使用的數(shù)據(jù)集被視為單一整體，而不是一系列數(shù)據(jù)來(lái)源，這些數(shù)據(jù)經(jīng)過(guò)多次包裝和重新授權(quán)。這種處理方式的缺點(diǎn)在于，它們通常不充分注明數(shù)據(jù)來(lái)源和版權(quán)信息，這導(dǎo)致了對(duì)訓(xùn)練數(shù)據(jù)的理解不足。這一不足可能導(dǎo)致訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)之間的數(shù)據(jù)泄漏，暴露個(gè)人身份信息，導(dǎo)致意外的偏見(jiàn)或行為，最終降低了模型的質(zhì)量。此外，這也帶來(lái)了倫理和法律風(fēng)險(xiǎn)，例如，模型發(fā)布與數(shù)據(jù)使用條款可能相互抵觸。這些挑戰(zhàn)都不容易解決，因?yàn)樵跀?shù)據(jù)上訓(xùn)練模型既昂貴又基本不可逆轉(zhuǎn)。

Data Provenance Platform的推出有望改善AI領(lǐng)域的數(shù)據(jù)透明度，提高數(shù)據(jù)集的質(zhì)量和倫理合規(guī)性，從而推動(dòng)AI技術(shù)的可持續(xù)發(fā)展。這一舉措也將有助于減少AI模型中的潛在問(wèn)題，如偏見(jiàn)、數(shù)據(jù)泄漏和法律風(fēng)險(xiǎn)，為AI技術(shù)的廣泛應(yīng)用提供更可靠的基礎(chǔ)。

（舉報(bào)）

相關(guān)推薦

關(guān)鍵詞：

【Neo上新】銷(xiāo)售易統(tǒng)一客戶(hù)數(shù)據(jù)平臺(tái)4大能力上線，讓數(shù)據(jù)應(yīng)用得心應(yīng)手

數(shù)據(jù)已經(jīng)成為企業(yè)在經(jīng)營(yíng)過(guò)程中最重要的生產(chǎn)資料，企業(yè)通過(guò)數(shù)據(jù)的分析、應(yīng)用了解業(yè)務(wù)現(xiàn)狀，洞察市場(chǎng)趨勢(shì)，規(guī)避經(jīng)營(yíng)風(fēng)險(xiǎn)。企業(yè)在數(shù)據(jù)應(yīng)用層面，依然存在諸多難題：?各部門(mén)對(duì)數(shù)據(jù)指標(biāo)理解不一致，業(yè)務(wù)決策缺乏統(tǒng)一口徑；?海量數(shù)據(jù)處理緩慢，響應(yīng)超時(shí)，影響用戶(hù)體驗(yàn)；?歷史數(shù)據(jù)缺乏備份，數(shù)據(jù)變化過(guò)程難以及時(shí)洞察和分析；?系統(tǒng)間存在數(shù)據(jù)孤島，不同部門(mén)之間數(shù)據(jù)共享協(xié)作難……為解決上述問(wèn)題，銷(xiāo)售易在統(tǒng)一客戶(hù)數(shù)據(jù)平臺(tái)基礎(chǔ)上發(fā)布指標(biāo)平臺(tái)、數(shù)據(jù)集、數(shù)據(jù)快照、數(shù)據(jù)API四大數(shù)據(jù)能力，從指標(biāo)管理、計(jì)算能力、數(shù)據(jù)追蹤、共享協(xié)作四個(gè)維度全面提升企業(yè)數(shù)據(jù)應(yīng)用能力。API接口升級(jí)后：開(kāi)放【NeoBI視圖查詢(xún)數(shù)據(jù)】接口，業(yè)務(wù)連接更無(wú)縫銷(xiāo)售易數(shù)據(jù)API對(duì)數(shù)據(jù)查詢(xún)接口功能進(jìn)行了升級(jí)，開(kāi)放NeoBI視圖查詢(xún)數(shù)據(jù)接口和異步任務(wù)能力，市場(chǎng)部門(mén)可在營(yíng)銷(xiāo)軟件中直接獲取銷(xiāo)售部門(mén)在NeoBI中完成分析計(jì)算的數(shù)據(jù)，無(wú)需重復(fù)在其他應(yīng)用中計(jì)算，大大提高了開(kāi)放性，各部門(mén)協(xié)作更流暢，數(shù)據(jù)更精準(zhǔn)。

?數(shù)據(jù)分析 ?企業(yè)數(shù)據(jù) ?市場(chǎng)趨勢(shì)
瓴羊“數(shù)據(jù)同學(xué)會(huì)”走進(jìn)蔚來(lái)，用數(shù)據(jù)預(yù)見(jiàn)“未來(lái)”

在十一月的最后一周，我國(guó)北方紛紛迎來(lái)冬季初雪，汽車(chē)窗戶(hù)被大雪冰封的視頻紛紛登上熱搜，當(dāng)其他車(chē)主還在為凍壞的汽車(chē)無(wú)法發(fā)動(dòng)奮戰(zhàn)時(shí)，剛好迎來(lái)成立十周年的蔚來(lái)汽車(chē)，早在10月23日就推出了蔚來(lái)2024暖冬行動(dòng)，為北方八個(gè)省份的蔚來(lái)車(chē)主提供免費(fèi)補(bǔ)充防凍液等服務(wù)，讓大家再度見(jiàn)識(shí)到了蔚來(lái)的寵粉天花板。作為瓴羊的合作車(chē)企樣板之一，中國(guó)汽車(chē)新勢(shì)力——蔚來(lái)的目標(biāo)是做一家“用戶(hù)企業(yè)”，獨(dú)樹(shù)一格的定位讓蔚來(lái)形成了獨(dú)特的用戶(hù)運(yùn)營(yíng)體系，例如:中秋節(jié)送紅酒、春運(yùn)高峰期間向所有蔚來(lái)車(chē)主提供不限次數(shù)的免費(fèi)換電服務(wù)...這些無(wú)微不至的服務(wù)，讓蔚來(lái)又被車(chē)主戲稱(chēng)為”親媽式服務(wù)”?！緮?shù)據(jù)同學(xué)會(huì)】是阿里巴巴瓴羊與清華大學(xué)數(shù)據(jù)治理等研究中心聯(lián)手打造的數(shù)據(jù)行業(yè)IP，圍繞“共享、共想、共響”理念，團(tuán)結(jié)和聚集數(shù)據(jù)行業(yè)從業(yè)者，分享實(shí)戰(zhàn)經(jīng)驗(yàn)和前沿洞見(jiàn)，以產(chǎn)、學(xué)、研多方聯(lián)動(dòng)，讓數(shù)據(jù)落地企業(yè)，讓企業(yè)收獲成果，充分發(fā)揮數(shù)據(jù)對(duì)經(jīng)濟(jì)發(fā)展的疊加和倍增作用。

?蔚來(lái)汽車(chē) ?防凍液服務(wù) ?冬季汽車(chē)保養(yǎng)
引領(lǐng)數(shù)據(jù)傳輸革命！天冕跨網(wǎng)數(shù)據(jù)交換系統(tǒng)助力數(shù)據(jù)高效安全交換

2024 年 11 月 19 日，天冕科技公布了一項(xiàng)名為《數(shù)據(jù)傳輸與過(guò)濾方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)》的數(shù)據(jù)處理技術(shù)專(zhuān)利。此技術(shù)的特別之處在于，它通過(guò)引入一個(gè)剪貼板模塊服務(wù)器，在現(xiàn)有的跨網(wǎng)文件交換服務(wù)器基礎(chǔ)上實(shí)現(xiàn)了高效、安全的數(shù)據(jù)傳輸。早在該專(zhuān)利公布之前，根據(jù)該專(zhuān)利技術(shù)延展的解決方案天冕跨網(wǎng)數(shù)據(jù)交換系統(tǒng)，便已開(kāi)始應(yīng)用，不僅用于自研平臺(tái)，也與某頭部?

?數(shù)據(jù)傳輸 ?數(shù)據(jù)過(guò)濾 ?天冕科技
愛(ài)聊強(qiáng)化網(wǎng)絡(luò)安全，智能AI與大數(shù)據(jù)守護(hù)用戶(hù)社交安全

在科技浪潮的推動(dòng)下，人類(lèi)的社交領(lǐng)域正經(jīng)歷著前所未有的變革，變得愈發(fā)多元化與便捷。社交平臺(tái)不僅跨越了地理的局限，讓遙遠(yuǎn)的距離不再是溝通的障礙，更促進(jìn)了信息的瞬息傳遞與個(gè)人表達(dá)的無(wú)限自由，極大地拓寬了現(xiàn)代人的社交視野與體驗(yàn)。

?愛(ài)聊
薦Ilya向全世界宣布：預(yù)訓(xùn)練結(jié)束了！全球AI數(shù)據(jù)耗盡，超級(jí)智能才是未來(lái)

【新智元導(dǎo)讀】全球頂會(huì)NeurIPS2024中，Ilya登場(chǎng)演講，向全世界宣告:預(yù)訓(xùn)練結(jié)束了!數(shù)據(jù)如同化石燃料般難以再生，未來(lái)，AI的發(fā)展方向就是具備自我意識(shí)的超級(jí)智能。Ilya現(xiàn)身NeurIPS2024，宣布:預(yù)訓(xùn)練從此將徹底終結(jié)。畢竟預(yù)測(cè)未來(lái)是不可能的，任何事情都有可能發(fā)生。

?NeurIPS2024 ?預(yù)訓(xùn)練 ?AI發(fā)展
時(shí)序數(shù)據(jù)庫(kù)IoTDB支撐北斗智慧物聯(lián)五大應(yīng)用平臺(tái)智慧城市建設(shè)

1.業(yè)務(wù)場(chǎng)景介紹1.1公司簡(jiǎn)介四川北斗智慧物聯(lián)科技有限公司專(zhuān)注于北斗定位、物聯(lián)網(wǎng)、大數(shù)據(jù)、5G等技術(shù)的融合應(yīng)用，致力于提升智慧城市的數(shù)據(jù)價(jià)值。為政府和企業(yè)用戶(hù)提供導(dǎo)航定位、高精度差分定位和基于位置的增值信息服務(wù)等一體化系統(tǒng)解決方案。IoTDB也將繼續(xù)專(zhuān)注于實(shí)現(xiàn)時(shí)序數(shù)據(jù)的穩(wěn)定、高效、安全、靈活管理，通過(guò)技術(shù)創(chuàng)新與應(yīng)用適配，為各行業(yè)提供數(shù)字化、智能化轉(zhuǎn)型的有效路徑。

?北斗定位 ?物聯(lián)網(wǎng)技術(shù) ?智慧城市解決方案
天工AI推出彩頁(yè)功能，聚焦AI閱讀質(zhì)感+創(chuàng)作效能

昆侖萬(wàn)維旗下天工AI推出全新功能——天工AI彩頁(yè)，尤其適合結(jié)構(gòu)化知識(shí)型內(nèi)容的呈現(xiàn)，聚焦用戶(hù)閱讀體驗(yàn)質(zhì)感提升。其編輯器能力非常強(qiáng)大，即使沒(méi)有創(chuàng)作能力的普通人也能0門(mén)檻、0成本進(jìn)行創(chuàng)作。無(wú)論是知識(shí)分享、品牌宣傳還是個(gè)人展示，用戶(hù)都可以高效完成從內(nèi)容生成到設(shè)計(jì)排版的全過(guò)程，創(chuàng)作出兼具視覺(jué)沖擊力與專(zhuān)業(yè)質(zhì)感的精美彩頁(yè)。

?天工AI ?彩頁(yè)設(shè)計(jì) ?結(jié)構(gòu)化知識(shí)
StarRocks 2024 數(shù)據(jù)技術(shù)峰會(huì)圓滿收官，Lakehouse引領(lǐng)數(shù)據(jù)技術(shù)新趨勢(shì)

12月7日，StarRocksSummitAsia2024于北京圓滿落幕。本次峰會(huì)以"LakehouseIsAllYouNeed"為主題，匯聚行業(yè)領(lǐng)袖和技術(shù)專(zhuān)家，共同探討DataAI的創(chuàng)新與行業(yè)實(shí)踐。正如張友東在演講結(jié)束時(shí)所說(shuō)：“Lakehouse不僅是技術(shù)演進(jìn)的方向，更是釋放數(shù)據(jù)價(jià)值的關(guān)鍵，LakehouseisALLyouneed，StarRockswillpoweryourlakehouse！
華為SATA SSD再出新品充分釋放企業(yè)數(shù)據(jù)潛能

隨著數(shù)字化時(shí)代的到來(lái)，存儲(chǔ)技術(shù)的更新?lián)Q代成為科技領(lǐng)域的重要任務(wù)。華為正式發(fā)布了企業(yè)級(jí)3.84TBSATASSD，具有高性能、低時(shí)延、高可靠等特點(diǎn)，完美契合讀密集型的業(yè)務(wù)場(chǎng)景。作為企業(yè)級(jí)SATA硬盤(pán)的明星產(chǎn)品，華為SSDES3521A系列，擁有盤(pán)內(nèi)多級(jí)RAID功能，特別適合典型單系統(tǒng)盤(pán)配置，在大數(shù)據(jù)分析、人工智能推理、云計(jì)算、虛擬化等多種應(yīng)用場(chǎng)景，都能為數(shù)據(jù)中心提供強(qiáng)大的數(shù)據(jù)底座，成為企業(yè)數(shù)字化轉(zhuǎn)型的可靠選擇。

?存儲(chǔ)技術(shù) ?華為SSD ?企業(yè)級(jí)SSD
薦AI日?qǐng)?bào)：ChatGPT AI搜索免費(fèi)開(kāi)放；谷歌AI視頻模型Veo2優(yōu)于Sora；Midjourney重磅上新個(gè)性化模型與情緒板

歡迎來(lái)到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開(kāi)發(fā)者，助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、OpenAI宣布ChatGPT搜索升級(jí)支持地圖、高級(jí)語(yǔ)音等功能OpenAI在最新的直播中宣布了ChatGPT平臺(tái)的重大技術(shù)更新，推出了實(shí)時(shí)搜索和高級(jí)語(yǔ)音交互模式，極大提升了用戶(hù)體驗(yàn)。WPS還提供多樣化的PPT模板，滿足不同用戶(hù)需求。

?人工智能 ?ChatGPT ?實(shí)時(shí)搜索

熱文

3 天
7天

站長(zhǎng)商機(jī)

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

MIT等機(jī)構(gòu)推出數(shù)據(jù)溯源平臺(tái) 解決AI領(lǐng)域的數(shù)據(jù)透明危機(jī)

【Neo上新】銷(xiāo)售易統(tǒng)一客戶(hù)數(shù)據(jù)平臺(tái)4大能力上線，讓數(shù)據(jù)應(yīng)用得心應(yīng)手

瓴羊“數(shù)據(jù)同學(xué)會(huì)”走進(jìn)蔚來(lái)，用數(shù)據(jù)預(yù)見(jiàn)“未來(lái)”

引領(lǐng)數(shù)據(jù)傳輸革命！天冕跨網(wǎng)數(shù)據(jù)交換系統(tǒng)助力數(shù)據(jù)高效安全交換

愛(ài)聊強(qiáng)化網(wǎng)絡(luò)安全，智能AI與大數(shù)據(jù)守護(hù)用戶(hù)社交安全

薦Ilya向全世界宣布：預(yù)訓(xùn)練結(jié)束了！全球AI數(shù)據(jù)耗盡，超級(jí)智能才是未來(lái)

時(shí)序數(shù)據(jù)庫(kù)IoTDB支撐北斗智慧物聯(lián)五大應(yīng)用平臺(tái)智慧城市建設(shè)

天工AI推出彩頁(yè)功能，聚焦AI閱讀質(zhì)感+創(chuàng)作效能

StarRocks 2024 數(shù)據(jù)技術(shù)峰會(huì)圓滿收官，Lakehouse引領(lǐng)數(shù)據(jù)技術(shù)新趨勢(shì)

華為SATA SSD再出新品充分釋放企業(yè)數(shù)據(jù)潛能

薦AI日?qǐng)?bào)：ChatGPT AI搜索免費(fèi)開(kāi)放；谷歌AI視頻模型Veo2優(yōu)于Sora；Midjourney重磅上新個(gè)性化模型與情緒板

熱文

吳柳芳賬號(hào)再次被禁粉絲從600萬(wàn)被清理至4萬(wàn) 抖音：低俗內(nèi)容吸

余承東：華為明年將推出大家想不到的產(chǎn)品

劉強(qiáng)東提前發(fā)年終獎(jiǎng) 絕大多數(shù)員工可獲5到8個(gè)月年終獎(jiǎng)

肯德基中國(guó)漲價(jià) 官方回應(yīng)：運(yùn)營(yíng)成本變化導(dǎo)致

美團(tuán)回應(yīng)騎手穿點(diǎn)男模字樣工服：博流量惡意炒作

騰訊張軍辟謠微信送禮會(huì)議紀(jì)要：只想做點(diǎn)腳踏實(shí)地的事

董明珠回應(yīng)格力電器賣(mài)得貴：為消費(fèi)者帶來(lái)更長(zhǎng)遠(yuǎn)的價(jià)值

騰訊QQ 2024年度報(bào)告發(fā)布：以脫口秀形式呈現(xiàn)

抖音完成100部老港片4K高清修復(fù)：已上線抖音、西瓜視頻

騰訊回應(yīng)微信春節(jié)前開(kāi)放送禮物功能：逐步灰度中