?? 劃重點(diǎn):
1. 研究人員聯(lián)合MIT、Cohere for AI等機(jī)構(gòu)發(fā)布了Data Provenance Platform,旨在解決AI領(lǐng)域的數(shù)據(jù)透明危機(jī)。
2. 他們對(duì)近2,000個(gè)廣泛使用的微調(diào)數(shù)據(jù)集進(jìn)行了審計(jì)和追蹤,這些數(shù)據(jù)集已被下載數(shù)千萬(wàn)次,是許多自然語(yǔ)言處理(NLP)突破的基礎(chǔ)。
3. 報(bào)告指出,數(shù)據(jù)集的溯源和透明度問(wèn)題可能導(dǎo)致數(shù)據(jù)泄漏、暴露個(gè)人身份信息、出現(xiàn)意外偏見(jiàn)或行為,從而降低了模型的質(zhì)量,同時(shí)也帶來(lái)了法律和倫理風(fēng)險(xiǎn)。
站長(zhǎng)之家(ChinaZ.com) 10月26日 消息:研究人員來(lái)自麻省理工學(xué)院(MIT)、Cohere for AI以及其他11個(gè)機(jī)構(gòu),他們共同發(fā)布了Data Provenance Platform,旨在應(yīng)對(duì)AI領(lǐng)域的數(shù)據(jù)透明危機(jī)。這一平臺(tái)的推出旨在解決AI模型訓(xùn)練數(shù)據(jù)集的來(lái)源和使用透明度不足的問(wèn)題,這是當(dāng)前AI領(lǐng)域亟待解決的挑戰(zhàn)之一。
圖源備注:圖片由AI生成,圖片授權(quán)服務(wù)商Midjourney
這個(gè)跨機(jī)構(gòu)合作的倡議審計(jì)和追蹤了近2,000個(gè)廣泛使用的微調(diào)數(shù)據(jù)集。這些數(shù)據(jù)集被下載了數(shù)千萬(wàn)次,被認(rèn)為是許多自然語(yǔ)言處理(NLP)領(lǐng)域突破的基礎(chǔ)。這一舉措的發(fā)起者包括MIT Media Lab的博士候選人Shayne Longpre和Cohere for AI的負(fù)責(zé)人Sara Hooker。
這個(gè)跨學(xué)科倡議的結(jié)果是迄今為止規(guī)模最大的AI數(shù)據(jù)集審計(jì)。這些數(shù)據(jù)集首次包含了標(biāo)簽,用于指示原始數(shù)據(jù)來(lái)源、多次重新授權(quán)、創(chuàng)建者和其他數(shù)據(jù)屬性。為了使這些信息實(shí)際可操作并易于獲取,他們還開(kāi)發(fā)了一個(gè)名為"Data Provenance Explorer"的互動(dòng)平臺(tái),允許開(kāi)發(fā)人員根據(jù)法律和倫理考慮來(lái)跟蹤和篩選成千上萬(wàn)個(gè)數(shù)據(jù)集,同時(shí)也讓學(xué)者和記者探索流行AI數(shù)據(jù)集的組成和數(shù)據(jù)淵源。
與此同時(shí),他們還發(fā)布了一份名為"The Data Provenance Initiative: A Large Scale Audit of Dataset Licensing & Attribution in AI"(數(shù)據(jù)來(lái)源倡議:人工智能中數(shù)據(jù)集許可和歸屬的大規(guī)模審計(jì))的研究報(bào)告。報(bào)告指出,越來(lái)越多的廣泛使用的數(shù)據(jù)集被視為單一整體,而不是一系列數(shù)據(jù)來(lái)源,這些數(shù)據(jù)經(jīng)過(guò)多次包裝和重新授權(quán)。這種處理方式的缺點(diǎn)在于,它們通常不充分注明數(shù)據(jù)來(lái)源和版權(quán)信息,這導(dǎo)致了對(duì)訓(xùn)練數(shù)據(jù)的理解不足。這一不足可能導(dǎo)致訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)之間的數(shù)據(jù)泄漏,暴露個(gè)人身份信息,導(dǎo)致意外的偏見(jiàn)或行為,最終降低了模型的質(zhì)量。此外,這也帶來(lái)了倫理和法律風(fēng)險(xiǎn),例如,模型發(fā)布與數(shù)據(jù)使用條款可能相互抵觸。這些挑戰(zhàn)都不容易解決,因?yàn)樵跀?shù)據(jù)上訓(xùn)練模型既昂貴又基本不可逆轉(zhuǎn)。
Data Provenance Platform的推出有望改善AI領(lǐng)域的數(shù)據(jù)透明度,提高數(shù)據(jù)集的質(zhì)量和倫理合規(guī)性,從而推動(dòng)AI技術(shù)的可持續(xù)發(fā)展。這一舉措也將有助于減少AI模型中的潛在問(wèn)題,如偏見(jiàn)、數(shù)據(jù)泄漏和法律風(fēng)險(xiǎn),為AI技術(shù)的廣泛應(yīng)用提供更可靠的基礎(chǔ)。
(舉報(bào))