要點:
站長之家(ChinaZ.com) 9月19日 消息:微軟近期的數(shù)據(jù)泄露事件凸顯了AI模型訓練過程中的安全風險和挑戰(zhàn)。這一事件發(fā)生在GitHub公共存儲庫上,由于錯誤使用Azure平臺的共享訪問簽名令牌(SAS),導致了38TB的私人數(shù)據(jù)泄露。
微軟的AI研究人員通過一個權(quán)限過于寬松的SAS令牌在GitHub上分享文件,其中包括用于圖像識別的開源代碼和AI模型。然而,SAS令牌的危險在于缺乏監(jiān)控和管理,因此難以追蹤和控制。這使得微軟的數(shù)據(jù)曝露了數(shù)年之久,嚴重威脅了數(shù)據(jù)的安全性。
圖源備注:圖片由AI生成,圖片授權(quán)服務商Midjourney
除了用于AI模型訓練的數(shù)據(jù),微軟還泄露了兩名員工工作站的磁盤備份,其中包括了“秘密”、私人加密密鑰、密碼以及屬于359名微軟員工的超過30,000條內(nèi)部Microsoft Teams消息??傆嬘?8TB的私人文件可能被任何人訪問,直到微軟于2023年6月24日吊銷了危險的SAS令牌。
這次事件突顯了SAS令牌的安全風險,因為它們?nèi)狈ΡO(jiān)控和治理。Wiz指出,應盡量限制SAS令牌的使用,因為微軟沒有提供通過Azure門戶進行集中管理的方式。
此外,SAS令牌可以配置為“實際上永久有效”,這使得難以追蹤和控制其使用。首個微軟提交到其AI GitHub存儲庫的令牌于2020年7月20日添加,有效期一直延續(xù)到2021年10月5日。隨后又添加了第二個令牌,有效期設置為2051年10月6日。
總之,微軟的這一多TB數(shù)據(jù)泄露事件凸顯了AI模型訓練的風險。這種新興技術(shù)需要大規(guī)模的數(shù)據(jù)來進行訓練,許多開發(fā)團隊需要處理大量數(shù)據(jù),與同行分享數(shù)據(jù),或者參與公共開源項目的合作。然而,類似微軟的事件變得越來越難以監(jiān)控和避免,因此需要更強的安全措施和協(xié)同工作來確保數(shù)據(jù)的安全性和隱私保護。
(舉報)