聲明:本文來自于微信公眾號硅星人Pro,作者:周一笑,授權站長之家轉載發(fā)布。
每天,全球有數(shù)億人在向AI產(chǎn)品傾訴他們的想法、困惑、創(chuàng)意,甚至秘密。但鮮有人意識到,這些對話正在以“幫助訓練下一代AI模型的”的名義,突破著過往移動互聯(lián)網(wǎng)產(chǎn)品的數(shù)據(jù)使用界限。
ChatGPT引發(fā)了這一輪的AI革命,也讓這種聊天對話的產(chǎn)品形態(tài)成了大模型產(chǎn)品們最流行的樣貌。而這種對話形態(tài),在很多時候讓用戶“以為”自己在使用像微信這樣的社交產(chǎn)品,進而忽視了在數(shù)據(jù)使用上,它們與這些我們習慣了的產(chǎn)品大有不同,甚至完全相反。
事實上,幾乎所有主流AI產(chǎn)品都在用戶協(xié)議中明確寫道,用戶的輸入將被用于模型訓練,也就是,你的“聊天記錄”不是只屬于你的,而是被平臺收集的。這種“數(shù)據(jù)采集”方式若放在移動互聯(lián)網(wǎng)的任一款產(chǎn)品上,都可以被認為是用戶在產(chǎn)品面前“裸奔”,很多時候是不被允許的,但大模型的狂奔中,它卻被人們忽視了。
在當前AI技術快速發(fā)展的背景下,用戶數(shù)據(jù)的收集與使用已經(jīng)遠遠超出了傳統(tǒng)互聯(lián)網(wǎng)產(chǎn)品的范疇。你與AI助手的對話、上傳的圖片、甚至刪除的內(nèi)容,都可能被用來訓練下一代的AI模型,而且一旦數(shù)據(jù)被用于訓練,即便用戶后悔也很難“撤回”——這些數(shù)據(jù)將永久地影響模型的行為。
圍繞近年來發(fā)生的典型案例,我們能更清晰地看到用戶數(shù)據(jù)與AI產(chǎn)品之間的敏感關系。
早在2023年4月,OpenAI的ChatGPT因隱私泄露問題在意大利被暫時封禁。調(diào)查發(fā)現(xiàn),一些用戶的個人信息和聊天記錄因開源庫漏洞被錯誤展示。
2024年9月,愛爾蘭數(shù)據(jù)保護委員會(DPC)對X公司提起訴訟,指控其在未經(jīng)用戶同意的情況下,自動收集了用戶的帖子、互動、輸入和結果,用于訓練生成式AI聊天機器人Grok的用戶數(shù)據(jù),以提高其作為搜索和聊天人工智能的性能。最終,X公司同意永久停止處理歐盟用戶的個人數(shù)據(jù)。
2024年11月27日,路透社的一則報道揭示了用戶對微軟“連接體驗”功能的擔憂。部分用戶在社交媒體上指出,微軟要求用戶選擇退出該功能,并認為該功能被用于訓練AI模型。尤其是對于企業(yè)用戶來說,Microsoft365中可能包含著重要的商業(yè)計劃、財務報表、客戶數(shù)據(jù)、產(chǎn)品設計等機密信息。如果這些數(shù)據(jù)被用于訓練AI模型,可能會導致商業(yè)機密泄露,對企業(yè)造成潛在的損失。
盡管微軟迅速否認了這一說法,強調(diào)其不會使用Microsoft365消費者和商業(yè)應用程序的客戶數(shù)據(jù)來訓練基礎大型語言模型,但社交媒體上的討論依然顯示出公眾對于未經(jīng)允許數(shù)據(jù)被用于AI模型訓練的普遍擔憂。類似的,國內(nèi)的WPS AI也出現(xiàn)過“用戶文檔被用于AI訓練”的質疑。
那些你已同意但并沒有閱讀的隱私條款
我們能更清晰地看到用戶數(shù)據(jù)與AI產(chǎn)品之間的敏感關系。企業(yè)并不被要求披露他們用于訓練模型的數(shù)據(jù)來源,但根據(jù)一系列隱私法律的規(guī)定,他們需要說明如何使用客戶提供的數(shù)據(jù)。對比國內(nèi)外主流AI產(chǎn)品的隱私條款,可以發(fā)現(xiàn)各家公司在用戶數(shù)據(jù)使用上的策略存在顯著差異。
Kimi
Kimi的《用戶隱私協(xié)議》中指出,他們會收集用戶在產(chǎn)品交互過程中輸入的本數(shù)據(jù)信息,以及用戶選擇使用瀏覽器助手等功能時提供的網(wǎng)頁內(nèi)容和上下文信息。收集到的信息將用于提供相關服務。在經(jīng)過安全加密、嚴格去標識化且無法重新識別特定個人的前提下,Kimi可能會將這些信息用于提升和迭代其產(chǎn)品和服務。
豆包
豆包的隱私政策中提到,為了優(yōu)化和改進服務體驗,他們可能會結合用戶對輸出內(nèi)容的反饋以及使用過程中遇到的問題來改進服務。在經(jīng)過安全加密技術處理、嚴格去標識化且無法重新識別特定個人的前提下,豆包可能會將用戶向AI輸入的數(shù)據(jù)、發(fā)出的指令以及AI相應生成的回復、用戶對產(chǎn)品的訪問和使用情況進行分析并用于模型訓練。豆包為用戶提供了關閉“改進語音服務”的選項來撤回語音信息用于模型訓練的授權,并提供了聯(lián)系方式供用戶撤回其他信息用于模型訓練和優(yōu)化的授權。
智譜
智譜清言的隱私政策聲明中,沒有提到使用用戶的數(shù)據(jù)進行訓練。但提到了如果對個人信息采取技術措施和其他必要措施進行處理,使得數(shù)據(jù)接收方無法重新識別特定個人且不能復原,或進行匿名化的研究、統(tǒng)計分析和預測后,此類數(shù)據(jù)將不屬于個人信息范疇,其使用無需另行征得用戶同意。
Google Gemini的隱私條款顯示,對于免費服務,例如例Google AI Studio和Gemini API的免費額度,Google會利用用戶提交內(nèi)容和生成的內(nèi)容來改進和發(fā)展其產(chǎn)品和服務及機器學習技術,人工審核員可能會閱讀、標注和處理輸入和輸出。但會采取措施保護用戶隱私,包括在人工審核前將數(shù)據(jù)與用戶賬號等信息斷開關聯(lián)。
特別強調(diào)了請勿向免費服務提交敏感、機密或個人信息。
而對于付費服務,例如付費的Gemini API ,Google則承諾不會使用用戶的提示或響應來改進產(chǎn)品。此外,對于歐盟、瑞士或英國的用戶,無論是付費還是免費服務,均不會利用用戶提交和生成的內(nèi)容。
Gemini App用戶則可以選擇對話是否被存儲,并可能用于訓練新模型。對于18歲及以上的用戶,此功能默認開啟;而對于18歲以下的用戶,默認關閉(可選擇自行開啟)。
谷歌旗下的 YouTube規(guī)則略有不同。YouTube在今年一篇博文中證實,它利用上傳到 YouTube 的內(nèi)容來創(chuàng)建和改進其自身服務,包括用于開發(fā) AI 產(chǎn)品。該公司也表示反對其他公司使用 YouTube 內(nèi)容來訓練AI模型。
“多年來,我們一直利用上傳到 YouTube 的內(nèi)容來提升 YouTube 及 Google 上創(chuàng)作者和觀眾的產(chǎn)品體驗,這包括通過機器學習和人工智能應用來實現(xiàn)?!?“這涵蓋了支持我們的信任與安全運營、改進推薦系統(tǒng),以及開發(fā)如自動配音等新的生成式 AI 功能?!?/p>
OpenAI
默認情況下,ChatGPT Enterprise、ChatGPT Team 和 ChatGPT Edu 客戶的數(shù)據(jù)不會用于模型訓練。
對于通過API使用 OpenAI 服務的用戶也是如此。API 客戶可以選擇與OpenAI共享數(shù)據(jù),以改進和訓練未來的模型。
對于個人用戶,無論是付費還是免費用戶,OpenAI允許用戶自己選擇是否允許使用自己的對話用于模型訓練,默認狀態(tài)是允許的。
此外,ChatGPT中的“臨時聊天”不會用于訓練 OpenAI 模型,并在30天后自動刪除。
蘋果已經(jīng)與OpenAI達成協(xié)議,通過Apple Intelligence訪問 ChatGPT,在蘋果集成的ChatGPT的版本中,未登錄賬戶的對話僅由OpenAI處理以提供安全響應,OpenAI不會接收用戶的IP地址,存儲內(nèi)容,或將其用于訓練AI模型。
對于關聯(lián)了ChatGPT賬號的用戶,將適用OpenAI的標準隱私政策。
Meta
Meta表示,它可以使用任何公開分享到Facebook和Instagram的數(shù)據(jù)來訓練其AI系統(tǒng)。
Meta 還表示,與AI功能的互動可用于訓練AI模型。例如,發(fā)送給AI聊天的消息、提出的問題以及要求 Meta AI 創(chuàng)建圖像。這也包括使用Meta Ray-Ban智能眼鏡拍攝的照片,這些照片被用于AI查詢。
值得注意的是,Meta也不允許客戶選擇退出其數(shù)據(jù)用于訓練,除了巴西和歐洲的用戶。但有一點:Meta允許用戶刪除與Meta AI 聊天機器人的對話數(shù)據(jù)。Meta表示,用戶刪除的Meta AI 對話或刪除的Facebook 和 Instagram的公開內(nèi)容,都不會用于未來的訓練。
Anthropic
默認情況下,不會使用用戶信息來訓練模型,Anthropic保留了在某些情況下,使用提示和輸出來訓練其模型的權利。例如,在獲得許可的前提下,當有用戶點擊“贊”或“踩”時。
此外,如同行業(yè)慣例,Anthropic會自動掃描用戶的聊天內(nèi)容來執(zhí)行安全策略。但不會將這些數(shù)據(jù)用于訓練其模型。
從以上對比可以看出,不同公司在數(shù)據(jù)使用上的透明度、用戶選擇權以及數(shù)據(jù)保護措施上存在顯著差異。部分公司在默認情況下即使用用戶數(shù)據(jù)進行模型訓練,而部分公司則提供了相對清晰的選擇退出機制。
但我們面對的仍然是用戶在數(shù)據(jù)使用上的弱勢地位。
本質上,用戶是否允許平臺使用其數(shù)據(jù)進行模型訓練,最終取決于平臺的服務條款和隱私政策。無論平臺現(xiàn)在是否聲明使用用戶與AI的聊天數(shù)據(jù)進行訓練,它們都只需簡單地更改條款,便可隨時調(diào)整數(shù)據(jù)使用策略。而令人擔憂的是,絕大部分用戶根本不會仔細閱讀這些冗長且專業(yè)的條款。
這就引出了一個潛在的風險:“我們用/不用你的數(shù)據(jù)來訓練AI。這些數(shù)據(jù)我們不會與任何人分享。(等到我們的服務條款下次更新時再看吧)” 隨時可能發(fā)生且難以被用戶察覺的條款變更,使得用戶對于自身數(shù)據(jù)的掌控顯得尤為脆弱。例如,X平臺近期更新了其服務條款,允許使用用戶數(shù)據(jù)來訓練AI模型,除非用戶主動選擇退出。
另外一些平臺,即使用戶想拒絕將個人數(shù)據(jù)用于模型訓練,卻往往沒有明確的功能或工具進行操作,這更凸顯了用戶在數(shù)據(jù)隱私方面的被動處境。
而這一切與傳統(tǒng)互聯(lián)網(wǎng)產(chǎn)品形成鮮明對比。拿微信的隱私條款來看,其隱私政策詳盡地列舉了每一項數(shù)據(jù)收集的具體場景、目的和范圍,甚至明確承諾“不會收集用戶的聊天記錄”。當年被嚴格管控的數(shù)據(jù)獲取行為,如今在AI產(chǎn)品中使用用戶數(shù)據(jù)卻成為一種常態(tài)。
這里的問題在于,一方面,經(jīng)過多年移動互聯(lián)網(wǎng)社交產(chǎn)品的“馴化”,用戶已習慣性忽視隱私條款,而新興的AI對話產(chǎn)品又酷似社交軟件,讓人下意識延續(xù)了這種疏忽。另一方面,當這些產(chǎn)品打著“大模型”的旗號出現(xiàn)時,儼然成了模型進步的試驗場。用戶數(shù)據(jù)不再被視為需要謹慎對待的隱私,而是模型進步的必需品。于是,用戶的個人信息被重新定義為“語料”,這種轉換,反而成了數(shù)據(jù)收集的“正當理由”。
收集用戶數(shù)據(jù)真的能提高模型能力么
各大AI公司都在瘋狂“圈地”用戶數(shù)據(jù),但一個尷尬的現(xiàn)實可能是:傳統(tǒng)互聯(lián)網(wǎng)產(chǎn)品的數(shù)據(jù)網(wǎng)絡效應,在大模型時代似乎并不成立。
這種數(shù)據(jù)狂熱的背后,一個被廣泛接受的理由是:用戶越多,數(shù)據(jù)越多,模型越強大,從而吸引更多用戶,形成正向循環(huán)。然而,這個看似合理的邏輯,真的適用于當前的AI大模型嗎?像 GPT-4或 Stable Diffusion 這樣的基礎模型,真的能從持續(xù)的用戶數(shù)據(jù)輸入中獲得持續(xù)的性能提升嗎?
首先,大模型訓練的根基是公開數(shù)據(jù),而非專有數(shù)據(jù)。ChatGPT背后的數(shù)據(jù),更多來自維基百科這樣的開放資源,而非用戶的獨家內(nèi)容。其次,用戶與模型之間缺乏直接的反饋閉環(huán),你的每一次對話可能被收集,但并不會立即改善模型表現(xiàn)。
比如,盡管ChatGPT已擁有超3億周活用戶,OpenAI的下一代模型卻遲遲未能問世。這個現(xiàn)象似乎在暗示,依靠用戶數(shù)據(jù)可能并不足以突破大模型訓練所面臨的“數(shù)據(jù)墻”問題。
那么,為什么各家AI公司仍堅持收集用戶數(shù)據(jù)?
這種現(xiàn)象背后有更深層的原因。表面上看,擁有海量用戶數(shù)據(jù)的AI公司似乎占據(jù)優(yōu)勢。但事實可能并非如此:
第一,用戶數(shù)據(jù)的質量參差不齊。日常對話中充斥著大量重復、瑣碎甚至錯誤的信息,這些“噪音”未必能提升模型質量。反而可能帶來額外的數(shù)據(jù)清洗成本。
第二,預訓練階段完成后,模型的能力邊界已經(jīng)基本確立。用戶的每一次對話即使被收集,也不會立即改善模型表現(xiàn)。
第三,商業(yè)模型的壁壘正在轉向場景深耕。比如醫(yī)療領域的AI需要專業(yè)醫(yī)療數(shù)據(jù),而非泛泛的用戶聊天記錄。通用大模型收集的用戶數(shù)據(jù),對特定領域的突破幫助有限。
所以,用戶雖然在使用過程中產(chǎn)生了數(shù)據(jù),但他們并未直接創(chuàng)造這些模型所訓練的原始數(shù)據(jù),這意味著用戶與模型之間缺乏直接的反饋回路,難以形成傳統(tǒng)意義上的數(shù)據(jù)網(wǎng)絡效應。
但用戶數(shù)據(jù)的價值依然存在,只是性質已經(jīng)改變:它們不再是提升模型能力的關鍵。而是企業(yè)獲取商業(yè)利益的新工具。通過分析用戶對話,企業(yè)可以洞察用戶行為、發(fā)掘變現(xiàn)場景、定制商業(yè)功能,甚至和廣告商共享信息。
這個轉變也提醒我們:當AI公司聲稱“為了提升模型性能”而收集數(shù)據(jù)時,我們需要更謹慎地思考,在“預訓練終結”越來越成為行業(yè)共識的當下,這是推動技術進步的必要條件,還是商業(yè)訴求下對用戶數(shù)據(jù)的“濫用”?沒有人比AI公司更清楚這個問題的答案。
結語
大模型帶來的隱私挑戰(zhàn),遠比數(shù)據(jù)泄露更為復雜。不僅可能泄露數(shù)據(jù)片段,還能通過參數(shù)化學習建立聯(lián)系、進行推斷——無論準確與否,讓隱私問題更加難以捉摸。即使采取了數(shù)據(jù)脫敏措施,也未必能徹底消除風險。例如“奶奶漏洞”的出現(xiàn):看似脫敏的數(shù)據(jù),在與其他信息源結合后,仍可能通過獨特的文體風格等線索,重新識別出用戶,讓隱私無所遁形。
大模型并非直接存儲訓練數(shù)據(jù),而是通過參數(shù)化的方式內(nèi)化了數(shù)據(jù)的結構和規(guī)律。這種方式讓模型獲得了強大的能力,但也意味著我們無法像刪除文件一樣,簡單地擦除已經(jīng)融入模型的信息,這也為隱私保護帶來了新的難題。
更令人擔憂的是,一個荒謬的現(xiàn)實正在上演,越來越像移動互聯(lián)網(wǎng)產(chǎn)品的新一代AI產(chǎn)品正在獲得比移動互聯(lián)網(wǎng)時代更大的數(shù)據(jù)采集和使用權限。
回溯社交媒體時代,科技行業(yè)構建起龐大的全球網(wǎng)絡,通過將用戶的帖子與點擊轉化為利潤,實現(xiàn)了個人數(shù)據(jù)的貨幣化。今天,那些曾經(jīng)讓各大APP夢寐以求的用戶數(shù)據(jù),在AI產(chǎn)品的用戶協(xié)議中,都變成了“理所當然”的條款,邊界被悄然拓寬了。
隨著模型技術的進步放緩,各個模型公司面對通過產(chǎn)品實現(xiàn)商業(yè)化的壓力時,會如何決策,變成了一件幾乎可以預料到的事情。
看起來現(xiàn)在是時候有更多更直接和更嚴肅的討論了。
(舉報)