幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

首頁 > 業(yè)界 > 關鍵詞  > AI對話最新資訊  > 正文

我們正在大模型產(chǎn)品面前“裸奔”么

2025-01-13 17:58 · 稿源: ?硅星人Pro公眾號

聲明:本文來自于微信公眾號硅星人Pro,作者:周一笑,授權站長之家轉載發(fā)布。

每天,全球有數(shù)億人在向AI產(chǎn)品傾訴他們的想法、困惑、創(chuàng)意,甚至秘密。但鮮有人意識到,這些對話正在以“幫助訓練下一代AI模型的”的名義,突破著過往移動互聯(lián)網(wǎng)產(chǎn)品的數(shù)據(jù)使用界限。

ChatGPT引發(fā)了這一輪的AI革命,也讓這種聊天對話的產(chǎn)品形態(tài)成了大模型產(chǎn)品們最流行的樣貌。而這種對話形態(tài),在很多時候讓用戶“以為”自己在使用像微信這樣的社交產(chǎn)品,進而忽視了在數(shù)據(jù)使用上,它們與這些我們習慣了的產(chǎn)品大有不同,甚至完全相反。

事實上,幾乎所有主流AI產(chǎn)品都在用戶協(xié)議中明確寫道,用戶的輸入將被用于模型訓練,也就是,你的“聊天記錄”不是只屬于你的,而是被平臺收集的。這種“數(shù)據(jù)采集”方式若放在移動互聯(lián)網(wǎng)的任一款產(chǎn)品上,都可以被認為是用戶在產(chǎn)品面前“裸奔”,很多時候是不被允許的,但大模型的狂奔中,它卻被人們忽視了。

在當前AI技術快速發(fā)展的背景下,用戶數(shù)據(jù)的收集與使用已經(jīng)遠遠超出了傳統(tǒng)互聯(lián)網(wǎng)產(chǎn)品的范疇。你與AI助手的對話、上傳的圖片、甚至刪除的內(nèi)容,都可能被用來訓練下一代的AI模型,而且一旦數(shù)據(jù)被用于訓練,即便用戶后悔也很難“撤回”——這些數(shù)據(jù)將永久地影響模型的行為。

圍繞近年來發(fā)生的典型案例,我們能更清晰地看到用戶數(shù)據(jù)與AI產(chǎn)品之間的敏感關系。

早在2023年4月,OpenAI的ChatGPT因隱私泄露問題在意大利被暫時封禁。調(diào)查發(fā)現(xiàn),一些用戶的個人信息和聊天記錄因開源庫漏洞被錯誤展示。

2024年9月,愛爾蘭數(shù)據(jù)保護委員會(DPC)對X公司提起訴訟,指控其在未經(jīng)用戶同意的情況下,自動收集了用戶的帖子、互動、輸入和結果,用于訓練生成式AI聊天機器人Grok的用戶數(shù)據(jù),以提高其作為搜索和聊天人工智能的性能。最終,X公司同意永久停止處理歐盟用戶的個人數(shù)據(jù)。

2024年11月27日,路透社的一則報道揭示了用戶對微軟“連接體驗”功能的擔憂。部分用戶在社交媒體上指出,微軟要求用戶選擇退出該功能,并認為該功能被用于訓練AI模型。尤其是對于企業(yè)用戶來說,Microsoft365中可能包含著重要的商業(yè)計劃、財務報表、客戶數(shù)據(jù)、產(chǎn)品設計等機密信息。如果這些數(shù)據(jù)被用于訓練AI模型,可能會導致商業(yè)機密泄露,對企業(yè)造成潛在的損失。

盡管微軟迅速否認了這一說法,強調(diào)其不會使用Microsoft365消費者和商業(yè)應用程序的客戶數(shù)據(jù)來訓練基礎大型語言模型,但社交媒體上的討論依然顯示出公眾對于未經(jīng)允許數(shù)據(jù)被用于AI模型訓練的普遍擔憂。類似的,國內(nèi)的WPS AI也出現(xiàn)過“用戶文檔被用于AI訓練”的質疑。

那些你已同意但并沒有閱讀的隱私條款

我們能更清晰地看到用戶數(shù)據(jù)與AI產(chǎn)品之間的敏感關系。企業(yè)并不被要求披露他們用于訓練模型的數(shù)據(jù)來源,但根據(jù)一系列隱私法律的規(guī)定,他們需要說明如何使用客戶提供的數(shù)據(jù)。對比國內(nèi)外主流AI產(chǎn)品的隱私條款,可以發(fā)現(xiàn)各家公司在用戶數(shù)據(jù)使用上的策略存在顯著差異。

Kimi

1.png

Kimi的《用戶隱私協(xié)議》中指出,他們會收集用戶在產(chǎn)品交互過程中輸入的本數(shù)據(jù)信息,以及用戶選擇使用瀏覽器助手等功能時提供的網(wǎng)頁內(nèi)容和上下文信息。收集到的信息將用于提供相關服務。在經(jīng)過安全加密、嚴格去標識化且無法重新識別特定個人的前提下,Kimi可能會將這些信息用于提升和迭代其產(chǎn)品和服務。

豆包

2.png

豆包的隱私政策中提到,為了優(yōu)化和改進服務體驗,他們可能會結合用戶對輸出內(nèi)容的反饋以及使用過程中遇到的問題來改進服務。在經(jīng)過安全加密技術處理、嚴格去標識化且無法重新識別特定個人的前提下,豆包可能會將用戶向AI輸入的數(shù)據(jù)、發(fā)出的指令以及AI相應生成的回復、用戶對產(chǎn)品的訪問和使用情況進行分析并用于模型訓練。豆包為用戶提供了關閉“改進語音服務”的選項來撤回語音信息用于模型訓練的授權,并提供了聯(lián)系方式供用戶撤回其他信息用于模型訓練和優(yōu)化的授權。

智譜

3.png

智譜清言的隱私政策聲明中,沒有提到使用用戶的數(shù)據(jù)進行訓練。但提到了如果對個人信息采取技術措施和其他必要措施進行處理,使得數(shù)據(jù)接收方無法重新識別特定個人且不能復原,或進行匿名化的研究、統(tǒng)計分析和預測后,此類數(shù)據(jù)將不屬于個人信息范疇,其使用無需另行征得用戶同意。

Google

圖片

Google Gemini的隱私條款顯示,對于免費服務,例如例Google AI Studio和Gemini API的免費額度,Google會利用用戶提交內(nèi)容和生成的內(nèi)容來改進和發(fā)展其產(chǎn)品和服務及機器學習技術,人工審核員可能會閱讀、標注和處理輸入和輸出。但會采取措施保護用戶隱私,包括在人工審核前將數(shù)據(jù)與用戶賬號等信息斷開關聯(lián)。

圖片

特別強調(diào)了請勿向免費服務提交敏感、機密或個人信息。

而對于付費服務,例如付費的Gemini API ,Google則承諾不會使用用戶的提示或響應來改進產(chǎn)品。此外,對于歐盟、瑞士或英國的用戶,無論是付費還是免費服務,均不會利用用戶提交和生成的內(nèi)容。

Gemini App用戶則可以選擇對話是否被存儲,并可能用于訓練新模型。對于18歲及以上的用戶,此功能默認開啟;而對于18歲以下的用戶,默認關閉(可選擇自行開啟)。

谷歌旗下的 YouTube規(guī)則略有不同。YouTube在今年一篇博文中證實,它利用上傳到 YouTube 的內(nèi)容來創(chuàng)建和改進其自身服務,包括用于開發(fā) AI 產(chǎn)品。該公司也表示反對其他公司使用 YouTube 內(nèi)容來訓練AI模型。

圖片

“多年來,我們一直利用上傳到 YouTube 的內(nèi)容來提升 YouTube 及 Google 上創(chuàng)作者和觀眾的產(chǎn)品體驗,這包括通過機器學習和人工智能應用來實現(xiàn)?!?“這涵蓋了支持我們的信任與安全運營、改進推薦系統(tǒng),以及開發(fā)如自動配音等新的生成式 AI 功能?!?/p>

OpenAI

默認情況下,ChatGPT Enterprise、ChatGPT Team 和 ChatGPT Edu 客戶的數(shù)據(jù)不會用于模型訓練。

對于通過API使用 OpenAI 服務的用戶也是如此。API 客戶可以選擇與OpenAI共享數(shù)據(jù),以改進和訓練未來的模型。

圖片

對于個人用戶,無論是付費還是免費用戶,OpenAI允許用戶自己選擇是否允許使用自己的對話用于模型訓練,默認狀態(tài)是允許的。

圖片

此外,ChatGPT中的“臨時聊天”不會用于訓練 OpenAI 模型,并在30天后自動刪除。

蘋果已經(jīng)與OpenAI達成協(xié)議,通過Apple Intelligence訪問 ChatGPT,在蘋果集成的ChatGPT的版本中,未登錄賬戶的對話僅由OpenAI處理以提供安全響應,OpenAI不會接收用戶的IP地址,存儲內(nèi)容,或將其用于訓練AI模型。

對于關聯(lián)了ChatGPT賬號的用戶,將適用OpenAI的標準隱私政策。

Meta

圖片

Meta表示,它可以使用任何公開分享到Facebook和Instagram的數(shù)據(jù)來訓練其AI系統(tǒng)。

Meta 還表示,與AI功能的互動可用于訓練AI模型。例如,發(fā)送給AI聊天的消息、提出的問題以及要求 Meta AI 創(chuàng)建圖像。這也包括使用Meta Ray-Ban智能眼鏡拍攝的照片,這些照片被用于AI查詢。

值得注意的是,Meta也不允許客戶選擇退出其數(shù)據(jù)用于訓練,除了巴西和歐洲的用戶。但有一點:Meta允許用戶刪除與Meta AI 聊天機器人的對話數(shù)據(jù)。Meta表示,用戶刪除的Meta AI 對話或刪除的Facebook 和 Instagram的公開內(nèi)容,都不會用于未來的訓練。

Anthropic

默認情況下,不會使用用戶信息來訓練模型,Anthropic保留了在某些情況下,使用提示和輸出來訓練其模型的權利。例如,在獲得許可的前提下,當有用戶點擊“贊”或“踩”時。

此外,如同行業(yè)慣例,Anthropic會自動掃描用戶的聊天內(nèi)容來執(zhí)行安全策略。但不會將這些數(shù)據(jù)用于訓練其模型。

從以上對比可以看出,不同公司在數(shù)據(jù)使用上的透明度、用戶選擇權以及數(shù)據(jù)保護措施上存在顯著差異。部分公司在默認情況下即使用用戶數(shù)據(jù)進行模型訓練,而部分公司則提供了相對清晰的選擇退出機制。

但我們面對的仍然是用戶在數(shù)據(jù)使用上的弱勢地位。

本質上,用戶是否允許平臺使用其數(shù)據(jù)進行模型訓練,最終取決于平臺的服務條款和隱私政策。無論平臺現(xiàn)在是否聲明使用用戶與AI的聊天數(shù)據(jù)進行訓練,它們都只需簡單地更改條款,便可隨時調(diào)整數(shù)據(jù)使用策略。而令人擔憂的是,絕大部分用戶根本不會仔細閱讀這些冗長且專業(yè)的條款。

這就引出了一個潛在的風險:“我們用/不用你的數(shù)據(jù)來訓練AI。這些數(shù)據(jù)我們不會與任何人分享。(等到我們的服務條款下次更新時再看吧)” 隨時可能發(fā)生且難以被用戶察覺的條款變更,使得用戶對于自身數(shù)據(jù)的掌控顯得尤為脆弱。例如,X平臺近期更新了其服務條款,允許使用用戶數(shù)據(jù)來訓練AI模型,除非用戶主動選擇退出。

另外一些平臺,即使用戶想拒絕將個人數(shù)據(jù)用于模型訓練,卻往往沒有明確的功能或工具進行操作,這更凸顯了用戶在數(shù)據(jù)隱私方面的被動處境。

而這一切與傳統(tǒng)互聯(lián)網(wǎng)產(chǎn)品形成鮮明對比。拿微信的隱私條款來看,其隱私政策詳盡地列舉了每一項數(shù)據(jù)收集的具體場景、目的和范圍,甚至明確承諾“不會收集用戶的聊天記錄”。當年被嚴格管控的數(shù)據(jù)獲取行為,如今在AI產(chǎn)品中使用用戶數(shù)據(jù)卻成為一種常態(tài)。

這里的問題在于,一方面,經(jīng)過多年移動互聯(lián)網(wǎng)社交產(chǎn)品的“馴化”,用戶已習慣性忽視隱私條款,而新興的AI對話產(chǎn)品又酷似社交軟件,讓人下意識延續(xù)了這種疏忽。另一方面,當這些產(chǎn)品打著“大模型”的旗號出現(xiàn)時,儼然成了模型進步的試驗場。用戶數(shù)據(jù)不再被視為需要謹慎對待的隱私,而是模型進步的必需品。于是,用戶的個人信息被重新定義為“語料”,這種轉換,反而成了數(shù)據(jù)收集的“正當理由”。

收集用戶數(shù)據(jù)真的能提高模型能力么

各大AI公司都在瘋狂“圈地”用戶數(shù)據(jù),但一個尷尬的現(xiàn)實可能是:傳統(tǒng)互聯(lián)網(wǎng)產(chǎn)品的數(shù)據(jù)網(wǎng)絡效應,在大模型時代似乎并不成立。

這種數(shù)據(jù)狂熱的背后,一個被廣泛接受的理由是:用戶越多,數(shù)據(jù)越多,模型越強大,從而吸引更多用戶,形成正向循環(huán)。然而,這個看似合理的邏輯,真的適用于當前的AI大模型嗎?像 GPT-4或 Stable Diffusion 這樣的基礎模型,真的能從持續(xù)的用戶數(shù)據(jù)輸入中獲得持續(xù)的性能提升嗎?

首先,大模型訓練的根基是公開數(shù)據(jù),而非專有數(shù)據(jù)。ChatGPT背后的數(shù)據(jù),更多來自維基百科這樣的開放資源,而非用戶的獨家內(nèi)容。其次,用戶與模型之間缺乏直接的反饋閉環(huán),你的每一次對話可能被收集,但并不會立即改善模型表現(xiàn)。

比如,盡管ChatGPT已擁有超3億周活用戶,OpenAI的下一代模型卻遲遲未能問世。這個現(xiàn)象似乎在暗示,依靠用戶數(shù)據(jù)可能并不足以突破大模型訓練所面臨的“數(shù)據(jù)墻”問題。

那么,為什么各家AI公司仍堅持收集用戶數(shù)據(jù)?

這種現(xiàn)象背后有更深層的原因。表面上看,擁有海量用戶數(shù)據(jù)的AI公司似乎占據(jù)優(yōu)勢。但事實可能并非如此:

第一,用戶數(shù)據(jù)的質量參差不齊。日常對話中充斥著大量重復、瑣碎甚至錯誤的信息,這些“噪音”未必能提升模型質量。反而可能帶來額外的數(shù)據(jù)清洗成本。

第二,預訓練階段完成后,模型的能力邊界已經(jīng)基本確立。用戶的每一次對話即使被收集,也不會立即改善模型表現(xiàn)。

第三,商業(yè)模型的壁壘正在轉向場景深耕。比如醫(yī)療領域的AI需要專業(yè)醫(yī)療數(shù)據(jù),而非泛泛的用戶聊天記錄。通用大模型收集的用戶數(shù)據(jù),對特定領域的突破幫助有限。

所以,用戶雖然在使用過程中產(chǎn)生了數(shù)據(jù),但他們并未直接創(chuàng)造這些模型所訓練的原始數(shù)據(jù),這意味著用戶與模型之間缺乏直接的反饋回路,難以形成傳統(tǒng)意義上的數(shù)據(jù)網(wǎng)絡效應。

但用戶數(shù)據(jù)的價值依然存在,只是性質已經(jīng)改變:它們不再是提升模型能力的關鍵。而是企業(yè)獲取商業(yè)利益的新工具。通過分析用戶對話,企業(yè)可以洞察用戶行為、發(fā)掘變現(xiàn)場景、定制商業(yè)功能,甚至和廣告商共享信息。

這個轉變也提醒我們:當AI公司聲稱“為了提升模型性能”而收集數(shù)據(jù)時,我們需要更謹慎地思考,在“預訓練終結”越來越成為行業(yè)共識的當下,這是推動技術進步的必要條件,還是商業(yè)訴求下對用戶數(shù)據(jù)的“濫用”?沒有人比AI公司更清楚這個問題的答案。

結語

大模型帶來的隱私挑戰(zhàn),遠比數(shù)據(jù)泄露更為復雜。不僅可能泄露數(shù)據(jù)片段,還能通過參數(shù)化學習建立聯(lián)系、進行推斷——無論準確與否,讓隱私問題更加難以捉摸。即使采取了數(shù)據(jù)脫敏措施,也未必能徹底消除風險。例如“奶奶漏洞”的出現(xiàn):看似脫敏的數(shù)據(jù),在與其他信息源結合后,仍可能通過獨特的文體風格等線索,重新識別出用戶,讓隱私無所遁形。

大模型并非直接存儲訓練數(shù)據(jù),而是通過參數(shù)化的方式內(nèi)化了數(shù)據(jù)的結構和規(guī)律。這種方式讓模型獲得了強大的能力,但也意味著我們無法像刪除文件一樣,簡單地擦除已經(jīng)融入模型的信息,這也為隱私保護帶來了新的難題。

更令人擔憂的是,一個荒謬的現(xiàn)實正在上演,越來越像移動互聯(lián)網(wǎng)產(chǎn)品的新一代AI產(chǎn)品正在獲得比移動互聯(lián)網(wǎng)時代更大的數(shù)據(jù)采集和使用權限。

回溯社交媒體時代,科技行業(yè)構建起龐大的全球網(wǎng)絡,通過將用戶的帖子與點擊轉化為利潤,實現(xiàn)了個人數(shù)據(jù)的貨幣化。今天,那些曾經(jīng)讓各大APP夢寐以求的用戶數(shù)據(jù),在AI產(chǎn)品的用戶協(xié)議中,都變成了“理所當然”的條款,邊界被悄然拓寬了。

隨著模型技術的進步放緩,各個模型公司面對通過產(chǎn)品實現(xiàn)商業(yè)化的壓力時,會如何決策,變成了一件幾乎可以預料到的事情。

看起來現(xiàn)在是時候有更多更直接和更嚴肅的討論了。

舉報

  • 相關推薦
  • 出圈就好!盤點2024年國內(nèi)AI大模型產(chǎn)品的那些破圈姿勢

    【TechWeb】經(jīng)歷了拼算力財力人力“大煉”大模型的歲月后,對大模型,從企業(yè)到投資人普遍變得務實起來。如果說大模型就像是一群藏在實驗室里的“技術大神”,天天悶頭搞研究,算法厲害得飛起,但是技術再牛,也得讓用戶愛用,才算是真本事。期待2025年,有更多的破圈層的大模型應用出現(xiàn)。

  • 大模型不再有信仰

    AI大模型的“AGI信仰”可能正處在崩潰邊緣,與曾經(jīng)的“區(qū)塊鏈信仰”殊途同歸。只是當初那一大批“區(qū)塊鏈信仰者”,雖然絕大多數(shù)是韭菜,但也有一小批“塔尖”人士賺的盆滿缽滿;如今的AI大模型初創(chuàng)公司,拋開“AGI信仰”,恐怕連能活多久都不知道。2025年各大模型公司應該會更加務實是那句話,只有活得下去才有實現(xiàn)目標的可能,“信仰”不再重要。

  • 大模型,在內(nèi)卷中尋找出口

    2024年,大模型進展不斷。從年初的Sora到最新的o3,更新更好的模型不斷被推出,“內(nèi)卷”到底有沒有發(fā)生?我們要先確定“內(nèi)卷”的定義,指某一類產(chǎn)業(yè)模式,發(fā)展到一種確定形式后,陷入“高水平均衡陷阱”,出現(xiàn)“沒有發(fā)展的增長”,這種局面一直無法被打破,那就會走向停滯和危機。大模型要取得商業(yè)成功,前提是用戶和開發(fā)者的業(yè)務能否成功,這是為什么完善的商業(yè)基

  • 大模型落地戰(zhàn),挺進大消費

    便利店市場在中國以及全球范圍內(nèi)迅速崛起,成為消費領域的重要增長點。據(jù)中國連鎖經(jīng)營協(xié)會聯(lián)合畢馬威發(fā)布的《2024年中國便利店發(fā)展報告》顯示,中國便利店2023年全年銷售額達到4248億元,同比增速達10.8%。拉近企業(yè)與上下游及終端消費者距離,構建產(chǎn)業(yè)生態(tài),精準洞察消費需求,驅動行業(yè)數(shù)字化轉型。

  • 大模型六小虎,要撞上版權墻了

    “幾乎沒有一家大模型公司的AI視頻生成訓練,會找視頻網(wǎng)站授權?!?025年伊始,在視頻生成領域立志“追平Sora”的大模型公司,撞上了版權墻??梢钥隙ǖ氖?,2025年想要繼續(xù)留在牌桌上的大模型創(chuàng)企們,在模型訓練過程中為版權付費只是第一步,降本不是長久之計,想法子賺錢增效,才是關鍵。

  • AI大模型時代,人才的需求已經(jīng)變了

    什么是AI發(fā)展的第一驅動力?最近,全球科技大廠都在用行動告訴我們:人才。谷歌NotebookLM的核心團隊共同宣布離職創(chuàng)業(yè),他們新公司的網(wǎng)站已經(jīng)進入了「建設中」的狀態(tài)。但要真正解決AI人才短缺的問題需要更多企業(yè)、高校和社會各界的共同努力。

  • 豆包說要「普惠」,于是大模型處理圖片按「厘」計價了

    OpenAI宣告連續(xù)12輪轟炸,讓2024年底的大模型領域熱鬧起來了。但堅持每個凌晨看直播的話會發(fā)現(xiàn),越到后面的發(fā)布越平淡,內(nèi)心的波動也越少了。豆包大模型還有哪些驚喜?值得每一個人期待。

  • 視頻生成大模型賽道,只是看上去擁擠

    2024年最后一個月,國產(chǎn)大模型落地應用突然加速。尤其視頻生成模型,就像密集射出子彈后的槍管,熱得發(fā)燙。AI一天,人間一年。

  • 大模型公司們“猶抱琵琶式”的融資和幸存者游戲

    大模型公司們對自己融資消息的披露,越來越“猶抱琵琶半遮面”了。近期的兩起融資新聞來自智譜和階躍?!边@正在成為大模型行業(yè)的共同挑戰(zhàn),我們很可能會繼續(xù)看到更多的“猶抱琵琶式”融資出現(xiàn)。

  • AI大模型時代下的天融信:安全領域的智能先鋒

    2024年,AI大模型的發(fā)展迎來了前所未有的突破和變革。全球范圍內(nèi),AI大模型因其強大的數(shù)據(jù)處理能力和卓越的性能表現(xiàn),被視為推動產(chǎn)業(yè)升級和經(jīng)濟轉型的重要引擎。隨著AI大模型的不斷發(fā)展和應用場景的不斷拓展,天融信將繼續(xù)秉持“科技引領、創(chuàng)新驅動”的發(fā)展理念,為客戶提供更加優(yōu)質、智能的網(wǎng)絡安全服務,為中國的網(wǎng)絡安全事業(yè)貢獻自己的力量。

熱文

  • 3 天
  • 7天