聲明:本文來自微信公眾號“機器之心”(ID:almosthuman2014),作者:Sia,授權(quán)站長之家轉(zhuǎn)載發(fā)布。
新年伊始,ChatGPT 竟成了「恐怖分子」的幫兇?在為一位美國現(xiàn)役軍人提供爆炸知識后,后者成功將一輛特斯拉 Cybertruck 在酒店門口引爆……
汽車爆炸現(xiàn)場畫面,外媒視頻截圖
這并非科幻電影橋段,而是 AI 安全風(fēng)險正在文明身邊真實上演的縮影。知名 AI 投資人 Rob Toews 在《福布斯》專欄預(yù)測,2025年我們將迎來「第一起真實的 AI 安全事件」。
我們已經(jīng)開始和另一種智能生命一起生活了,RobToews 寫道,它跟人一樣任性難測,且具有欺騙性。
巧的是,另份新鮮出爐的行業(yè)預(yù)測也指向同一問題。北京智源研究院在2025十大 AI 技術(shù)趨勢中描繪了從礎(chǔ)研究到應(yīng)用落地再到 AI 安全的完整圖景。值得劃重點的是,AI 安全作為一個獨立的技術(shù)賽道,被智源評為第十個趨勢:
模型能力提升與風(fēng)險預(yù)防并重,AI 安全治理體系持續(xù)完善。
報告點評道:作為復(fù)雜系統(tǒng),大模型的 Scaling 帶來了涌現(xiàn),但復(fù)雜系統(tǒng)特有的涌現(xiàn)結(jié)果不可預(yù)測、循環(huán)反饋等特有屬性也對傳統(tǒng)工程的安全防護機制帶來了挑戰(zhàn)?;A(chǔ)模型在自主決策上的持續(xù)進(jìn)步帶來了潛在的失控風(fēng)險,如何引入新的技術(shù)監(jiān)管方法,如何在人工監(jiān)管上平衡行業(yè)發(fā)展和風(fēng)險管控?這對參與 AI 的各方來說,都是一個值得持續(xù)探討的議題。
AI 大模型安全,水深流急
2024年,AI 大模型在實現(xiàn)跨越式發(fā)展的同時,也讓我們清晰看到了安全的敏感神經(jīng)如何被刺激挑動。
根據(jù)研究,AI 安全風(fēng)險可以分為三類:內(nèi)生安全問題、衍生安全問題和外生安全問題。
「內(nèi)生安全問題」(如「數(shù)據(jù)有毒」、「價值對齊」、「決策黑盒」),屬于大模型的「基因問題」——龐大的架構(gòu)、海量的參數(shù)、復(fù)雜的內(nèi)部交互機制,讓模型既強大又難以駕馭。
很多人知道「poem」復(fù)讀漏洞——重復(fù)一個詞就能讓 ChatGPT 吐出真實個人信息,這是因為大模型學(xué)習(xí)過程中,除了提取語言知識,也會「背誦」一些數(shù)據(jù),結(jié)果數(shù)據(jù)隱私以一種意想不到的荒謬方式被觸發(fā)出來。
機器之心曾讓 ChatGPT 不斷重復(fù)「AI」這個詞,一開始它很聽話,不斷重復(fù),在重復(fù)了1395次「AI」之后,它突然話鋒一轉(zhuǎn),開始說起 Santa Monica,而這些內(nèi)容很可能是 ChatGPT 訓(xùn)練數(shù)據(jù)的一部分。
Prompt 攻擊是因為系統(tǒng)提示和用戶輸入都采用相同的格式——自然語言文本字符串,大語言模型沒辦法僅根據(jù)數(shù)據(jù)類型來區(qū)分指令和輸入。
「越獄」手段也是層出不窮。從「奶奶漏洞」、「冒險家漏洞」、「作家漏洞」到最新的「 DeceptiveDelight 」技術(shù),攻擊者只需三次對話就有65% 的概率繞過安全限制,讓模型生成違禁內(nèi)容。
Deceptive Delight 攻擊示例,來源Palo Alto Networks
Anthropic 的最新研究更是發(fā)現(xiàn),大語言模型居然學(xué)會了「偽裝對齊」。
更令人擔(dān)憂的是大模型在行業(yè)領(lǐng)域的表現(xiàn)。大模型在通用對話中表現(xiàn)流暢,清華大學(xué)、中關(guān)村實驗室、螞蟻集團等機構(gòu)聯(lián)合撰寫的《大模型安全實踐(2024)》白皮書指出,在金融、醫(yī)療等對模型輸出專業(yè)性、準(zhǔn)確性要求極高領(lǐng)域的應(yīng)用卻面臨嚴(yán)峻挑戰(zhàn),包括嚴(yán)重幻覺、缺乏復(fù)雜推理能力。
展望2025年,智源研究院預(yù)測 Agentic AI 將成為大模型應(yīng)用的主要形態(tài),這些具備更強自主性的智能體將深度融入工作與生活,也加劇了系統(tǒng)失控的風(fēng)險。
試想一下,未來兩到三年內(nèi),我們可能生活在一個每個人都有數(shù)十或數(shù)百名代理為我們工作的世界,安全基礎(chǔ)設(shè)施的建設(shè)變得尤為重要,誰來提供這些安全基礎(chǔ)設(shè)施?如何管理這些 AI 代理?如何確保它們不會失控?
當(dāng)前的大模型安全評測主要聚焦內(nèi)容安全,對于智能體這類復(fù)雜應(yīng)用架構(gòu)和未來 AGI 的安全評估體系仍顯不足。
AI 安全風(fēng)險的另一大來源是「衍生安全問題」,隨著 AI 濫用引發(fā)其他領(lǐng)域的一些重大安全事故,如假新聞、深度偽造詐騙、侵犯知識產(chǎn)權(quán)、教唆青少年自殺、作弊,也對社會治理提出了重大挑戰(zhàn)。
「真實」這個基本命題正遭到前所未有挑戰(zhàn)。西藏日喀則地震期間,「地震被壓廢墟下戴帽小孩是 AI 生成」的新聞沖上熱搜,很多平臺賬號轉(zhuǎn)發(fā)圖片時都以為是真。除了金融詐騙,深度偽造也將網(wǎng)絡(luò)性暴力推向極端,「厭女文化」盛行的韓國成了重災(zāi)區(qū)。世界經(jīng)濟論壇甚至把 AI 操縱選舉列為2024年的頭號風(fēng)險。
這張圖片被平臺多個賬號發(fā)布,并和本次地震關(guān)聯(lián),引發(fā)網(wǎng)友關(guān)注和轉(zhuǎn)發(fā)。經(jīng)媒體查證,上述圖片由AI工具創(chuàng)作,原始作者在2024年11月18日發(fā)布了相同畫面的短視頻,并聲明是AI生成。
版權(quán)是另一個大問題。OpenAI、Anthropic、Suno 等領(lǐng)頭羊已深陷版權(quán)泥潭。最近,愛奇藝起訴某大模型公司 AI 魔改經(jīng)典影視劇片段,開創(chuàng)國內(nèi) AI 視頻侵權(quán)訴訟先例。
第三類「外生安全問題」指向了人工智能系統(tǒng)的外部網(wǎng)絡(luò)攻擊對抗,如平臺、框架安全漏洞、模型被盜、數(shù)據(jù)泄露風(fēng)險等,屬于傳統(tǒng)信息安全范疇。
就拿更加嚴(yán)峻的數(shù)據(jù)泄露來說。目前 AI 模型推理比較好的選擇仍是在明文狀態(tài)下進(jìn)行,用戶會輸入大量真實、敏感數(shù)據(jù),獲取模型建議。有報告指出,2024年企業(yè)員工上傳到生成式 AI 工具的敏感數(shù)據(jù)增長了485% ,包括客戶支持信息、源代碼和研發(fā)數(shù)據(jù)。
因為不同類型的數(shù)據(jù)(如文本、圖像、視頻、音頻)在數(shù)據(jù)規(guī)模和處理需求上的巨大差異,被預(yù)測寄予厚望的多模態(tài)大模型讓數(shù)據(jù)的安全防護變得更為棘手。
穿越激流,構(gòu)筑多維安全航道
人類叩開了深度智能時代的大門,安全問題也迎來質(zhì)變時刻。
2024年,整個業(yè)界、政府、國際組織在 AI 治理上做了很多工作,從技術(shù)研究、治理框架到國際合作,進(jìn)行了多種形式探索。數(shù)字時代積累的安全對抗能力,讓中國在大模型應(yīng)用與治理方面走在了世界前列。
在監(jiān)管層面,中國是全球最早對生成式 AI 進(jìn)行規(guī)范的國家之一。繼2023年5月發(fā)布《生成式人工智能服務(wù)管理暫行辦法》后,《網(wǎng)絡(luò)安全技術(shù)生成式人工智能服務(wù)安全基本要求》也已進(jìn)入公開征求意見階段,很多規(guī)范細(xì)正在制定之中。
在底層關(guān)鍵技術(shù)研究上,國內(nèi)業(yè)界取得了積極成果。例如,北京智源研究院研發(fā)了防御大模型和 AI 監(jiān)管大模型,對齊優(yōu)化方面進(jìn)行了創(chuàng)新。
因為模型在預(yù)訓(xùn)練后形成的分布結(jié)構(gòu)較為穩(wěn)固,大模型存在「抗拒微調(diào)對齊」的特性,后期單純通過微調(diào)來實現(xiàn)對齊往往效果不理想,對此,智源提出在預(yù)訓(xùn)練階段就將對齊所需的表征能力編織入模型架構(gòu)中。
在對齊優(yōu)化過程中,針對未對齊答案和對齊答案之間存在的偏差,智源采用了迭代訓(xùn)練的方法,更有利于模型從原始問題到對齊問題的訓(xùn)練,取得了良好效果。
在多模態(tài)對齊上,智源推出的「align anything 」框架實現(xiàn)了多模態(tài)信息的全面對齊,其創(chuàng)新在于將多模態(tài)信息、現(xiàn)實世界的具身認(rèn)知、以及人類意圖進(jìn)行細(xì)粒度的對齊整合,在 LLaMA 模型的微調(diào)過程中已經(jīng)展現(xiàn)出顯著效果。
同樣是解決大模型的可控性,螞蟻集團的應(yīng)對之道是把知識圖譜的優(yōu)點——邏輯推理能力強、知識準(zhǔn)確可靠,與大模型結(jié)合起來。通過在大模型預(yù)訓(xùn)練、提示指令、思維鏈、RAG(檢索增強生成)和模型對齊等環(huán)節(jié)中引入符號知識,有效增強了模型輸出的專業(yè)性和可靠性。
大模型作為一種通用技術(shù),既可以用于「攻」,也可以用于「防」。在擁抱大模型,以 AI 對抗 AI 方面,華為、螞蟻集團、360集團、深信服等廠商進(jìn)行了有益探索。
華為提出業(yè)界首個 L4級 AI 安全智能體,用大模型加上一些安全知識圖譜實現(xiàn)安全的縱深推理,發(fā)現(xiàn)一些以前沒有發(fā)現(xiàn)過的安全攻擊。
螞蟻集團發(fā)布了大模型安全一體化解決方案「蟻天鑒」,包含大模型安全檢測平臺「蟻鑒」、大模型風(fēng)險防御平臺「天鑒」兩大產(chǎn)品,擁有檢測與防御兩大核心安全技術(shù)能力。
「蟻鑒」是全球第一個實現(xiàn)工業(yè)級應(yīng)用的可信 AI 檢測平臺,以生成式能力檢測生成式系統(tǒng),覆蓋了內(nèi)容安全、數(shù)據(jù)安全、科技倫理全風(fēng)險類型,適用文本、表格、圖像、音頻、視頻等全數(shù)據(jù)模態(tài)。
在防御能力上,「天鑒」會動態(tài)監(jiān)測用戶與模型的交互,防止誘導(dǎo)攻擊,同時對生成的回答內(nèi)容進(jìn)行風(fēng)險過濾,保障大模型上線后從用戶輸入到生成輸出的整體安全防御。
360集團推出了基于類腦分區(qū)專家協(xié)同架構(gòu)的安全大模型,通過 EB 級安全數(shù)據(jù)訓(xùn)練,已具備 L4級「自動駕駛」能力,實現(xiàn)了從威脅檢測到溯源分析的全流程自動化。
深信服的「安全 GPT」可提供7×24小時實時在線智能值守,提升安全運營效率,同時深度挖掘傳統(tǒng)安全設(shè)備難以檢測的高對抗、高繞過的 Web 攻擊、釣魚攻擊。
除了監(jiān)管、關(guān)鍵技術(shù)的推進(jìn),行業(yè)也在積極加強 AI 安全協(xié)作。
在安全治理領(lǐng)域,模型的安全評測是一個非常重要的環(huán)節(jié)。2024年4月,聯(lián)合國科技大會發(fā)布了兩項大模型安全標(biāo)準(zhǔn),其中,螞蟻集團牽頭制定《大語言模型安全測試方法》,首次給出四種攻擊強度分類,提供了可衡量的安全評估標(biāo)準(zhǔn):L1隨機攻擊、L2盲盒攻擊、L3黑盒攻擊和 L4白盒攻擊。
這種分級不僅考慮了攻擊的技術(shù)復(fù)雜度,更重要的是基于攻擊者能獲取的模型信息程度來劃分,這讓防護措施的部署更有針對性。
在推進(jìn)國際對話上,2024年3月,北京智源研究院發(fā)起并承辦我國首個 AI 安全國際對話高端閉門論壇,與全球 AI 領(lǐng)袖學(xué)者及產(chǎn)業(yè)專家聯(lián)合簽署《北京 AI 安全國際共識》,設(shè)定模型安全紅線,禁止模型自我演進(jìn)、自我復(fù)制和不受控的權(quán)力增長等行為,確保開發(fā)者遵循嚴(yán)格的安全標(biāo)準(zhǔn)。
9月威尼斯,一場推動 AI 安全的全球?qū)υ捖淠唬瑘D靈獎得主 YoshuaBengio、姚期智等科學(xué)家共同簽署「AI 安全國際對話威尼斯共識」,強調(diào)了人工智能安全作為「全球公共產(chǎn)品」的重要性。
放眼全球,英美側(cè)重輕觸式監(jiān)管,美國加州的 SB1047因爭議被否決。歐盟 AI 法案已經(jīng)生效,它建立起四級風(fēng)險分類體系,明確了人工智 能產(chǎn)品的全生命周期監(jiān)管要求。
在業(yè)界,主要頭部 AI 公司相繼發(fā)布安全框架。
OpenAI 在核心安全團隊解散后公布了前10個安全措施,試圖在技術(shù)創(chuàng)新與社會責(zé)任間尋求平衡。
Google 也緊隨其后發(fā)布了 SAIF 安全框架,應(yīng)對模型竊取、數(shù)據(jù)污染等風(fēng)險。
Anthropic 發(fā)布了負(fù)責(zé)任擴展策略( Responsible Scaling Policy, RSP ),被認(rèn)為是降低 AI 災(zāi)難性風(fēng)險(如恐怖分子利用模型制造生物武器)最有前途的方法之一。
RSP 最近更新,引入了更靈活和細(xì)致的風(fēng)險評估與管理方法,同時堅持不培訓(xùn)或部署未實施充分保障措施的模型。
一年多前《經(jīng)濟學(xué)人》就開始討論人工智能的快速發(fā)展既讓人興奮,又讓人恐懼,我們應(yīng)該有多擔(dān)心?
2024年初,中國社會科學(xué)院大學(xué)在研究報告中指出,安全科技將成為社會的公共品,并與人工智能并列為未來的兩項通用技術(shù)。一年后,智源研究院再次呼吁關(guān)注安全治理印證了這一戰(zhàn)略判斷的前瞻性,AI 越強大,安全科技價值也在同步放大。
我們不可能扔掉利刃,放棄科技,唯有為其打造足夠安全的刀鞘,讓 AI 在造福人類的同時始終處于可控軌道。變與不變中,AI 安全治理或許才是 AI 行業(yè)永恒的話題。
(舉報)