劃重點(diǎn):
- 大型語(yǔ)言模型(LLM),如ChatGPT和Bard,已引起巨大轟動(dòng),但研究發(fā)現(xiàn)它們存在關(guān)鍵漏洞,可能導(dǎo)致私人信息泄露和有針對(duì)性的攻擊。
- 研究人員發(fā)現(xiàn),LLM的部分內(nèi)容可以以低成本被復(fù)制,這一攻擊方法被稱為“模型寄生”,可成功傳遞于封閉源和開(kāi)源機(jī)器學(xué)習(xí)模型之間。
- 盡管LLM技術(shù)具有巨大潛力,但業(yè)界需認(rèn)真考慮采用和部署LLM時(shí)可能存在的網(wǎng)絡(luò)安全風(fēng)險(xiǎn)。
站長(zhǎng)之家(ChinaZ.com)10月13日 消息:近期,大型語(yǔ)言模型(LLM)如ChatGPT和Bard在全球范圍內(nèi)引起了廣泛的關(guān)注,眾多公司投資數(shù)百萬(wàn)美元用于開(kāi)發(fā)這些人工智能工具,而一些領(lǐng)先的AI聊天機(jī)器人的估值已達(dá)到了數(shù)十億美元。這些LLM主要被應(yīng)用于AI聊天機(jī)器人,它們通過(guò)整合互聯(lián)網(wǎng)上的大量信息來(lái)學(xué)習(xí)和為用戶提供請(qǐng)求的答案,這些請(qǐng)求通常被稱為“提示”。
然而,最近一項(xiàng)由AI安全初創(chuàng)公司Mindgard和英國(guó)蘭開(kāi)斯特大學(xué)的計(jì)算機(jī)科學(xué)家進(jìn)行的研究揭示了LLM存在的嚴(yán)重漏洞。研究發(fā)現(xiàn),LLM的部分內(nèi)容可以在不到一周的時(shí)間內(nèi)以低至50美元的成本被復(fù)制,并且獲得的信息可以用于發(fā)動(dòng)有針對(duì)性的攻擊。這些潛在的攻擊者可能會(huì)泄露私人機(jī)密信息、繞過(guò)安全保護(hù)措施、提供錯(cuò)誤答案或進(jìn)行進(jìn)一步的有針對(duì)性攻擊。
圖源備注:圖片由AI生成,圖片授權(quán)服務(wù)商Midjourney
這項(xiàng)名為“模型寄生”的攻擊方法通過(guò)與LLM進(jìn)行交互,提出一系列有針對(duì)性的提示,以使LLM提供深入見(jiàn)解的信息,揭示了模型的工作方式。研究團(tuán)隊(duì)在研究中主要關(guān)注了ChatGPT-3.5-Turbo,然后利用這一知識(shí)創(chuàng)建了自己的復(fù)制模型,該模型的大小只有原模型的1%,但復(fù)制了LLM的關(guān)鍵特征。研究人員隨后利用這個(gè)模型副本作為測(cè)試平臺(tái),研究如何在不被察覺(jué)的情況下利用ChatGPT的漏洞。他們成功地利用從模型中獲得的知識(shí)攻擊ChatGPT,并提高了11%的成功率。
蘭開(kāi)斯特大學(xué)的Peter Garraghan博士表示:“我們發(fā)現(xiàn)的現(xiàn)象在科學(xué)上令人著迷,但也極具憂慮。這是首次實(shí)證證明安全漏洞可以成功傳遞于封閉源和開(kāi)源的機(jī)器學(xué)習(xí)模型之間,這在考慮到產(chǎn)業(yè)如何依賴像HuggingFace這樣的公開(kāi)可用機(jī)器學(xué)習(xí)模型時(shí),令人極為擔(dān)憂?!?/p>
研究人員指出,盡管這些強(qiáng)大的數(shù)字AI技術(shù)具有明顯的用途,但它們存在著隱藏的弱點(diǎn),甚至不同模型之間可能存在共同的漏洞。各行各業(yè)的企業(yè)目前正在或準(zhǔn)備投資數(shù)十億美元用于開(kāi)發(fā)自己的LLM,以執(zhí)行各種任務(wù),如智能助手。金融服務(wù)和大型企業(yè)也在采用這些技術(shù),但研究人員表示,這些漏洞應(yīng)該成為計(jì)劃構(gòu)建或使用第三方LLM的所有企業(yè)的主要關(guān)切點(diǎn)。
Peter Garraghan博士強(qiáng)調(diào):“雖然LLM技術(shù)具有潛在的變革性,但企業(yè)和科學(xué)家都必須仔細(xì)考慮采用和部署LLM所涉及的網(wǎng)絡(luò)安全風(fēng)險(xiǎn)?!边@項(xiàng)研究為我們提醒了雖然AI技術(shù)帶來(lái)了巨大的機(jī)會(huì),但也伴隨著一系列潛在的威脅,因此必須謹(jǐn)慎行事。
論文網(wǎng)址:https://techxplore.com/partners/lancaster-university/
(舉報(bào))