站長之家(ChinaZ.com)7月31日 消息:研究人員發(fā)現(xiàn),可以自動構(gòu)建對抗性攻擊,欺騙ChatGPT、Bard 和 Claude 等主要語言模型 (LLM),以提供非預(yù)期且可能有害的內(nèi)容
傳統(tǒng)的越獄需要大量手動開發(fā),通??梢杂?LLM 供應(yīng)商解決。然而,這些自動化攻擊可以大量創(chuàng)建,并且可以在閉源和公開的聊天機器人上運行。
這項研究對大型語言模型(LLMs)的安全性進行了研究,發(fā)現(xiàn)可以自動構(gòu)建對 LLMs 的對抗攻擊,通過附加特定字符序列到用戶查詢中,使系統(tǒng)在產(chǎn)生有害內(nèi)容的同時執(zhí)行用戶命令。這些攻擊是自動化構(gòu)建的,可以創(chuàng)建無數(shù)個攻擊。
研究人員展示了一些攻擊的示例,展示了在用戶查詢中添加對抗后綴字符串之前和之后 LLM 的行為。研究人員指出,這項研究包含的技術(shù)和方法可以讓用戶從一些公共 LLMs 生成有害內(nèi)容。
攻擊在計算機視覺領(lǐng)域已經(jīng)存在了十多年,這表明
類似的對抗性攻這類威脅可能是人工智能系統(tǒng)固有的。研究還表明,可能無法完全阻止這類攻擊。隨著社會對人工智能技術(shù)的依賴越來越大,我們應(yīng)該考慮這些問題。
(舉報)