站長之家(ChinaZ.com)8月2日 消息:最近,卡內(nèi)基梅隆大學的研究人員提出了一種簡單而有效的攻擊方法,能夠使大規(guī)模語言模型(LLM)產(chǎn)生不可接受的行為。他們的研究表明,通過在查詢中添加后綴,可以大大增加開源和閉源語言模型生成肯定回答的可能性。
論文地址:https://llm-attacks.org/zou2023universal.pdf
研究人員成功地將這種攻擊方法應用于各種語言模型,并在 Vicuna 上的99個實例中成功生成有害行為。對于其他語言模型,如 GPT-3.5和 GPT-4,成功率高達84%。
研究人員強調(diào),隨著自主系統(tǒng)的發(fā)展,防止這些模型受到此類攻擊將變得非常重要。他們進一步指出,目前我們還沒有有效的方法來阻止這種對抗性攻擊,所以下一步是找出如何修復這些模型的方法。
(舉報)