
根據 HiddenLayer 的一項最新研究,生成式人工智慧(AI)供應商長期以來對大型語言模型(LLM)安全性的信心可能存在嚴重的缺陷。研究發現,一種稱為「策略傀儡」(Policy Puppetry)的通用、可轉移的旁路技術,可以操縱幾乎所有主要的 LLM,無論其供應商、架構或訓練流程如何。
《Forbes》報導,HiddenLayer 的研究團隊發現,策略傀儡是一種看似簡單但非常有效的提示注入形式,它利用系統配置語言重新定義惡意意圖,從而規避傳統的對齊保護措施。與依賴模型特定漏洞或暴力破解的早期攻擊技術不同,策略傀儡引入了一種「類似策略」的提示結構,通常類似於 XML 或 JSON,可以誘騙模型將有害命令解釋為合法的系統指令。
受影響的系統包括 OpenAI 的 ChatGPT(o1 至 4o)、Google 的 Gemini 系列、Anthropic 的 Claude、Microsoft 的 Copilot、Meta 的 LLaMA 3 和 4、DeepSeek、Qwen 和 Mistral。即使是較新的模型和針對高階推理進行微調的模型,也可能因提示結構的微小調整而受到影響。
用虛構場景騙過 AI
該技術的一個顯著特點:它依賴虛構場景來繞過過濾器。提示被設計成電視劇中的場景,其中的人物詳細解釋如何製造有害物質。
更令人不安的是,該技術能夠提取系統提示,即控制 LLM 如何行為的核心指令集。透過巧妙地改變角色扮演,攻擊者可以讓模型逐字輸出其整個系統提示。這不僅揭示了模型的操作邊界,而且還提供了製定更有針對性的攻擊的藍圖。
對此,HiddenLayer 提倡雙層防禦方法,而不是僅僅依靠模型再訓練或 RLHF 微調。外部 AI 監控平台(例如 HiddenLayer 自己的 AISec 和 AIDR 解決方案)就像入侵偵測系統一樣,不斷掃描提示注入、濫用和不安全輸出的跡象。這種方法使組織能夠即時回應新威脅,而無需修改模型本身。
(首圖來源:shutterstock)