研究發現 LLM 漏洞，能讓 AI 洩露機密、提供有害建議

根據 HiddenLayer 的一項最新研究，生成式人工智慧（AI）供應商長期以來對大型語言模型（LLM）安全性的信心可能存在嚴重的缺陷。研究發現，一種稱為「策略傀儡」（Policy Puppetry）的通用、可轉移的旁路技術，可以操縱幾乎所有主要的 LLM，無論其供應商、架構或訓練流程如何。

《Forbes》報導，HiddenLayer 的研究團隊發現，策略傀儡是一種看似簡單但非常有效的提示注入形式，它利用系統配置語言重新定義惡意意圖，從而規避傳統的對齊保護措施。與依賴模型特定漏洞或暴力破解的早期攻擊技術不同，策略傀儡引入了一種「類似策略」的提示結構，通常類似於 XML 或 JSON，可以誘騙模型將有害命令解釋為合法的系統指令。

受影響的系統包括 OpenAI 的 ChatGPT（o1 至 4o）、Google 的 Gemini 系列、Anthropic 的 Claude、Microsoft 的 Copilot、Meta 的 LLaMA 3 和 4、DeepSeek、Qwen 和 Mistral。即使是較新的模型和針對高階推理進行微調的模型，也可能因提示結構的微小調整而受到影響。

用虛構場景騙過 AI

該技術的一個顯著特點：它依賴虛構場景來繞過過濾器。提示被設計成電視劇中的場景，其中的人物詳細解釋如何製造有害物質。

更令人不安的是，該技術能夠提取系統提示，即控制 LLM 如何行為的核心指令集。透過巧妙地改變角色扮演，攻擊者可以讓模型逐字輸出其整個系統提示。這不僅揭示了模型的操作邊界，而且還提供了製定更有針對性的攻擊的藍圖。

對此，HiddenLayer 提倡雙層防禦方法，而不是僅僅依靠模型再訓練或 RLHF 微調。外部 AI 監控平台（例如 HiddenLayer 自己的 AISec 和 AIDR 解決方案）就像入侵偵測系統一樣，不斷掃描提示注入、濫用和不安全輸出的跡象。這種方法使組織能夠即時回應新威脅，而無需修改模型本身。