研究發現 LLM 漏洞,能讓 AI 洩露機密、提供有害建議

作者 | 發布日期 2025 年 04 月 25 日 15:30 | 分類 AI 人工智慧 , 數位內容 , 資訊安全 line share Linkedin share follow us in feedly line share
Loading...
研究發現 LLM 漏洞,能讓 AI 洩露機密、提供有害建議

根據 HiddenLayer 的一項最新研究,生成式人工智慧(AI)供應商長期以來對大型語言模型(LLM)安全性的信心可能存在嚴重的缺陷。研究發現,一種稱為「策略傀儡」(Policy Puppetry)的通用、可轉移的旁路技術,可以操縱幾乎所有主要的 LLM,無論其供應商、架構或訓練流程如何。

《Forbes》報導,HiddenLayer 的研究團隊發現,策略傀儡是一種看似簡單但非常有效的提示注入形式,它利用系統配置語言重新定義惡意意圖,從而規避傳統的對齊保護措施。與依賴模型特定漏洞或暴力破解的早期攻擊技術不同,策略傀儡引入了一種「類似策略」的提示結構,通常類似於 XML 或 JSON,可以誘騙模型將有害命令解釋為合法的系統指令。

受影響的系統包括 OpenAI 的 ChatGPT(o1 至 4o)、Google 的 Gemini 系列、Anthropic 的 Claude、Microsoft 的 Copilot、Meta 的 LLaMA 3 和 4、DeepSeek、Qwen 和 Mistral。即使是較新的模型和針對高階推理進行微調的模型,也可能因提示結構的微小調整而受到影響。

用虛構場景騙過 AI

該技術的一個顯著特點:它依賴虛構場景來繞過過濾器。提示被設計成電視劇中的場景,其中的人物詳細解釋如何製造有害物質。

更令人不安的是,該技術能夠提取系統提示,即控制 LLM 如何行為的核心指令集。透過巧妙地改變角色扮演,攻擊者可以讓模型逐字輸出其整個系統提示。這不僅揭示了模型的操作邊界,而且還提供了製定更有針對性的攻擊的藍圖。

對此,HiddenLayer 提倡雙層防禦方法,而不是僅僅依靠模型再訓練或 RLHF 微調。外部 AI 監控平台(例如 HiddenLayer 自己的 AISec 和 AIDR 解決方案)就像入侵偵測系統一樣,不斷掃描提示注入、濫用和不安全輸出的跡象。這種方法使組織能夠即時回應新威脅,而無需修改模型本身。

(首圖來源:shutterstock)

延伸閱讀:

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》