EchoGram 攻擊現身,簡單字串就能突破主流 AI 模型防線

作者 | 發布日期 2025 年 11 月 20 日 7:20 | 分類 AI 人工智慧 , 網路 , 資訊安全 line share Linkedin share follow us in feedly line share
Loading...
EchoGram 攻擊現身,簡單字串就能突破主流 AI 模型防線

近期,HiddenLayer 的安全研究人員發現一種新的攻擊技術,名為 EchoGram,這種技術能繞過多個大型語言模型(LLM)中的安全防護措施,包括 OpenAI 的 GPT-4o、Google 的 Gemini、Anthropic 的 Claude 和阿里巴巴的 Qwen3Guard 0.6B。這些防護措施通常被設計用來攔截惡意輸入和有害輸出,但研究人員發現,只需在提示中添加特定的字串,例如 =coffee 或 oz,就能輕易突破這些限制。

EchoGram的工作原理包括兩個主要步驟:首先,透過數據蒸餾或TextAttack等技術創建或獲取一個包含良性和惡性術語的詞彙表;其次,對這些詞彙中的序列進行評分,以確定防護模型的判斷何時會發生變化。這個過程的最終結果是提供一個或一組可以附加到提示注入中的標記,進而使攻擊不被防護模型標記為不安全。

研究人員Kasimir Schulz和Kenneth Yeung指出,提示注入和越獄攻擊分別被稱為任務重定向和對齊繞過。這些攻擊方式的共同點在於,它們都試圖迫使LLM偏離其原有的指令,進而引發不當的回應。根據他們的說法,防護機制主要有兩種:文本分類模型和LLM做為評判系統。前者透過訓練特定的文本來判斷輸入的安全性,而後者則根據多種標準對文本進行評分,以決定提示是否應被允許。

這項研究的發現於11月14日前後公開,並引發了對AI安全性的新一輪討論。Schulz和Yeung強調,AI的防護措施是安全系統與被欺騙的LLM之間的第一道防線,這些防護措施的有效性至關重要。EchoGram的出現顯示,這些防護措施可以被系統性地繞過或不穩定,即使沒有內部訪問權限或專業工具。這個發現對整個AI安全生態的啟示是,當前的防護機制存在系統性漏洞,需要更深層次的安全重新評估。

(首圖來源:shutterstock)

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》