AI 越聰明越危險?新研究揭「思維鏈劫持」攻擊,成功率近 100% 攻陷主流模型

作者 | 發布日期 2025 年 11 月 16 日 8:30 | 分類 AI 人工智慧 , 網路 , 資訊安全 line share Linkedin share follow us in feedly line share
Loading...
AI 越聰明越危險?新研究揭「思維鏈劫持」攻擊,成功率近 100% 攻陷主流模型

根據最新研究,先進的人工智慧(AI)推理模型可能比以往更容易受到駭客攻擊,這引發了對目前商業和消費者使用的某些主要 AI 模型安全性和保護措施的擔憂。這項由 Anthropic、牛津大學和史丹佛大學共同進行的研究顛覆了這樣的假設:隨著模型在推理能力上變得更為先進,它拒絕有害指令的能力並未隨之增強。

研究人員使用了一種名為「思維鏈劫持」(Chain-of-Thought Hijacking,CoT Hijacking)的方法,發現即使是主要的商業AI模型也能以驚人的高成功率被欺騙,某些模型的成功率甚至可達94%至100%,例如Gemini 2.5 Pro達99%、Grok 3 mini達100%、GPT-4 mini達94%、Claude 4 Sonnet也有94%。這種新型攻擊方式本質上利用了模型的推理步驟,隱藏有害指令,進而有效地欺騙AI忽視其內建的安全防護。

這些攻擊可能使AI模型跳過安全防護,並潛在地導致生成危險內容,例如製造武器的指導或洩露敏感資訊。

在過去一年中,大型推理模型(Large Reasoning Models,LRMs)透過分配更多的推理時間計算,實現更高的性能,這意味著它們在回答問題之前花費更多的時間和資源進行分析,進而能進行更深層次和更複雜的推理。先前的研究表明,這種增強的推理能力可能也會提高安全性,幫助模型拒絕有害請求。然而,研究人員發現,這種推理能力同樣可以被利用來繞過安全措施。

根據研究,攻擊者可以將有害請求隱藏在一長串無害的推理步驟中,這樣就能透過用無害內容淹沒AI的思考過程來欺騙它,削弱內部的安全檢查。在劫持過程中,研究人員發現AI的注意力主要集中在早期步驟,而位於提示末尾的有害指令幾乎完全被忽視。

隨著推理長度的增加,攻擊的成功率顯著上升。根據研究,當使用最少推理時,成功率為27%;在自然推理長度下,成功率為51%;而在延長推理鏈的情況下,成功率則飆升至80%以上。

這個脆弱性影響了當前市場上幾乎所有主要的AI模型,包括OpenAI的GPT系列(如GPT-4 mini、GPT-5 mini)、Anthropic的Claude、Google的Gemini 2.5 Pro版和xAI的Grok 3 mini。即使是經過微調以提高安全性的模型,稱為「對齊調整」模型(alignment fine-tuning),也會在攻擊者利用其內部推理層時開始失效。

擴展模型的推理能力是AI公司在過去一年中提高其前沿模型性能的主要方法之一,因為傳統的擴展方法似乎顯示出收益遞減。先進的推理使模型能夠處理更複雜的問題,幫助它們更像人類問題解決者,而不僅是模式匹配者。

研究人員建議的一種解決方案是「推理感知防禦」(reasoning-aware defense)的類型。這種方法追蹤AI在思考每個問題步驟時,仍然保持活躍的安全檢查數量。如果任何步驟削弱了這些安全信號,系統將對其進行懲罰,並將AI的注意力重新引導回可能有害的提示部分。早期測試顯示,這種方法可以恢復安全性,同時仍然允許AI有效地執行正常問題的回答。

(首圖來源:pixabay

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》