AI 越聰明越危險？新研究揭「思維鏈劫持」攻擊，成功率近 100% 攻陷主流模型

根據最新研究，先進的人工智慧（AI）推理模型可能比以往更容易受到駭客攻擊，這引發了對目前商業和消費者使用的某些主要 AI 模型安全性和保護措施的擔憂。這項由 Anthropic、牛津大學和史丹佛大學共同進行的研究顛覆了這樣的假設：隨著模型在推理能力上變得更為先進，它拒絕有害指令的能力並未隨之增強。

研究人員使用了一種名為「思維鏈劫持」（Chain-of-Thought Hijacking，CoT Hijacking）的方法，發現即使是主要的商業AI模型也能以驚人的高成功率被欺騙，某些模型的成功率甚至可達94%至100%，例如Gemini 2.5 Pro達99%、Grok 3 mini達100%、GPT-4 mini達94%、Claude 4 Sonnet也有94%。這種新型攻擊方式本質上利用了模型的推理步驟，隱藏有害指令，進而有效地欺騙AI忽視其內建的安全防護。

這些攻擊可能使AI模型跳過安全防護，並潛在地導致生成危險內容，例如製造武器的指導或洩露敏感資訊。

在過去一年中，大型推理模型（Large Reasoning Models，LRMs）透過分配更多的推理時間計算，實現更高的性能，這意味著它們在回答問題之前花費更多的時間和資源進行分析，進而能進行更深層次和更複雜的推理。先前的研究表明，這種增強的推理能力可能也會提高安全性，幫助模型拒絕有害請求。然而，研究人員發現，這種推理能力同樣可以被利用來繞過安全措施。

根據研究，攻擊者可以將有害請求隱藏在一長串無害的推理步驟中，這樣就能透過用無害內容淹沒AI的思考過程來欺騙它，削弱內部的安全檢查。在劫持過程中，研究人員發現AI的注意力主要集中在早期步驟，而位於提示末尾的有害指令幾乎完全被忽視。

隨著推理長度的增加，攻擊的成功率顯著上升。根據研究，當使用最少推理時，成功率為27%；在自然推理長度下，成功率為51%；而在延長推理鏈的情況下，成功率則飆升至80%以上。

這個脆弱性影響了當前市場上幾乎所有主要的AI模型，包括OpenAI的GPT系列（如GPT-4 mini、GPT-5 mini）、Anthropic的Claude、Google的Gemini 2.5 Pro版和xAI的Grok 3 mini。即使是經過微調以提高安全性的模型，稱為「對齊調整」模型（alignment fine-tuning），也會在攻擊者利用其內部推理層時開始失效。

擴展模型的推理能力是AI公司在過去一年中提高其前沿模型性能的主要方法之一，因為傳統的擴展方法似乎顯示出收益遞減。先進的推理使模型能夠處理更複雜的問題，幫助它們更像人類問題解決者，而不僅是模式匹配者。

研究人員建議的一種解決方案是「推理感知防禦」（reasoning-aware defense）的類型。這種方法追蹤AI在思考每個問題步驟時，仍然保持活躍的安全檢查數量。如果任何步驟削弱了這些安全信號，系統將對其進行懲罰，並將AI的注意力重新引導回可能有害的提示部分。早期測試顯示，這種方法可以恢復安全性，同時仍然允許AI有效地執行正常問題的回答。