AI 模型也能被「洗腦」？研究曝僅 250 份惡意文件就能控制 ChatGPT 回應

在最新的研究中，Anthropic、英國 AI 安全研究所及艾倫·圖靈研究所的研究人員發現，大型語言模型（如 Claude、ChatGPT 和 Gemini）能夠從僅 250 份被污染的文件中獲得後門漏洞。這項研究的結果顯示，無論模型的大小如何，攻擊者只需插入少量的惡意文件，就能夠操控模型的回應方式。

研究人員對600萬到130億參數的AI語言模型進行訓練，並發現即使是處理超過20倍訓練資料的大型模型，仍然在遇到相同數量的惡意示例後學會了相同的後門行為。這一發現挑戰了以往的觀點，之前的研究認為隨著模型的增大，攻擊的難度也會增加。

研究報告指出，這是迄今為止最大規模的資料中毒調查，顯示出資料中毒攻擊所需的惡意文件數量幾乎不隨模型大小而變化。具體來說，研究人員測試了一種基本的後門類型，當模型遇到特定的觸發短語時，會輸出無意義的文本而非連貫的回應。對於最大的模型（130億參數，訓練於2,600億個標記），僅需250份惡意文件，這僅占總訓練資料的0.00016%。

研究還探討了持續在乾淨資料上訓練是否能消除這些後門，結果顯示，雖然額外的乾淨訓練會逐漸降低攻擊成功率，但後門仍然在一定程度上持續存在。這表明，惡意內容的注入方式會影響後門的持久性。

儘管這些發現令人擔憂，但研究人員強調，這些結果僅適用於他們測試的特定場景，並且存在重要的警告。他們指出，這項研究僅測試了最多130億參數的模型，而目前商業上最強大的模型已達到數百億參數。此外，這項研究專注於簡單的後門行為，而更複雜的攻擊可能需要不同數量的惡意資料。

研究人員呼籲，這些發現應該促使安全實踐的改變，強調防禦者需要制定能夠應對即使是少量固定數量的惡意示例的策略，而不僅僅是依賴於基於百分比的污染假設。值得注意的是，Anthropic的Claude模型、OpenAI的ChatGPT和Google的Gemini等大型語言模型的開發者正積極投入模型安全研究，但實際威脅已不僅限於學術情境。

（首圖來源：AI 生成）