污染 AI 聊天機器人依然簡單：12 美元就能騙過大語言模型

資安工程師 Ron Stoner 只花了 12 美元，就成功讓多款 AI 聊天機器人相信他是根本不存在的桌遊世界冠軍賽得主，揭露 AI 系統資訊來源驗證的嚴重漏洞。

Ron Stoner 2月悄悄編輯德國桌遊〈6 Nimmt!〉維基百科條目，將自己列為「2025年世界冠軍」，並花12美元註冊6nimmt.com網域，放上一篇慶祝「自己奪冠」新聞稿為引用來源。

問題在於，〈6 Nimmt!〉根本沒有辦比賽。

「我的網站完全沒有任何獨立佐證，全是虛構的」，Stoner說：「謊言的基礎，不過是我喝咖啡時花12美元註冊的網域。」然而當他向多款具網路搜尋功能的AI聊天機器人詢問自己的身分時，系統都一本正經地確認他確實是此桌遊的世界冠軍。

攻擊「檢索增強生成」層

Stoner指出，這次實驗針對AI系統的「檢索增強生成」（RAG）層，即AI回答問題前立即上網搜尋資料的機制。與搜尋引擎不同，AI聊天機器人不會把多個來源同時呈現給使用者判斷，而是直接將網路資料轉成充滿自信的「事實陳述」，就像Google現在的AI搜尋。

他實驗設立的假網站是唯一資訊來源，加上維基百科賦予的權威性，足以讓AI將謊言包裝成事實。「真正改變的是：AI現在會把這些結果當成權威資訊呈現，多數使用者卻根本不知道背後的資料處理流程。」

三層失效、威脅升級

Stoner認為，實驗揭示了三個獨立的安全失效點。第一層是即時檢索層，任何網路搜尋取得答案的AI，可信度完全依賴搜尋結果的品質。

第二層是模型訓練資料：他新增的維基百科條目存活數月才被刪除，代表任何在這段期間爬取維基百科的AI公司，都可能已將這條假紀錄納入訓練資料。「即使維基百科編輯事後撤銷，用撤銷前資料訓練的模型都還有我留下的『遺產』。」他計畫六個月後測試新模型，若AI不需連網就能說出他的「冠軍頭銜」，即可證明假訊息滲入訓練資料。

第三層也是最危險的，是AI代理（AI agents）。「聊天模型產生錯誤資訊是聲譽問題，但有工具存取權限的代理產生錯誤行動，就是資安問題了。」一旦代理系統被投毒資料誤導，攻擊者便能操控執行特定惡意行動。

廉價攻擊但警示深遠

Stoner強調，這次實驗門檻低得驚人：「12美元買網域、編輯維基百科，共約20分鐘。若換成有目的的惡意行為者，多個條目發動協調攻擊，後果將非常可觀。」他呼籲AI業者將資料來源可信度納入核心流程，並建立啟發式過濾機制，如維基百科條目的唯一引用來源若是剛註冊的新網域，理應自動觸發警示，但目前系統毫無反應。

「AI最不擅長偵測的，偏偏就是設計它來做的事：信任文字和資源」，Stoner總結，希望這場實驗能推動業界在更大規模資訊操弄出現前，盡早補好漏洞。