資安工程師 Ron Stoner 只花了 12 美元,就成功讓多款 AI 聊天機器人相信他是根本不存在的桌遊世界冠軍賽得主,揭露 AI 系統資訊來源驗證的嚴重漏洞。
Ron Stoner 2月悄悄編輯德國桌遊〈6 Nimmt!〉維基百科條目,將自己列為「2025年世界冠軍」,並花12美元註冊6nimmt.com網域,放上一篇慶祝「自己奪冠」新聞稿為引用來源。
問題在於,〈6 Nimmt!〉根本沒有辦比賽。
「我的網站完全沒有任何獨立佐證,全是虛構的」,Stoner說:「謊言的基礎,不過是我喝咖啡時花12美元註冊的網域。」然而當他向多款具網路搜尋功能的AI聊天機器人詢問自己的身分時,系統都一本正經地確認他確實是此桌遊的世界冠軍。
攻擊「檢索增強生成」層
Stoner指出,這次實驗針對AI系統的「檢索增強生成」(RAG)層,即AI回答問題前立即上網搜尋資料的機制。與搜尋引擎不同,AI聊天機器人不會把多個來源同時呈現給使用者判斷,而是直接將網路資料轉成充滿自信的「事實陳述」,就像Google現在的AI搜尋。
他實驗設立的假網站是唯一資訊來源,加上維基百科賦予的權威性,足以讓AI將謊言包裝成事實。「真正改變的是:AI現在會把這些結果當成權威資訊呈現,多數使用者卻根本不知道背後的資料處理流程。」
三層失效、威脅升級
Stoner認為,實驗揭示了三個獨立的安全失效點。第一層是即時檢索層,任何網路搜尋取得答案的AI,可信度完全依賴搜尋結果的品質。
第二層是模型訓練資料:他新增的維基百科條目存活數月才被刪除,代表任何在這段期間爬取維基百科的AI公司,都可能已將這條假紀錄納入訓練資料。「即使維基百科編輯事後撤銷,用撤銷前資料訓練的模型都還有我留下的『遺產』。」他計畫六個月後測試新模型,若AI不需連網就能說出他的「冠軍頭銜」,即可證明假訊息滲入訓練資料。
第三層也是最危險的,是AI代理(AI agents)。「聊天模型產生錯誤資訊是聲譽問題,但有工具存取權限的代理產生錯誤行動,就是資安問題了。」一旦代理系統被投毒資料誤導,攻擊者便能操控執行特定惡意行動。
廉價攻擊但警示深遠
Stoner強調,這次實驗門檻低得驚人:「12美元買網域、編輯維基百科,共約20分鐘。若換成有目的的惡意行為者,多個條目發動協調攻擊,後果將非常可觀。」他呼籲AI業者將資料來源可信度納入核心流程,並建立啟發式過濾機制,如維基百科條目的唯一引用來源若是剛註冊的新網域,理應自動觸發警示,但目前系統毫無反應。
「AI最不擅長偵測的,偏偏就是設計它來做的事:信任文字和資源」,Stoner總結,希望這場實驗能推動業界在更大規模資訊操弄出現前,盡早補好漏洞。
(首圖來源:AI)






