最新研究顯示,生成式人工智慧(AI)及大型語言模型(LLMs)又面臨嚴峻安全威脅:僅需少量惡意數據,即可對模型「數據毒化」,等於內建後門,讓惡意攻擊者操縱 AI 做不法行為。
AI專家Lance Eliot指出,攻擊者若能在模型初始訓練階段,將特定惡意句子植入訓練資料,可能引發AI系統日後運作對特定問題輸出惡意答案,如洩露敏感資訊或系統密碼。這種手法俗稱「數據毒化攻擊」,惡意污染訓練資料,導致模型學習產生漏洞或錯誤行為。
生成式AI開發者通常以大量網路資訊為訓練資料,然而網路充斥不良或惡意數據,可能因篩選不足誤納入模型。近期研究發現,只需約250份惡意文件即可影響大型語言模型行為,顛覆以往對惡意數據比例要求的認知,顯示現有數據比例假設都太樂觀。
今年生成AI普及企業及社會,AI資安事件也明顯增加,敏感資料經AI工具洩漏風險也日益嚴重。此外,生成式AI的主要局限:模型主要是「預測下個字句」,無法判斷資訊真偽,容易產生「幻覺」(hallucination),加劇惡意數據危害。
國內外都聚焦AI風險,許多研究機構與企業推出更嚴格資訊管理標準和風險指導方針,倡導初始訓練就強化資料篩選,並訓練後多層微調與安全評測,防止被塞後門。同時,加強運行階段安全監控及審查使用者,也成為重要防禦措施。
面對不斷挑戰,AI業界超越技術層面更強調資訊治理和倫理責任。多方呼籲,企業必須不斷最佳化數據來源管理,落實全面監控,確保生成式AI系統安全可靠運行,避免因少量惡意數據導致整體系統信用破產。
- The Alarming Discovery That A Tiny Drop Of Evil Data Can Sneakily Poison An Entire Generative AI System
- 生成AIの潜在的リスク:コンテキスト汚染への理解と対策
(首圖來源:Unsplash)






