生成式 AI 又有新威脅：一小滴惡意數據竟導致全系統中毒

最新研究顯示，生成式人工智慧（AI）及大型語言模型（LLMs）又面臨嚴峻安全威脅：僅需少量惡意數據，即可對模型「數據毒化」，等於內建後門，讓惡意攻擊者操縱 AI 做不法行為。

AI專家Lance Eliot指出，攻擊者若能在模型初始訓練階段，將特定惡意句子植入訓練資料，可能引發AI系統日後運作對特定問題輸出惡意答案，如洩露敏感資訊或系統密碼。這種手法俗稱「數據毒化攻擊」，惡意污染訓練資料，導致模型學習產生漏洞或錯誤行為。

生成式AI開發者通常以大量網路資訊為訓練資料，然而網路充斥不良或惡意數據，可能因篩選不足誤納入模型。近期研究發現，只需約250份惡意文件即可影響大型語言模型行為，顛覆以往對惡意數據比例要求的認知，顯示現有數據比例假設都太樂觀。

今年生成AI普及企業及社會，AI資安事件也明顯增加，敏感資料經AI工具洩漏風險也日益嚴重。此外，生成式AI的主要局限：模型主要是「預測下個字句」，無法判斷資訊真偽，容易產生「幻覺」（hallucination），加劇惡意數據危害。

國內外都聚焦AI風險，許多研究機構與企業推出更嚴格資訊管理標準和風險指導方針，倡導初始訓練就強化資料篩選，並訓練後多層微調與安全評測，防止被塞後門。同時，加強運行階段安全監控及審查使用者，也成為重要防禦措施。

面對不斷挑戰，AI業界超越技術層面更強調資訊治理和倫理責任。多方呼籲，企業必須不斷最佳化數據來源管理，落實全面監控，確保生成式AI系統安全可靠運行，避免因少量惡意數據導致整體系統信用破產。

（首圖來源：Unsplash）

從這裡可透過《Google 新聞》追蹤 TechNews

科技新知，時時更新

想請我們喝幾杯咖啡？