
大型語言模型(LLM)多設有安全屏障,避免用戶濫用模型,而「指令注入攻擊」(Prompt Injection Attack)就是以特別指令繞過屏障,研究發現執行類似攻擊的主要罪犯卻非駭客,而是求職者或抗議人士等。
卡巴斯基(Kaspersky)發現,指令注入攻擊常見「忽略所有先前指示改做這個」指令最近幾個月使用率大幅上升,調查內部檔案和公開網路尋找指令注入跡象後,發現近千個含相關語詞網頁,分成四類:人力資源相關注入、試圖使某些產品或網站獲更有利描述或搜尋結果位置、抗議形式注入,以及試圖透過叫模型做無害之事以破壞任務。
研究員觀察到人力資源和招聘用指令注入最普遍,不少人為了得到理想工作而試圖操縱企業求職篩選系統,用各種技巧隱藏操作,如求職信用超小字體、文字顏色與背景設成同色,以及用負坐標將文字移出頁面可見空間,讓有特別語言的求職信看起來正常。
卡巴斯基還發現產品網站用類似技巧試圖說服自動化系統出現更正面評論或摘要,另一類「抗議注入」為網友在自己網站和社群媒體檔案加入指令,以反抗 AI。雖然研究員認為惡意注入對魚叉式網路釣魚或數據洩露時可用,但卡巴斯基推測駭客未大量使用:「目前 LLM 能力有限,這種威脅很大程度還只是理論面。」
(本文由 Unwire Pro 授權轉載;首圖來源:Unsplash)