Google 更新 AI 安全規則，應對模型「有害操縱」和違抗命令

Google 更新了 AI 安全規則，22 日由 Google DeepMind 發表《Frontier Safety Framework》（FSF）第三版。這次更新建立在 Google 與產業界、學術界、政府專家持續合作的基礎上，目的在於辨識和緩解來自先進 AI 的嚴重風險。

FSF 更新後引進一項專門針對有害操縱的關鍵能力等級（Critical Capability Level，CCL），關注具備強大說服能力、恐遭濫用以系統化改變高風險情境下人們信念與行為的模型，進而造成大規模傷害。

Google DeepMind 其一研究工作，正是辨識和評估驅動生成式 AI 有害操縱的機制。在官方文件中，Google DeepMind 指出這類風險的研究處於初期階段，評估屬於探索性質，需要更深入研究。

值得關注的是，FSF 正式納入「不對齊風險」。它概述未來場景中，當先進 AI 可能干涉操作人員指令、修改或關閉其能力時，應採取的應對協議。

FSF 詳述一種方法，著重於檢測模型何時發展出足以破壞人類控制的「基線工具推理能力」(baseline instrumental reasoning ability)，當 AI 代理擁有足夠情境感知和隱匿能力，以規避基本的監管。為此，Google DeepMind 建議建立自動化監控系統，以檢測模型思維鏈（Chain of Thought，CoT）中的不法推理行動。

即使模型在內部推理被監控時仍要隱藏意圖，風險將會升至第二級，Google DeepMind 表示正積極研究解決方案以應對這樣的挑戰。

這樣的顧慮曾是科幻小說或電影的題材，如今成為 Google 安全規則的正式組成，超越過去的探索性做法。

Google 的做法並非空穴來風，而是對 AI 代理帶來大大小小錯誤的直接回應。隨著 AI 能力向通用人工智慧（Artificial General Intelligence，AGI）邁進，Google 採取科學和以證據為基礎的方法來追蹤並防範 AI 風險。