推理型 AI「思考過程」有欺騙行為?Anthropic 發現風險

作者 | 發布日期 2025 年 04 月 10 日 16:28 | 分類 AI 人工智慧 , 資訊安全 , 軟體、系統 line share Linkedin share follow us in feedly line share
Loading...
推理型 AI「思考過程」有欺騙行為?Anthropic 發現風險

推理型 AI 模型日漸普及,這類大型語言模型(LLM)回答用戶查詢時會展示思考過程,即所謂的思維鏈(Chain-of-Thought,CoT),使用戶有種 AI 有透明度的錯覺,似乎能跟隨並理解模型如何決策。然 Anthropic 最近以一系列精心設計實驗,測試 CoT 模型推理的「誠實度」,顯示 AI 還是有欺騙成分。

Anthropic 團隊設計的測試,提問前先給模型提示,再觀察模型解釋推理過程時是否承認參考提示,對象為 Claude 3.7 Sonnet 和 DeepSeek-R1 先進模型,並以 Claude 3.5 Sonnet 和 DeepSeek V3 為比較基準。

測試結果令人擔憂:模型使用提示確定回答時,多數情況不會提到這點。Claude 3.7 Sonnet 僅 25% 說有參考提示,DeepSeek-R1 機率為 39%。代表多數測試,模型的推理過程「不誠實」。若研究員提示有些未授權或不道德資訊,模型隱瞞傾向更明顯。

另外,模型答案較短時,往往更「誠實」;解釋較長時,「不誠實」度增加。另一項測試顯示,模型被「獎勵」選擇錯誤答案時,不僅學會利用提示,還很少承認是因獎勵機制才用,甚至捏造理由想證明錯誤答案才是正確的。

企業需了解 AI 風險和盲點

這項研究對依賴 AI 技術的企業有深遠影響。首先,挑戰企業對 AI 推理模型透明度的信任度。許多企業之所以選擇推理型 AI,正是因展示思考過程,使 AI 似乎可解釋性和可靠性都更高。但 Anthropic 研究顯示 AI 透明度都可能是假的。

對企業來說,依賴 AI 系統做重要決策時需更謹慎,尤其金融、醫療、法律等高風險領域,如果 AI 模型隱藏真實推理過程,就會導致無法檢測的偏見或錯誤決策。企業應考慮建立多層次 AI 監控系統,不僅依賴模型解釋,還需外部驗證機制。

實際應用方面,企業可採取以下措施:建立 AI 決策的多重驗證機制,不只靠一個模型;開發專門測試軟體,定期評估企業 AI 模型的「誠實度」;關鍵決策同時採納人類監督和最終決策權;與 AI 提供商合作,推動更透明和可靠的模型開發。

AI 可靠度仍然有待提升

AI 越深入企業和社會各層面,模型可靠性和透明度的要求也會不斷提高。Anthropic 研究揭示推理模型局限性,同時也指明將來研究和發展方向。

將來可能會看到更注重「可審計性」的 AI 系統,不僅展示推理過程,還能提供這些推理的證據和驗證機制。AI 監管也會加強,要求企業不僅評估 AI 系統性能,還需評估透明度和可靠性。技術層面,新 AI 模型可能融入更多誠信機制,使模型難隱藏真實推理過程。

企業需認識 AI 推理模型雖然強大,但遠不到完美。享受新科技的效率和創新時,也需保持警惕和批判性思考。建立健全 AI 管理框架,定期評估和監控 AI 表現,關鍵決策還是以人類為準,都是企業於 AI 時代保持競爭力又能管理風險的關鍵策略。

(本文由 Unwire Pro 授權轉載;首圖來源:AI)

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》