
人工智慧無論效能或普及度都快速發展,不過複雜程式結構使 AI 公司也難掌握運作機制,有如「黑盒子」讓多數人無法理解和預測結果。專家警告問題將嚴重影響監管 AI 系統安全性。
Anthropic、Google、OpenAI 及馬斯克旗下 xAI 等開發的「思考鏈」(Chain-of-thought)雖能讓 AI 推理模型逐步解決問題並展示推理過程,但研究員發現模型經常出現「不當行為」,最終回應與推理過程有明顯矛盾,使業界憂慮 AI 系統可控性。
AI 推理透明度遇到瓶頸
各大 AI 實驗室目前「思考鏈」原想提升模型透明度,使開發人員更了解 AI 如何得出結論,要求 AI 推理模型處理複雜問題時展示每個步驟如何思考,協助開發更透明的 AI 系統。
然而實際使用,團隊發現生成式 AI 聊天機器人言行嚴重不一致。模型最終答案常與推理過程衝突,顯示全球頂尖 AI 實驗室也無法掌握生成式 AI 模型如何達成結論。
非營利研究機構 METR 舉例,問 Anthropic AI 模型 Claude 某程式語言是否比其他語言更「優雅」,思考鏈顯示模型不認同,但卻回答正面。
OpenAI 最新研究論文證實,觀察模型思考鏈比單純檢視最終輸出更有效偵測不當行為。不過也揭示另一個令人擔憂的現象:當模型思考鏈遭人為干預並訓練成不會產生不當想法時,模型不是「改邪歸正」,反而是隱藏不良行為,但仍執行不當動作(=說謊),如軟體工程測試時存取資料庫以作弊。
商業應用面臨信任危機
這些缺陷對企業部署 AI 系統有重大挑戰。OpenAI 和 Anthropic 一般用戶只能看到摘要後的思考鏈版本,系統會移除有害內容詳細分解,只有開發人員能檢視完整思考過程,才有機會介入並訓練模型來提供更佳回應。企業考慮採用 AI 系統時必須認真評估透明度風險。雖然思考鏈有助辨識 AI 模型潛在缺陷,但仍無法視為完全可信。需建立額外監控機制,確保 AI 決策過程與預估結果一致。
對需要高度準確性和可追溯性行業,如金融服務、醫療保健和法律諮詢,這種缺乏透明度可能造成嚴重後果。企業應制定嚴格 AI 管理框架,包括定期審核模型行為、建立人工監督機制,以及設定緊急停止程序。
公司領導者也應投資研發 AI 解釋性技術,與供應商建立更緊密合作關係,共同開發更可靠的 AI 透明度解決方案。企業可考慮多重驗證機制,結合各 AI 模型輸出結果,降低單模型不當行為風險。
Anthropic 聯合創辦人 Jack Clark 強調思考鏈將成為深入研究模型運作和思考方式的重要工具,特別是危險邊緣案例,如 AI 系統協助開發生物武器的潛在風險。業界迫切需確保思考鏈真實反映模型思考過程。
OpenAI 研究科學家 Bowen Baker 指出,思考鏈可解釋性優勢是基本上是「免費的」副產品。團隊最初訓練模型並非為了提升可解釋性,而是希望開發解決複雜問題的最佳推理模型。
曾任職 Google 參與開發思考鏈、現領導亞馬遜 AI 實驗室的 David Luan 對前景持樂觀態度,數年來 AI 發展經驗顯示,永遠不要低估 AI 模型進步的速度,雖然目前思考鏈並非總是忠實反映底層推理過程,但問題短期內應可解決。
METR AI 研究員 Sydney von Arx 以個人身分表達類似觀點,認為該像軍方對待截獲敵方無線電通訊處理思考鏈。雖然敵方內容可能有誤導性或重新編碼,但最終也是會傳遞資訊,解讀所有內容總能學到東西。
AI 模型更強大自主後,解決推理透明度已成為 Anthropic、OpenAI 和其他 AI 前線者的優先任務。未來一定會有更多解釋 AI 思考的技術突破,以及更嚴格監管框架確保 AI 安全性和可控性。
(本文由 Unwire Pro 授權轉載;首圖來源:OpenAI)