Google 新研究：AI 模型準確率最高僅 69%，答錯率高達三分之一

Google 最新研究，目前人工智慧聊天機器人事實準確性還是項重大挑戰，最佳模型如 Gemini 3 Pro 準確率僅 69%。數據來自 Google 最新 FACTS 基準測試，即使最先進 AI，仍無法達 70% 準確率，這對需精準數據的行業如金融、醫療和法律來說，會造成嚴重後果。

FACTS基準測試由Google FACTS團隊與Kaggle合作開發，直接測試AI模型在真實世界的事實準確性。測試有四方面：參數知識、搜尋性能、基於文件準確性和多模態理解。結果顯示，Gemini 3 Pro準確性領先，得分69%，其他模型Gemini 2.5 Pro和OpenAI ChatGPT-5接近62%。

儘管GPT-5.2網路搜尋錯誤率降低45%，思考模式降低80%，但Google和OpenAI都強調高風險應用仍需人類重複驗證。獨立測試顯示，儘管這些模型深度和情感洞察方面有進步，仍未達人類準確性。

研究還指出，AI模型多模態任務表現最差，準確率經常低於50%。這代表聊天機器人解讀圖表或圖片時，會自信地誤讀數據，導致難察覺的錯誤。Google數據顯示，儘管AI不斷進步，但要當成完全可靠的訊息來源前，仍需驗證和人類監督。

今年AI評估和具體化需求增加，業界對AI的期望也逐漸調整。專家呼籲使用AI時，還是該保持謹慎，避免盲目信任。

（首圖來源：AI）