Google 最新研究,目前人工智慧聊天機器人事實準確性還是項重大挑戰,最佳模型如 Gemini 3 Pro 準確率僅 69%。數據來自 Google 最新 FACTS 基準測試,即使最先進 AI,仍無法達 70% 準確率,這對需精準數據的行業如金融、醫療和法律來說,會造成嚴重後果。
FACTS基準測試由Google FACTS團隊與Kaggle合作開發,直接測試AI模型在真實世界的事實準確性。測試有四方面:參數知識、搜尋性能、基於文件準確性和多模態理解。結果顯示,Gemini 3 Pro準確性領先,得分69%,其他模型Gemini 2.5 Pro和OpenAI ChatGPT-5接近62%。
儘管GPT-5.2網路搜尋錯誤率降低45%,思考模式降低80%,但Google和OpenAI都強調高風險應用仍需人類重複驗證。獨立測試顯示,儘管這些模型深度和情感洞察方面有進步,仍未達人類準確性。
研究還指出,AI模型多模態任務表現最差,準確率經常低於50%。這代表聊天機器人解讀圖表或圖片時,會自信地誤讀數據,導致難察覺的錯誤。Google數據顯示,儘管AI不斷進步,但要當成完全可靠的訊息來源前,仍需驗證和人類監督。
今年AI評估和具體化需求增加,業界對AI的期望也逐漸調整。專家呼籲使用AI時,還是該保持謹慎,避免盲目信任。
- Google finds AI chatbots are only 69% accurate… at best
- The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality
- 2025 AI Visibility Report: How LLMs Choose What Sources to Mention
- Top SEO & AI Search News to Know in December 2025
- ChatGPT vs Google Gemini (2025): Which AI Is Actually Smarter?
(首圖來源:AI)






