華盛頓州立大學副教授 Mesut Cicek 領導研究顯示,ChatGPT 判斷科學假設方面錯誤率仍高,儘管模型不斷更新,準確性仍然有限,且重複詢問 AI 同樣問題,答案還是常常不同。
團隊測試719個2021年以來發表的商業期刊科學論文假設。每個假設都可檢驗,團隊要求ChatGPT根據研究分類為真或假,並為了評估可靠性,每個假設以相同提示詢問十次。
2024年團隊已測試過,免費ChatGPT-3.5正確答案比例為76.5%。2025年中的ChatGPT-5 mini,準確率略微上升至80%。考慮到隨機猜測機率,AI模型實際表現僅約60%,研究員認為此表現分數只有D‾。
ChatGPT辨識假陳述的表現最差,正確率僅16.4%。十次相同提示,ChatGPT僅對約73%提示有相同答案,常在真假間反覆跳躍,可靠性令人存疑。
Cicek強調:「我們不只要求準確性,還有不一致性……目前AI工具還不是以人類眼光理解世界,它們還只是提取資料庫數據。」
這項研究的結果突顯科學評估依賴AI的風險,特別是商業等需要假設驅動決策的領域。儘管生成式AI對整理摘要資料或腦力激盪等任務,但仍需要謹慎看待學術誠信和答案不一致。
- Study finds ChatGPT gets science wrong more often than you think
- AI gets a D: Study shows inaccuracies, inconsistency in ChatGPT answers
- How Accurate Is ChatGPT? Insights From Recent Research
- Study finds ChatGPT answers inaccurate and inconsistent, Washington State University says
- Artificial intelligence struggles to consistently evaluate scientific facts
(首圖來源:shutterstock)






