AI 只拿到 D!ChatGPT 分辨科學假設錯誤率仍比想像高

作者 | 發布日期 2026 年 03 月 18 日 14:50 | 分類 AI 人工智慧 , 科技教育 , 資訊安全 line share Linkedin share follow us in feedly line share
Loading...
AI 只拿到 D!ChatGPT 分辨科學假設錯誤率仍比想像高

華盛頓州立大學副教授 Mesut Cicek 領導研究顯示,ChatGPT 判斷科學假設方面錯誤率仍高,儘管模型不斷更新,準確性仍然有限,且重複詢問 AI 同樣問題,答案還是常常不同。

團隊測試719個2021年以來發表的商業期刊科學論文假設。每個假設都可檢驗,團隊要求ChatGPT根據研究分類為真或假,並為了評估可靠性,每個假設以相同提示詢問十次。

2024年團隊已測試過,免費ChatGPT-3.5正確答案比例為76.5%。2025年中的ChatGPT-5 mini,準確率略微上升至80%。考慮到隨機猜測機率,AI模型實際表現僅約60%,研究員認為此表現分數只有D‾。

ChatGPT辨識假陳述的表現最差,正確率僅16.4%。十次相同提示,ChatGPT僅對約73%提示有相同答案,常在真假間反覆跳躍,可靠性令人存疑。

Cicek強調:「我們不只要求準確性,還有不一致性……目前AI工具還不是以人類眼光理解世界,它們還只是提取資料庫數據。」

這項研究的結果突顯科學評估依賴AI的風險,特別是商業等需要假設驅動決策的領域。儘管生成式AI對整理摘要資料或腦力激盪等任務,但仍需要謹慎看待學術誠信和答案不一致。

(首圖來源:shutterstock)

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》