
數發部攜手工研院、資安院成立的 AI 產品與系統評測中心(Artificial Intelligence Evaluation Center,AIEC),3 日首次公布語言模型基準評測結果,期望推動台灣 AI 在地化評測與第三方驗證,強化產業信任 AI。
AIEC 這次評測依語言模型規模,對國內外模型進行系統性檢測,國人常見到的 GPT-5、Gemini 2.5 Flash、DeepSeek-R1 以及台灣研發的 TAIDE 等模型入列,評測結果將會定期公布在 AIEC 官網上。除採用「高中學測國文科」、「高中學測社會科」指標外,更納入「台灣價值觀」評測指標,符合國際 AI 主權發展趨勢,並作為未來建構在地模型或調校國際模型的重要基準。
這次評測 42 款公開的語言模型,資安院副院長龔化中點出,TAIDE(Gemma-3-TAIDE-12b)在小模型(130 億參數以下)表現名列前茅,比原基礎模型 Google 的 Gemma-3-12b-it 表現更好,展現台灣 AI 研發實力。
大模型(130 億參數以上)方面,OpenAI GPT-5 的整體表現最佳,而 Google Gemini 2.5 Flash 在「台灣價值觀」評測表現最優異,顯示其對台灣主流價值觀具備較高的理解與對應能力。龔化中也指出,中國部分語言模型在「台灣價值觀」評測項目表現也不錯,研判可能是模型採蒸餾技術,以歐美基礎模型的輸出作為訓練資料,因此取得較高準確率。
對公開模型而言,部分歐美語言模型可能沒有使用台灣繁體中文語料進行訓練,在「台灣價值觀」評測表現較差,凸顯推動本土化語料建置的重要性。
台灣 AI 評測體系成形
AIEC 自 2023 年底成立後,逐步建構 AI 評測體系,已有「AI 測試實驗室」(工研院負責)、「AI 驗證機構」(資安院負責)2 大架構,預計明後 2 年分別通過 TAF。如此一來,AIEC 公布的評測報告、及日後推出的評測標章,就能作為國內外企業的評估依據。
實際上,包括鴻海等科技大廠已向 AIEC 申請送測。AIEC 接獲 14 個案子,有 8 家廠商、超過 80 款模型進行評測,送測模型多以 Llama、Gemma 等開源模型為基礎。廠商期望確認技術方向正確、找出改善空間或為標案需求送測。
工研院資訊與通訊研究所組長王邦傑鼓勵廠商送測,不僅做出評測結果,AIEC 還有諮詢輔導,能與廠商交流,共同提升產品能力、接軌國際市場。
數發部積極推動台灣主權 AI 語料庫,提供具在地語境與本土價值的繁體中文資料,作為語言模型的訓練基礎。另一方面,AIEC 廣泛徵求各界專家提供評測題目,經審查後,評測題庫目前有 1,725 題,符合台灣文化、市場需求以及國際標準指引,這些都有助於建立值得信賴的 AI 評測體系。
▲ 左起工研院資訊與通訊研究所組長王邦傑、資安院副院長龔化中。
(圖片來源:科技新報)