Anthropic 首次將其能力最強的模型開放給一般大眾使用,同時也設下相對應的防護機制。
Claude Mythos 今年 4 月以預覽版形式推出,當時因網路安全方面的疑慮,僅提供少數合作夥伴使用。Anthropic 上週擴大合作範圍,新加入橫跨超過 15 個國家、約 150 個跨產業組織。
Anthropic 9 日進一步推出 Claude Mythos 模型首次對外公開的版本——Claude Fable 5,它在軟體工程、知識工作及視覺方面表現出色,同時設有嚴格的安全性限制。在網路安全、生物、化學以及蒸餾(distillation)等高風險領域,它會阻擋相關內容回應,改由 Claude Opus 4.8 接手處理。
與此同時,Anthropic 也向已經獲准使用的合作夥伴推出 Claude Mythos 全新版本 Claude Mythos 5。
對 Claude 使用者而言,並非每一次提問都由 Claude Fable 5 來作答。Anthropic 指出,Claude Fable 5 改由 Claude Opus 4.8 接手處理的情境屬於少數案例。初步數據顯示,至少有 95% 的 Fable 使用階段是完全由這款模型自身回應。
▲ Claude Claude Mythos / Fable 5 基準測試結果。
由於擔心 Claude Mythos 等級的模型如果落入不法分子手中可能帶來嚴重後果,Anthropic 表示推出 Claude Fable 5 之前,透過模擬越獄(jailbreak)行動,對其分類器進行壓力測試。
「在內部,我們進行了一場對外的漏洞獎勵計畫,這項計畫在超過 1,000 小時的測試中,並未產出任何有效的越獄攻擊。我們接著也與多家扮演紅隊角色的資安組織合作,同樣也未找出任何有效的越獄攻擊手法」,Anthropic 表示。
話雖如此,仍有可能出現各式各樣前所未見的攻擊型態。隨著 Claude Fable 5 和 Claude Mythos 5 的推出,Anthropic 將對所有流量資料執行 30 天保留期,即使是先前已經簽下零留存協議的企業客戶也不例外。
Anthropic 表示,這些資料不會用於訓練,而是用於抵禦複雜且前所未見的攻擊行動,包括各種新型越獄手法,並且降低誤報情形。這項政策有可能為整個產業確立先例,模型日益強大,獲得存取權的同時需要留存造訪資料,這被定位成一種安全措施。
Claude Fable 5 可透過 Anthropic 的 Claude API 和採用以量計費的 Enterprise 方案,向任何人開放使用。透過訂閱方式的使用權將分階段推出:即日起至 6 月 22 日為止,這款模型以不額外收費的方式,包括在 Pro、Max、Team 及按席次計費的 Enterprise 方案中;6 月 23 日起,Anthropic 將從上述方案撤下模型,未來使用這款模型需以點數支付。
Claude Fable 5 和 Claude Mythos 5 的定價皆為每百萬個輸入 token 收費 10 美元、每百萬個輸出 token 收費 50 美元,是 Claude Opus 4.8 定價的 2 倍。光是這個定價水準,就有可能阻礙外界廣泛採用,但 Anthropic 仍有信心,預期市場對 Claude Fable 5 需求會相當高,目前難以預估。
(圖片來源:Anthropic)






