![]()
現在壓力給到了OpenAI。
作者丨馬曉寧
編輯丨林覺民
2026 年 6 月 9 日的北京時間深夜 1 點,Anthropic 發布了 Claude Fable 5。
如果你只看標題,可能會覺得這又是一條"新模型發布、基準測試刷榜、能力大幅提升"的例行新聞。但這一次不太一樣,Fable 5 是 Anthropic 第一款面向普通用戶開放的"Mythos 級"模型,強到需要專門的安全工程系統來防止被濫用。
兩個月前,Anthropic 啟動了 Project Glasswing,并發布了第一款 Mythos 級模型,Claude Mythos Preview,但是沒有公開 API,沒有訂閱計劃,沒有用戶申請通道。
Anthropic 當時的說法是:Mythos 級模型的能力已經達到了需要嚴格管控的閾值,必須“通過受控渠道逐步釋放”,所以只給美國政府旗下的網絡安全合作伙伴和關鍵基礎設施提供方。
所以到底有多強?大家的好奇心是真的上來了。終于 Fable 5 來了,普通用戶也能一試為快,但 Anthropic 顯然沒有放松警惕。
他們的解決方案是一套安全分類器。獨立的 AI 系統主動攔截高風險請求,甚至不惜誤傷一部分正常問題。換句話說,是 Mythos,但不是完全體。
01
Fable 5 是真的強
強。而且不是"刷榜強",是"做事情強"。
代碼:比人工團隊快上幾十倍
AI Coding 重度依賴用戶應該是最快發現的,Fable 5 真不一樣。
Stripe 給了它一個幾乎不可能的任務:在一個 5000 萬行的 Ruby 代碼庫中完成全庫遷移。一般來說,人工團隊需要超過2 個月。
Fable 5 做完這件事用了 1 天。
過去的大模型,上下文窗口撐到了百萬 token 級別,但給一個 5000 萬行的代碼庫,它根本不知道該看哪里Fable 5 的進步就是,它知道怎么在超大規模代碼庫中找到該關注的地方,并且有始有終地把任務完成。
一個更量化的對比來自 Cognition 的 FrontierCode 評估。他們設定了一個從開源項目維護者的視角來評估的基準,"這段代碼我愿不愿意合并進主線?"
出來的結果是,Fable 5 得分29.3%,而 Opus 4.8 只有13.4%,直接翻倍。
Fable 5 比過往 Claude 模型都更省 token。因為推理效率提升了,同樣是解決問題,它用的思路更 direct,不需要繞彎路。原來要來回對話五六次才能做好的事情,現在一兩次就搞定了。
識工作,如探囊取物
先看金融圈的反應。
Hebbia 有個高級推理基準測試,專門看模型在真實金融任務上的表現,比如翻文檔、讀圖表、解問題,不是背數字。Fable 5 跑下來,在所有模型里排第一。
交易公司 IMC 的反饋更直接。他們給 Fable 5 做了一整套交易分析測試,從事實查詢到概念推理,從根因分析到期望值分析,基本就是交易員每天的工作內容。結果是:Fable 5 幾乎全部高分通過。
Fable 5 在法律場景的具體表現仍是一個“黑箱”,但是看到這些強勁表現,法律應用應該也是它的囊中之物了。
那么問題來了,知識工作者是不是已經能被AI取代了?
視覺任務的新 SOTA
一般情況下,給模型一張截圖,它吐出來一段 HTML + CSS。
打開一看有點像,但點按鈕沒反應,拖拽不行,動畫全丟,字體不對,間距歪了。基本上是一個靜態殼子,不是能用的應用。
現在給 Fable 5 一張 Web 應用的截圖,它能重建出了完整的源代碼。
不是那種"截圖轉代碼"的Demo,就是真實反推代碼。模型要理解視覺布局、推斷交互邏輯、還原樣式細節,出來的代碼真的能用。
另一個例子更夸張。Pokémon FireRed 游戲,過往 Claude 模型即使用上提供額外工具的輔助框架,依然打不通。Fable 5 用了最小的純視覺輔助框架,自己打完了。
而且官方還放了全流程通關延時攝影,你可以親眼看到它怎么打道館、怎么配招、怎么在卡關的時候調整策略。
一個 AI 在玩一款它沒玩過的游戲,而且打完了。
這個是真的比我強。
記憶與長上下文:真的"記住"了
100 萬 token 上下文,實際上能用起來的可能只有幾千 token,很多模型在上下文長度上都大有水分。
Fable 5 在這方面表現非常突出。
官方給出的測試是玩卡牌游戲 Slay the Spire。Fable 5 與 Opus 4.8 兩個模型對壘,研究者給模型接了一個持久化的文件記憶,讓它可以在對局過程中寫筆記、讀筆記、用筆記調整策略。
結果,Fable 5 的性能提升幅度是 Opus 4.8 的 3 倍;到達最終關卡的概率,是 Opus 4.8 的 3 倍。
Opus 4.8 也能拿到筆記,但它不太會用。Fable 5 就是像一個人一樣,在長任務中持續積累信息并改進自己的輸出。
自主復雜任務
Fable 5 自主完成的幾類任務也很有意思。
一般你讓 AI 做天文計算,它會這樣:
"查一下開普勒第三定律的公式……好的,套進去,算出來。"
這種模型會調用現成的天文庫或記住了公式,也算是能完成任務。
Fable 5 做的事不一樣:
它自己從牛頓力學的最基本假設出發,
"兩個物體之間有引力,引力大小和距離平方成反比……好,現在我來推導出行星是怎么運動的。"
然后它真的從F=GMm/r2開始,自己推導出軌道是一個橢圓,然后再用這個推導出來的模型去預測:下一次日食是什么時候、在哪里能看到。
Factorio 是一款非常硬核的工廠建造類游戲,玩家需要在一個外星上從零開始采集資源、建造生產線、研發科技,最終造出火箭發射上天。
這不是一個"打怪升級"的游戲,玩家要處理一個系統工程問題:
你要規劃資源采集點放在哪里; 你要設計傳送帶路線,把礦石運到熔爐,把金屬板運到組裝機; 生產線要一環扣一環,前面堵了后面全停; 敵人會來進攻,你還要分精力造防御塔; 中途要不斷升級科技,解鎖新設備,替換舊產線。
整個過程需要持續數十小時的規劃、執行、調整,任何一步卡住就推不動了。
Fable 5 能夠自己玩這款游戲,自己規劃資源布局,自己決定先建什么后建什么,被敵人打了自己調整防御,最終真的把火箭造出來、發射了。全程沒有人介入。
還有在瀏覽器端 CAD 編輯器中設計完整的可 3D 打印模型,而且編輯器本身也是 Fable 5 創建的,內置的 AI 建模助手也由 Fable 5 開發。Fable 5 工具宇宙,啟動!
和競品比怎么樣?
Anthropic 的官方基準測試顯示 Fable 5 在"幾乎所有測試維度"上優于其他前沿模型。具體數字官方沒有全部公開,但有幾個參照點:
FrontierCode 評估:Fable 5(29.3%)> Opus 4.8(13.4%)> Opus 4.7(5.2%) 某前沿物理研究任務:Fable 5 用 36 小時達到了 GPT-5.5 4 天達到的水平,且只用了三分之一的推理 token ViBench(端到端 vibe 編碼基準):Fable 5 是測試過性能最高的模型
一句話總結,Fable 5 不是"稍微強一點",是能力的代際跨越。
02
但有幾個事情很讓人不爽
Fable 5 很強,但 Anthropic 的發布工程有很多地方做得不夠好,甚至可以說"讓用戶不滿"。
▎5% 的會話會被「偷偷」降級
這是最大的問題。
Fable 5 配備了一個"安全分類器"。這個分類是一個獨立的 AI 系統,用來判斷用戶請求是否涉及網絡安全、生化研究、模型蒸餾這三類高風險領域。如果分類器覺得"危險",請求不會被 Fable 5 處理,而是被靜默路由到 Opus 4.8 來回答。
Anthropic 的說法是"超過 95% 的會話完全不會觸發回退"。約 20 個請求中就有 1 個沒有被 Fable 5 處理,而且用戶很可能不知道。
官方說"用戶會收到對應通知",但 Hacker News 上的用戶反饋是:通知很模糊,根本不知道自己被降級了。
用戶不知道自己被降級了,也無法申訴。這一點可能會引發比較大的爭議。
這個 5% 是怎么算出來的?分場景嗎?代碼場景的誤判率和醫療場景的誤判率一樣嗎?用戶能不能看到降級原因呢?
都不知道。
Anthropic 做了一個工程上的補救:如果被降級,不按 Fable 5 的價格計費。算是個安慰?
▎免費只有 14 天,之后要按量付費
6 月 9 日 - 6 月 22 日,在 Pro、Max、Team、企業計劃中,Fable 5免費。
6 月 23 日起,這些訂閱計劃全都沒用,使用Fable 就要購買積分按量付費。
官方先說明,"待算力充足后計劃重新納入訂閱標準權益"。
對于已經訂閱 Pro/Max 的用戶來說,這相當于漲價呀。你原本可以"無限"使用 Claude,現在最強模型要單獨付費了。
▎所有數據強制保留 30 天
這是企業用戶最大的合規障礙。
Anthropic 專門發了一個新政策,所有 Mythos 級模型的流量保留 30 天,無論你是通過 Anthropic 官網調用,還是通過 AWS Bedrock、GCP Vertex AI 等第三方云調用。
如果企業和 Anthropic 簽了零數據保留協議,那 Anthropic 這條政策直接違反了協議。這點兒不知道會不會引發法律糾紛。
▎謝謝,暫時不進入生物化學研究
如果是生物研究員,想用 Fable 5 輔助分析蛋白質結構,那可能有點難。
因為 Anthropic 說,出于盡快安全發布 Fable 5 的考慮,目前大部分和生物、化學相關的請求都會觸發回退到 Opus 4.8,即使部分請求是無害的。
雖然"未來會逐步縮小分類器覆蓋范圍",但現在是Wide Net 策略:寧可錯殺,不可漏判。對科研用戶來說,這是很大的使用障礙。
未來幾周,部分生物醫學研究人員可以加入"生物能力可信訪問計劃",獲得 Mythos 5(無生化限制版)的訪問權限。但計劃的具體準入標準、申請流程、審批周期,目前都不清楚。
03
為了讓這個超級強大的模型安全地上線,Anthropic 不得不在它外面套了一整套工程系統。
"強",是真實的。不是營銷話術,不是刷榜分數,而是在真實工作任務中可感知的提升。如果你在做復雜的編程工作、數據分析、視覺理解任務,Fable 5 值得一試。
現在壓力傳回給 OpenAI。既然兩家公司都傳出了準備 IPO 的消息。奧特曼總不能把市值第一的機會拱手讓人吧?
所有人一起,坐等 OpenAI 接招。
參考資料:https://anthropic.com/claude-fable-5-mythos-5-system-card
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.