出品 | 網易智能
作者 | 辰辰
編輯 | 王鳳枝
神秘的Mythos級模型,終于向普通用戶開放了。
但不是完整版。
北京時間6月10日凌晨,Anthropic發布Claude Fable 5。這是它第一次把Mythos級能力推向公眾。與此同時,真正限制更少的Claude Mythos 5,只發給了一小撮網絡安全合作伙伴,以及少數生物醫學研究者。
![]()
普通用戶拿到的,是一個被嚴格劃定了使用邊界的版本。
觸線之后,Fable 5會沉默,然后把問題交給上一代模型Claude Opus 4.8。
也就是說,在某些場景里,你以為自己正在使用Anthropic最強模型,拿到的卻可能是上一代模型的回答。
Anthropic說,超過95%的對話不會觸發攔截。但對剩下那不到5%的人來說,他們付的是最強模型的錢,拿到的是上一代的服務。
它可能是你現在能公開用到的最強AI。
但Anthropic不敢把完整的它交到你手里。
一、有多強
先看數字和用戶評價。
Anthropic宣稱Fable 5在各項基準測試中遠超競品:SWE-bench Pro(軟件工程基準測試)80%,Terminal-Bench(終端基準測試)88%……
![]()
Stripe在內部測試中發現,Fable 5把一次5000萬行Ruby代碼庫的遷移工作,從"一個團隊干兩個月"壓縮到了一天。
Cursor CEO邁克爾·特魯爾(Michael Truell)說,Fable 5在他們的基準測試上是"最先進模型","打開了一類此前的模型完全夠不到的長周期問題。"
GitHub首席產品官馬里奧·羅德里格斯(Mario Rodriguez)說得更直接:"它處理復雜、長周期編碼任務的自主性和可靠性,超過了此前的任何基準。"
但不是只有代碼。
視覺任務上,Fable 5用純截圖打通了Pokémon FireRed,沒有地圖,沒有導航,沒有隱藏游戲狀態。開發者 @chetaslua在X上放出通關延時視頻,配文就一句:"臥槽!!!Claude Fable 5僅憑視覺就通關了《寶可夢:火紅》。"此前所有Claude模型都需要額外工具加持才能勉強玩下去,Fable 5只需要看著屏幕。
![]()
長上下文任務中,研究人員讓Fable 5玩卡牌游戲Slay the Spire,給它一個文件做持久筆記。結果:Fable 5打到最終幕(Final Act)的頻次是Opus 4.8的三倍。
藥物設計上,Mythos 5把某些環節加速了大約10倍。Anthropic內部的蛋白質設計專家發現,Mythos 5在沒有人輔助的情況下,14個蛋白質靶點中9個產出了高質量候選藥物,表現持平甚至超過熟練的人類操作員。
基因組學研究中,Mythos 5在超過一周的大半自主工作中,收集了涵蓋138個動物物種、數百萬個細胞的單細胞數據,設計并訓練了一個定制機器學習模型。這個模型比一篇Science論文中的模型小100倍,性能卻反超了它。
幾乎每一塊基準測試,都是新的SOTA。
最近剛剛加入Anthropic的OpenAI聯合創始人安德烈·卡帕西(Andrej Karpathy)在社交媒體X上寫道:"這是和去年11月Claude 4.5同等級別的重大版本躍遷。"
![]()
他說這是他第一次覺得"完全不去看代碼"這個念頭不是玩笑,而是真實的誘惑。他補了一句:"解放你的心智。我對自己軟件的需求正在大幅增長。你可以要求任何東西,解釋器、可視化工具、儀表盤、定制的一次性應用、把測試套件擴大10倍、自動優化代碼、運行巨大的研究項目并用定制HTML輸出結果,任何東西。"
AI工作臺公司Hex在第三方測試中發現,Fable 5是第一個在他們核心分析基準上拿到90% 分數的模型。"在最難的問題上,它展示了很強的判斷力和對細微差別的關注。"
低代碼平臺Base44說Fable 5在"一次性生成完整應用"上明顯更強,工具調用表現出色。AI智能體平臺Genspark說Fable 5在他們評估中擊敗了所有其他模型,在UI設計和游戲編碼上尤其突出。
購物返利平臺Rakuten的評語更精煉:"它在最高努力級別上會自我反思并驗證自己的工作。對我們來說,這就是讓高度自主運營成為可能的原因,額外的思考是值得花錢的。"
二、三道鎖是怎么鎖的
Mythos級模型的網絡能力是真實的。它能發現漏洞,寫出 exploit,執行偵察和橫向移動。今年4月 Anthropic首次發布 Mythos Preview時,只開放給了一小群網絡安全合作伙伴,理由是這些能力一旦落入攻擊者手中,會造成真實傷害。
這次 Fable 5能向公眾開放,靠的是一套"安全分類器",獨立運行的 AI,實時檢測你的提問,觸線就轉給 Opus 4.8。
![]()
三道鎖,分得清清楚楚。
第一道:網絡安全。 從漏洞發現到攻擊規劃,全部攔截。Anthropic投入了一千多小時的漏洞賞金測試,沒有找到任何通用越獄。外部紅隊組織也沒找到。一位外部合作伙伴的測試結論是:Fable 5對有害網絡查詢的防護是所有測試模型中"最堅固的",零合規,不管有沒有用30種公開越獄技術中的任何一種。
第二道:生物學和化學。 這一刀最寬,也最受爭議。Anthropic的措辭是:"在大部分與生物學和化學相關的請求上,Fable 5會回退到 Opus 4.8。"
為什么要攔生物學?因為 Mythos 級模型在基因治療上的能力,反過來也意味著制造危險病毒的能力。Anthropic 測試了 Mythos 5在 AAV 病毒設計上的表現,它只靠生物學推理,就超過了專門的蛋白質語言模型。這既是巨大的正向潛力,也是實打實的雙重用途風險。
但問題是:為了安全,這一刀砍得太寬了。
第三道:蒸餾。 檢測到有人試圖用 Fable 5的輸出訓練競品模型時,直接回退到 Opus 4.8。
前兩道鎖是安全考量,防止模型能力被用于攻擊或生物武器。第三道鎖的性質不同:它更像商業防護,防止競品通過大量調用來復制 Fable 5的能力。Anthropic 把三者打包在同一套安全系統里,但動機并不完全一樣。
Anthropic 說超過95% 的對話完全不會觸發攔截。
但對那不到5% 的人來說,體驗是這樣的:你付了最強模型的錢,拿到的是上一代模型的回答。
三、連問線粒體都被拒
誤傷已經開始了。
社交媒體上的早期用戶報告:問線粒體,被攔了。問癌癥研究,被切到了 Opus 4.8。 一位用戶坦言:"如果你是科學家或醫生,這款模型并不適合你。"
![]()
知名科技媒體《連線》采訪了 Anthropic 產品管理負責人黛安·佩恩(Diane Penn)。她說:"我們正在努力以有益的方式做出改進,即使一開始沒有完美的解決方案。在所有不同方法中,這是最可行的。我們最終覺得這對用戶來說是最好的產品選擇。"
翻譯一下:我們知道會誤傷你,但沒有更好的辦法。
佩恩承認分類器目前偏向謹慎,"有些無害請求也會觸發攔截",目標是發布后逐步收緊邊界。
但尷尬是真實的。Anthropic 博客里展示 Mythos 在藥物設計、基因組學、分子生物學上的突破,每一項都是正向的、拯救生命的科學。然后他們發布給公眾的 Fable 5,把生物學這一整扇門幾乎關上了。
科學家們拿著錢在外面敲門,里面的人說:你再等等。
四、你變成了甲方,不再是巫師
比鎖更值得聊的,是用 Fable 5到底是一種什么感覺。
沃頓商學院教授伊桑·莫利克(Ethan Mollick)是首批測試者。他在體驗文章里寫了一段話,可能是目前為止對 Fable 5最精確的描述:
"去年我把與 AI 合作稱為'和一個巫師工作',你念咒語,事情就發生了。在 Fable 這里,咒語變得如此強大,以至于我不再確定自己是不是巫師了。我更像是位甲方。我描述我想要什么,我付錢,我評判結果。魔法發生在我看不到的地方,在數百個小選擇中我從來沒有投票權。工作從過程轉移到了結果。我不再掌舵。我委托。"
![]()
他給了 Fable 5一個15頁的設計文檔。模型獨自工作了九個半小時,產出了一個叫 Concord 的復雜軟件,可以校準人類和 AI 的判斷,然后做復雜數據分析。 這套工具研究人員需要多年了,但從來沒人做,因為不賺錢。現在它就在那里,可以直接用,也可以改代碼。
他還讓 Fable 5做了一個等距旅行地圖,顯示從任意城市出發、在一定時間內能到達的范圍。世界上第一張這種地圖,1881年在倫敦誕生。
Fable 5接到指令后做了什么?它啟動了多個子 AI,主要是更便宜的 Claude Sonnet,去檢索超過2200個具體航班、從法國 TGV 到日本新干線的列車時刻表、多篇學術論文中的各國道路速度數據。一邊等研究結果,一邊開始寫代碼。然后啟動更多子 AI 來驗證代碼,同時不斷給自己做筆記。
莫利克發現格陵蘭等偏遠地區的旅行時間只是估計值。他告訴 Fable 5修正。模型直接啟動了對抗性工作組,兩組子 AI 互相檢查對方的研究結果。 它最終搞清楚了船多久一趟去太平洋上的皮特凱恩島,以及怎么從渥太華到格賴斯峽灣。
"我的角色極其有限。"莫利克寫道。
卡帕西的感受指向同一個方向:"你可以給它遠比從前更具野心的任務,模型就能理解并去執行。從未有過這樣的誘惑讓你完全不去看代碼。"
資深工程師鮑里斯·切爾尼(Boris Cherny)說:"Fable 有判斷力、品位和維度。它調試時做測量、加日志、驗證真的修好了再宣布勝利,沒有任何提示詞告訴它這樣做,這就是它個性的一部分。它有一種'大模型的味道'。"
![]()
一句話總結這批人的共識:Fable 5不是讓你工作得更快。它改變了你和工作之間的關系。
五、IPO 前夜秀肌肉
Fable 5發布的時機不是中性的。
Anthropic 和 OpenAI 都已經秘密提交了 IPO 申請。今年4月,OpenAI 私下發布了一個據稱具有先進網絡安全能力的模型,組建了類似 Project Glasswing 的工作組。兩家公司都在搶同一個窗口,最好今年上市。Fable 5是 Anthropic 交出的最新答卷。
但這張答卷上寫滿了自相矛盾。
![]()
價格翻倍。 每百萬輸入 token 收10美元,每百萬輸出 token 收50美元,是 Opus 4.8的兩倍,但不到 Claude Mythos Preview 價格的一半。而且 Fable 5出手更闊綽,莫利克的地圖項目在短時間內燒掉了"驚人的 token 數量"。好在它會把部分任務委派給更便宜的 Sonnet,實際成本可能比想象的低。但大企業已經開始皺眉,很多公司今年已經用完了全年 AI 預算,高級模型的推理能力會把一個簡單請求拆成多個任務,賬單來得比預期快得多。
數據留存出現微妙變化。 Anthropic 宣布對 Mythos 級模型實施30天數據強制留存,即使是之前簽了零留存協議的企業客戶也不例外。公司承諾不用這些數據訓練模型,只用于"防御復雜和新穎的攻擊"和"識別和減少誤報"。
這個政策的潛臺詞是:模型越強,你的隱私就越不能是絕對的。
免費策略上也露出猶豫。 6月22日之前,Fable 5包含在 Pro、Max、Team 和 Enterprise 訂閱中,不加價。6月23日起移除,使用需要額外買額度。官方說法是"如果容量允許,免費窗口可能延長";再之后"如果能做到,盡快恢復為標準訂閱功能"。
說人話就是:我們不確定能不能撐住需求。先用免費把人拉進來再說。
更深的矛盾藏在安全敘事里。上周,Anthropic 剛發了一封公開信,呼吁全球主要 AI 實驗室建立"協調的剎車踏板",警告系統正在飛速逼近"遞歸自我改進",AI 自己改進自己,不需要人類參與。
然后這周,他們發布了自己做過的最強 AI 模型。
一邊拉剎車,一邊踩油門。
對于一個把"安全"刻在品牌基因里的公司來說,這種張力藏在 Fable 5的每一行代碼里。
莫利克點出了問題的本質:"甲方委托的是一個藝術家。Fable 更像是一整個工作室,我是那個在最終作品上簽字、但從未踏進工作室的客戶。"
當 AI 不再需要你"使用",只需要你"委托"的時候,
安全的問題,就不再只是"這個模型會不會被壞人利用"了。
它還關乎一個更大的問題:當你不被信任使用完整版 AI 的時候,你和 AI 之間那根正在變細的線,什么時候會徹底斷開?
六、總結:雖然不是完整版
但 Fable 5是你現在能拿到的最強 AI,至少在 Anthropic 劃定的邊界以內。
它的代碼能力讓 Stripe 把兩個月壓到一天。它的視覺讓它純看屏幕就能通關游戲。它的自主性讓一個沃頓教授覺得自己從巫師淪為了甲方。
它開始擁有一種可以被描述為"判斷力"的東西。
但你需要接受一個前提:你的每一個問題都在被實時審查。問網絡安全,不答。問生物化學,大概率不答。想蒸餾它,直接被切走。
Anthropic 說這是暫時的。分類器會變精準,合作伙伴會擴容,生物學家會更快用上完整版。
但 Fable 5已經在這里了,一個被鎖住手腳、卻仍然碾壓一切的模型。
如果你現在是 Pro 或 Max 訂閱者:6月22日之前,抓緊去試。
編碼、長文寫作、復雜分析,在這些場景下,Fable 5的提升是真實的。
但如果你的工作涉及生物、化學或安全研究,你會撞墻。
Anthropic 說超過95% 的對話不會觸發攔截。但如果你屬于那不到5%,你付的是 Fable 5的錢,拿到的是 Opus 4.8的回答。
這是 Anthropic 對世界說的一句自相矛盾的話:
這是我們做過的最強 AI。
但我們不敢讓你用完整版。
