出品 | 網(wǎng)易智能
作者 | 辰辰
編輯 | 王鳳枝
神秘的Mythos級模型,終于向普通用戶開放了。
但不是完整版。
北京時間6月10日凌晨,Anthropic發(fā)布Claude Fable 5。這是它第一次把Mythos級能力推向公眾。與此同時,真正限制更少的Claude Mythos 5,只發(fā)給了一小撮網(wǎng)絡(luò)安全合作伙伴,以及少數(shù)生物醫(yī)學(xué)研究者。
![]()
普通用戶拿到的,是一個被嚴(yán)格劃定了使用邊界的版本。
觸線之后,F(xiàn)able 5會沉默,然后把問題交給上一代模型Claude Opus 4.8。
也就是說,在某些場景里,你以為自己正在使用Anthropic最強模型,拿到的卻可能是上一代模型的回答。
Anthropic說,超過95%的對話不會觸發(fā)攔截。但對剩下那不到5%的人來說,他們付的是最強模型的錢,拿到的是上一代的服務(wù)。
它可能是你現(xiàn)在能公開用到的最強AI。
但Anthropic不敢把完整的它交到你手里。
一、有多強
先看數(shù)字和用戶評價。
Anthropic宣稱Fable 5在各項基準(zhǔn)測試中遠超競品:SWE-bench Pro(軟件工程基準(zhǔn)測試)80%,Terminal-Bench(終端基準(zhǔn)測試)88%……
![]()
Stripe在內(nèi)部測試中發(fā)現(xiàn),F(xiàn)able 5把一次5000萬行Ruby代碼庫的遷移工作,從"一個團隊干兩個月"壓縮到了一天。
Cursor CEO邁克爾·特魯爾(Michael Truell)說,F(xiàn)able 5在他們的基準(zhǔn)測試上是"最先進模型","打開了一類此前的模型完全夠不到的長周期問題。"
GitHub首席產(chǎn)品官馬里奧·羅德里格斯(Mario Rodriguez)說得更直接:"它處理復(fù)雜、長周期編碼任務(wù)的自主性和可靠性,超過了此前的任何基準(zhǔn)。"
但不是只有代碼。
視覺任務(wù)上,F(xiàn)able 5用純截圖打通了Pokémon FireRed,沒有地圖,沒有導(dǎo)航,沒有隱藏游戲狀態(tài)。開發(fā)者 @chetaslua在X上放出通關(guān)延時視頻,配文就一句:"臥槽!!!Claude Fable 5僅憑視覺就通關(guān)了《寶可夢:火紅》。"此前所有Claude模型都需要額外工具加持才能勉強玩下去,F(xiàn)able 5只需要看著屏幕。
![]()
長上下文任務(wù)中,研究人員讓Fable 5玩卡牌游戲Slay the Spire,給它一個文件做持久筆記。結(jié)果:Fable 5打到最終幕(Final Act)的頻次是Opus 4.8的三倍。
藥物設(shè)計上,Mythos 5把某些環(huán)節(jié)加速了大約10倍。Anthropic內(nèi)部的蛋白質(zhì)設(shè)計專家發(fā)現(xiàn),Mythos 5在沒有人輔助的情況下,14個蛋白質(zhì)靶點中9個產(chǎn)出了高質(zhì)量候選藥物,表現(xiàn)持平甚至超過熟練的人類操作員。
基因組學(xué)研究中,Mythos 5在超過一周的大半自主工作中,收集了涵蓋138個動物物種、數(shù)百萬個細胞的單細胞數(shù)據(jù),設(shè)計并訓(xùn)練了一個定制機器學(xué)習(xí)模型。這個模型比一篇Science論文中的模型小100倍,性能卻反超了它。
幾乎每一塊基準(zhǔn)測試,都是新的SOTA。
最近剛剛加入Anthropic的OpenAI聯(lián)合創(chuàng)始人安德烈·卡帕西(Andrej Karpathy)在社交媒體X上寫道:"這是和去年11月Claude 4.5同等級別的重大版本躍遷。"
![]()
他說這是他第一次覺得"完全不去看代碼"這個念頭不是玩笑,而是真實的誘惑。他補了一句:"解放你的心智。我對自己軟件的需求正在大幅增長。你可以要求任何東西,解釋器、可視化工具、儀表盤、定制的一次性應(yīng)用、把測試套件擴大10倍、自動優(yōu)化代碼、運行巨大的研究項目并用定制HTML輸出結(jié)果,任何東西。"
AI工作臺公司Hex在第三方測試中發(fā)現(xiàn),Fable 5是第一個在他們核心分析基準(zhǔn)上拿到90% 分數(shù)的模型。"在最難的問題上,它展示了很強的判斷力和對細微差別的關(guān)注。"
低代碼平臺Base44說Fable 5在"一次性生成完整應(yīng)用"上明顯更強,工具調(diào)用表現(xiàn)出色。AI智能體平臺Genspark說Fable 5在他們評估中擊敗了所有其他模型,在UI設(shè)計和游戲編碼上尤其突出。
購物返利平臺Rakuten的評語更精煉:"它在最高努力級別上會自我反思并驗證自己的工作。對我們來說,這就是讓高度自主運營成為可能的原因,額外的思考是值得花錢的。"
二、三道鎖是怎么鎖的
Mythos級模型的網(wǎng)絡(luò)能力是真實的。它能發(fā)現(xiàn)漏洞,寫出 exploit,執(zhí)行偵察和橫向移動。今年4月 Anthropic首次發(fā)布 Mythos Preview時,只開放給了一小群網(wǎng)絡(luò)安全合作伙伴,理由是這些能力一旦落入攻擊者手中,會造成真實傷害。
這次 Fable 5能向公眾開放,靠的是一套"安全分類器",獨立運行的 AI,實時檢測你的提問,觸線就轉(zhuǎn)給 Opus 4.8。
![]()
三道鎖,分得清清楚楚。
第一道:網(wǎng)絡(luò)安全。 從漏洞發(fā)現(xiàn)到攻擊規(guī)劃,全部攔截。Anthropic投入了一千多小時的漏洞賞金測試,沒有找到任何通用越獄。外部紅隊組織也沒找到。一位外部合作伙伴的測試結(jié)論是:Fable 5對有害網(wǎng)絡(luò)查詢的防護是所有測試模型中"最堅固的",零合規(guī),不管有沒有用30種公開越獄技術(shù)中的任何一種。
第二道:生物學(xué)和化學(xué)。 這一刀最寬,也最受爭議。Anthropic的措辭是:"在大部分與生物學(xué)和化學(xué)相關(guān)的請求上,F(xiàn)able 5會回退到 Opus 4.8。"
為什么要攔生物學(xué)?因為 Mythos 級模型在基因治療上的能力,反過來也意味著制造危險病毒的能力。Anthropic 測試了 Mythos 5在 AAV 病毒設(shè)計上的表現(xiàn),它只靠生物學(xué)推理,就超過了專門的蛋白質(zhì)語言模型。這既是巨大的正向潛力,也是實打?qū)嵉碾p重用途風(fēng)險。
但問題是:為了安全,這一刀砍得太寬了。
第三道:蒸餾。 檢測到有人試圖用 Fable 5的輸出訓(xùn)練競品模型時,直接回退到 Opus 4.8。
前兩道鎖是安全考量,防止模型能力被用于攻擊或生物武器。第三道鎖的性質(zhì)不同:它更像商業(yè)防護,防止競品通過大量調(diào)用來復(fù)制 Fable 5的能力。Anthropic 把三者打包在同一套安全系統(tǒng)里,但動機并不完全一樣。
Anthropic 說超過95% 的對話完全不會觸發(fā)攔截。
但對那不到5% 的人來說,體驗是這樣的:你付了最強模型的錢,拿到的是上一代模型的回答。
三、連問線粒體都被拒
誤傷已經(jīng)開始了。
社交媒體上的早期用戶報告:問線粒體,被攔了。問癌癥研究,被切到了 Opus 4.8。 一位用戶坦言:"如果你是科學(xué)家或醫(yī)生,這款模型并不適合你。"
![]()
知名科技媒體《連線》采訪了 Anthropic 產(chǎn)品管理負責(zé)人黛安·佩恩(Diane Penn)。她說:"我們正在努力以有益的方式做出改進,即使一開始沒有完美的解決方案。在所有不同方法中,這是最可行的。我們最終覺得這對用戶來說是最好的產(chǎn)品選擇。"
翻譯一下:我們知道會誤傷你,但沒有更好的辦法。
佩恩承認分類器目前偏向謹慎,"有些無害請求也會觸發(fā)攔截",目標(biāo)是發(fā)布后逐步收緊邊界。
但尷尬是真實的。Anthropic 博客里展示 Mythos 在藥物設(shè)計、基因組學(xué)、分子生物學(xué)上的突破,每一項都是正向的、拯救生命的科學(xué)。然后他們發(fā)布給公眾的 Fable 5,把生物學(xué)這一整扇門幾乎關(guān)上了。
科學(xué)家們拿著錢在外面敲門,里面的人說:你再等等。
四、你變成了甲方,不再是巫師
比鎖更值得聊的,是用 Fable 5到底是一種什么感覺。
沃頓商學(xué)院教授伊桑·莫利克(Ethan Mollick)是首批測試者。他在體驗文章里寫了一段話,可能是目前為止對 Fable 5最精確的描述:
"去年我把與 AI 合作稱為'和一個巫師工作',你念咒語,事情就發(fā)生了。在 Fable 這里,咒語變得如此強大,以至于我不再確定自己是不是巫師了。我更像是位甲方。我描述我想要什么,我付錢,我評判結(jié)果。魔法發(fā)生在我看不到的地方,在數(shù)百個小選擇中我從來沒有投票權(quán)。工作從過程轉(zhuǎn)移到了結(jié)果。我不再掌舵。我委托。"
![]()
他給了 Fable 5一個15頁的設(shè)計文檔。模型獨自工作了九個半小時,產(chǎn)出了一個叫 Concord 的復(fù)雜軟件,可以校準(zhǔn)人類和 AI 的判斷,然后做復(fù)雜數(shù)據(jù)分析。 這套工具研究人員需要多年了,但從來沒人做,因為不賺錢。現(xiàn)在它就在那里,可以直接用,也可以改代碼。
他還讓 Fable 5做了一個等距旅行地圖,顯示從任意城市出發(fā)、在一定時間內(nèi)能到達的范圍。世界上第一張這種地圖,1881年在倫敦誕生。
Fable 5接到指令后做了什么?它啟動了多個子 AI,主要是更便宜的 Claude Sonnet,去檢索超過2200個具體航班、從法國 TGV 到日本新干線的列車時刻表、多篇學(xué)術(shù)論文中的各國道路速度數(shù)據(jù)。一邊等研究結(jié)果,一邊開始寫代碼。然后啟動更多子 AI 來驗證代碼,同時不斷給自己做筆記。
莫利克發(fā)現(xiàn)格陵蘭等偏遠地區(qū)的旅行時間只是估計值。他告訴 Fable 5修正。模型直接啟動了對抗性工作組,兩組子 AI 互相檢查對方的研究結(jié)果。 它最終搞清楚了船多久一趟去太平洋上的皮特凱恩島,以及怎么從渥太華到格賴斯峽灣。
"我的角色極其有限。"莫利克寫道。
卡帕西的感受指向同一個方向:"你可以給它遠比從前更具野心的任務(wù),模型就能理解并去執(zhí)行。從未有過這樣的誘惑讓你完全不去看代碼。"
資深工程師鮑里斯·切爾尼(Boris Cherny)說:"Fable 有判斷力、品位和維度。它調(diào)試時做測量、加日志、驗證真的修好了再宣布勝利,沒有任何提示詞告訴它這樣做,這就是它個性的一部分。它有一種'大模型的味道'。"
![]()
一句話總結(jié)這批人的共識:Fable 5不是讓你工作得更快。它改變了你和工作之間的關(guān)系。
五、IPO 前夜秀肌肉
Fable 5發(fā)布的時機不是中性的。
Anthropic 和 OpenAI 都已經(jīng)秘密提交了 IPO 申請。今年4月,OpenAI 私下發(fā)布了一個據(jù)稱具有先進網(wǎng)絡(luò)安全能力的模型,組建了類似 Project Glasswing 的工作組。兩家公司都在搶同一個窗口,最好今年上市。Fable 5是 Anthropic 交出的最新答卷。
但這張答卷上寫滿了自相矛盾。
![]()
價格翻倍。 每百萬輸入 token 收10美元,每百萬輸出 token 收50美元,是 Opus 4.8的兩倍,但不到 Claude Mythos Preview 價格的一半。而且 Fable 5出手更闊綽,莫利克的地圖項目在短時間內(nèi)燒掉了"驚人的 token 數(shù)量"。好在它會把部分任務(wù)委派給更便宜的 Sonnet,實際成本可能比想象的低。但大企業(yè)已經(jīng)開始皺眉,很多公司今年已經(jīng)用完了全年 AI 預(yù)算,高級模型的推理能力會把一個簡單請求拆成多個任務(wù),賬單來得比預(yù)期快得多。
數(shù)據(jù)留存出現(xiàn)微妙變化。 Anthropic 宣布對 Mythos 級模型實施30天數(shù)據(jù)強制留存,即使是之前簽了零留存協(xié)議的企業(yè)客戶也不例外。公司承諾不用這些數(shù)據(jù)訓(xùn)練模型,只用于"防御復(fù)雜和新穎的攻擊"和"識別和減少誤報"。
這個政策的潛臺詞是:模型越強,你的隱私就越不能是絕對的。
免費策略上也露出猶豫。 6月22日之前,F(xiàn)able 5包含在 Pro、Max、Team 和 Enterprise 訂閱中,不加價。6月23日起移除,使用需要額外買額度。官方說法是"如果容量允許,免費窗口可能延長";再之后"如果能做到,盡快恢復(fù)為標(biāo)準(zhǔn)訂閱功能"。
說人話就是:我們不確定能不能撐住需求。先用免費把人拉進來再說。
更深的矛盾藏在安全敘事里。上周,Anthropic 剛發(fā)了一封公開信,呼吁全球主要 AI 實驗室建立"協(xié)調(diào)的剎車踏板",警告系統(tǒng)正在飛速逼近"遞歸自我改進",AI 自己改進自己,不需要人類參與。
然后這周,他們發(fā)布了自己做過的最強 AI 模型。
一邊拉剎車,一邊踩油門。
對于一個把"安全"刻在品牌基因里的公司來說,這種張力藏在 Fable 5的每一行代碼里。
莫利克點出了問題的本質(zhì):"甲方委托的是一個藝術(shù)家。Fable 更像是一整個工作室,我是那個在最終作品上簽字、但從未踏進工作室的客戶。"
當(dāng) AI 不再需要你"使用",只需要你"委托"的時候,
安全的問題,就不再只是"這個模型會不會被壞人利用"了。
它還關(guān)乎一個更大的問題:當(dāng)你不被信任使用完整版 AI 的時候,你和 AI 之間那根正在變細的線,什么時候會徹底斷開?
六、總結(jié):雖然不是完整版
但 Fable 5是你現(xiàn)在能拿到的最強 AI,至少在 Anthropic 劃定的邊界以內(nèi)。
它的代碼能力讓 Stripe 把兩個月壓到一天。它的視覺讓它純看屏幕就能通關(guān)游戲。它的自主性讓一個沃頓教授覺得自己從巫師淪為了甲方。
它開始擁有一種可以被描述為"判斷力"的東西。
但你需要接受一個前提:你的每一個問題都在被實時審查。問網(wǎng)絡(luò)安全,不答。問生物化學(xué),大概率不答。想蒸餾它,直接被切走。
Anthropic 說這是暫時的。分類器會變精準(zhǔn),合作伙伴會擴容,生物學(xué)家會更快用上完整版。
但 Fable 5已經(jīng)在這里了,一個被鎖住手腳、卻仍然碾壓一切的模型。
如果你現(xiàn)在是 Pro 或 Max 訂閱者:6月22日之前,抓緊去試。
編碼、長文寫作、復(fù)雜分析,在這些場景下,F(xiàn)able 5的提升是真實的。
但如果你的工作涉及生物、化學(xué)或安全研究,你會撞墻。
Anthropic 說超過95% 的對話不會觸發(fā)攔截。但如果你屬于那不到5%,你付的是 Fable 5的錢,拿到的是 Opus 4.8的回答。
這是 Anthropic 對世界說的一句自相矛盾的話:
這是我們做過的最強 AI。
但我們不敢讓你用完整版。
