網(wǎng)易首頁 > 網(wǎng)易科技 > 網(wǎng)易科技 > 正文

凌晨突發(fā)！Anthropic神級模型向你開放，但不是完整版

2026-06-10 08:24:27　來源: 網(wǎng)易智能

北京舉報

分享至

出品 | 網(wǎng)易智能

作者 | 辰辰

編輯 | 王鳳枝

神秘的Mythos級模型，終于向普通用戶開放了。

但不是完整版。

北京時間6月10日凌晨，Anthropic發(fā)布Claude Fable 5。這是它第一次把Mythos級能力推向公眾。與此同時，真正限制更少的Claude Mythos 5，只發(fā)給了一小撮網(wǎng)絡(luò)安全合作伙伴，以及少數(shù)生物醫(yī)學(xué)研究者。

普通用戶拿到的，是一個被嚴(yán)格劃定了使用邊界的版本。

觸線之后，F(xiàn)able 5會沉默，然后把問題交給上一代模型Claude Opus 4.8。

也就是說，在某些場景里，你以為自己正在使用Anthropic最強模型，拿到的卻可能是上一代模型的回答。

Anthropic說，超過95%的對話不會觸發(fā)攔截。但對剩下那不到5%的人來說，他們付的是最強模型的錢，拿到的是上一代的服務(wù)。

它可能是你現(xiàn)在能公開用到的最強AI。

但Anthropic不敢把完整的它交到你手里。

一、有多強

先看數(shù)字和用戶評價。

Anthropic宣稱Fable 5在各項基準(zhǔn)測試中遠超競品：SWE-bench Pro（軟件工程基準(zhǔn)測試）80%，Terminal-Bench（終端基準(zhǔn)測試）88%……

Stripe在內(nèi)部測試中發(fā)現(xiàn)，F(xiàn)able 5把一次5000萬行Ruby代碼庫的遷移工作，從"一個團隊干兩個月"壓縮到了一天。

Cursor CEO邁克爾·特魯爾（Michael Truell）說，F(xiàn)able 5在他們的基準(zhǔn)測試上是"最先進模型"，"打開了一類此前的模型完全夠不到的長周期問題。"

GitHub首席產(chǎn)品官馬里奧·羅德里格斯（Mario Rodriguez）說得更直接："它處理復(fù)雜、長周期編碼任務(wù)的自主性和可靠性，超過了此前的任何基準(zhǔn)。"

但不是只有代碼。

視覺任務(wù)上，F(xiàn)able 5用純截圖打通了Pokémon FireRed，沒有地圖，沒有導(dǎo)航，沒有隱藏游戲狀態(tài)。開發(fā)者 @chetaslua在X上放出通關(guān)延時視頻，配文就一句："臥槽！！！Claude Fable 5僅憑視覺就通關(guān)了《寶可夢：火紅》。"此前所有Claude模型都需要額外工具加持才能勉強玩下去，F(xiàn)able 5只需要看著屏幕。

長上下文任務(wù)中，研究人員讓Fable 5玩卡牌游戲Slay the Spire，給它一個文件做持久筆記。結(jié)果：Fable 5打到最終幕（Final Act）的頻次是Opus 4.8的三倍。

藥物設(shè)計上，Mythos 5把某些環(huán)節(jié)加速了大約10倍。Anthropic內(nèi)部的蛋白質(zhì)設(shè)計專家發(fā)現(xiàn)，Mythos 5在沒有人輔助的情況下，14個蛋白質(zhì)靶點中9個產(chǎn)出了高質(zhì)量候選藥物，表現(xiàn)持平甚至超過熟練的人類操作員。

基因組學(xué)研究中，Mythos 5在超過一周的大半自主工作中，收集了涵蓋138個動物物種、數(shù)百萬個細胞的單細胞數(shù)據(jù)，設(shè)計并訓(xùn)練了一個定制機器學(xué)習(xí)模型。這個模型比一篇Science論文中的模型小100倍，性能卻反超了它。

幾乎每一塊基準(zhǔn)測試，都是新的SOTA。

最近剛剛加入Anthropic的OpenAI聯(lián)合創(chuàng)始人安德烈·卡帕西（Andrej Karpathy）在社交媒體X上寫道："這是和去年11月Claude 4.5同等級別的重大版本躍遷。"

他說這是他第一次覺得"完全不去看代碼"這個念頭不是玩笑，而是真實的誘惑。他補了一句："解放你的心智。我對自己軟件的需求正在大幅增長。你可以要求任何東西，解釋器、可視化工具、儀表盤、定制的一次性應(yīng)用、把測試套件擴大10倍、自動優(yōu)化代碼、運行巨大的研究項目并用定制HTML輸出結(jié)果，任何東西。"

AI工作臺公司Hex在第三方測試中發(fā)現(xiàn)，Fable 5是第一個在他們核心分析基準(zhǔn)上拿到90% 分數(shù)的模型。"在最難的問題上，它展示了很強的判斷力和對細微差別的關(guān)注。"

低代碼平臺Base44說Fable 5在"一次性生成完整應(yīng)用"上明顯更強，工具調(diào)用表現(xiàn)出色。AI智能體平臺Genspark說Fable 5在他們評估中擊敗了所有其他模型，在UI設(shè)計和游戲編碼上尤其突出。

購物返利平臺Rakuten的評語更精煉："它在最高努力級別上會自我反思并驗證自己的工作。對我們來說，這就是讓高度自主運營成為可能的原因，額外的思考是值得花錢的。"

二、三道鎖是怎么鎖的

Mythos級模型的網(wǎng)絡(luò)能力是真實的。它能發(fā)現(xiàn)漏洞，寫出 exploit，執(zhí)行偵察和橫向移動。今年4月 Anthropic首次發(fā)布 Mythos Preview時，只開放給了一小群網(wǎng)絡(luò)安全合作伙伴，理由是這些能力一旦落入攻擊者手中，會造成真實傷害。

這次 Fable 5能向公眾開放，靠的是一套"安全分類器"，獨立運行的 AI，實時檢測你的提問，觸線就轉(zhuǎn)給 Opus 4.8。

三道鎖，分得清清楚楚。

第一道：網(wǎng)絡(luò)安全。 從漏洞發(fā)現(xiàn)到攻擊規(guī)劃，全部攔截。Anthropic投入了一千多小時的漏洞賞金測試，沒有找到任何通用越獄。外部紅隊組織也沒找到。一位外部合作伙伴的測試結(jié)論是：Fable 5對有害網(wǎng)絡(luò)查詢的防護是所有測試模型中"最堅固的"，零合規(guī)，不管有沒有用30種公開越獄技術(shù)中的任何一種。

第二道：生物學(xué)和化學(xué)。 這一刀最寬，也最受爭議。Anthropic的措辭是："在大部分與生物學(xué)和化學(xué)相關(guān)的請求上，F(xiàn)able 5會回退到 Opus 4.8。"

為什么要攔生物學(xué)？因為 Mythos 級模型在基因治療上的能力，反過來也意味著制造危險病毒的能力。Anthropic 測試了 Mythos 5在 AAV 病毒設(shè)計上的表現(xiàn)，它只靠生物學(xué)推理，就超過了專門的蛋白質(zhì)語言模型。這既是巨大的正向潛力，也是實打?qū)嵉碾p重用途風(fēng)險。

但問題是：為了安全，這一刀砍得太寬了。

第三道：蒸餾。 檢測到有人試圖用 Fable 5的輸出訓(xùn)練競品模型時，直接回退到 Opus 4.8。

前兩道鎖是安全考量，防止模型能力被用于攻擊或生物武器。第三道鎖的性質(zhì)不同：它更像商業(yè)防護，防止競品通過大量調(diào)用來復(fù)制 Fable 5的能力。Anthropic 把三者打包在同一套安全系統(tǒng)里，但動機并不完全一樣。

Anthropic 說超過95% 的對話完全不會觸發(fā)攔截。

但對那不到5% 的人來說，體驗是這樣的：你付了最強模型的錢，拿到的是上一代模型的回答。

三、連問線粒體都被拒

誤傷已經(jīng)開始了。

社交媒體上的早期用戶報告：問線粒體，被攔了。問癌癥研究，被切到了 Opus 4.8。 一位用戶坦言："如果你是科學(xué)家或醫(yī)生，這款模型并不適合你。"

知名科技媒體《連線》采訪了 Anthropic 產(chǎn)品管理負責(zé)人黛安·佩恩（Diane Penn）。她說："我們正在努力以有益的方式做出改進，即使一開始沒有完美的解決方案。在所有不同方法中，這是最可行的。我們最終覺得這對用戶來說是最好的產(chǎn)品選擇。"

翻譯一下：我們知道會誤傷你，但沒有更好的辦法。

佩恩承認分類器目前偏向謹慎，"有些無害請求也會觸發(fā)攔截"，目標(biāo)是發(fā)布后逐步收緊邊界。

但尷尬是真實的。Anthropic 博客里展示 Mythos 在藥物設(shè)計、基因組學(xué)、分子生物學(xué)上的突破，每一項都是正向的、拯救生命的科學(xué)。然后他們發(fā)布給公眾的 Fable 5，把生物學(xué)這一整扇門幾乎關(guān)上了。

科學(xué)家們拿著錢在外面敲門，里面的人說：你再等等。

四、你變成了甲方，不再是巫師

比鎖更值得聊的，是用 Fable 5到底是一種什么感覺。

沃頓商學(xué)院教授伊桑·莫利克（Ethan Mollick）是首批測試者。他在體驗文章里寫了一段話，可能是目前為止對 Fable 5最精確的描述：

"去年我把與 AI 合作稱為'和一個巫師工作'，你念咒語，事情就發(fā)生了。在 Fable 這里，咒語變得如此強大，以至于我不再確定自己是不是巫師了。我更像是位甲方。我描述我想要什么，我付錢，我評判結(jié)果。魔法發(fā)生在我看不到的地方，在數(shù)百個小選擇中我從來沒有投票權(quán)。工作從過程轉(zhuǎn)移到了結(jié)果。我不再掌舵。我委托。"

他給了 Fable 5一個15頁的設(shè)計文檔。模型獨自工作了九個半小時，產(chǎn)出了一個叫 Concord 的復(fù)雜軟件，可以校準(zhǔn)人類和 AI 的判斷，然后做復(fù)雜數(shù)據(jù)分析。 這套工具研究人員需要多年了，但從來沒人做，因為不賺錢。現(xiàn)在它就在那里，可以直接用，也可以改代碼。

他還讓 Fable 5做了一個等距旅行地圖，顯示從任意城市出發(fā)、在一定時間內(nèi)能到達的范圍。世界上第一張這種地圖，1881年在倫敦誕生。

Fable 5接到指令后做了什么？它啟動了多個子 AI，主要是更便宜的 Claude Sonnet，去檢索超過2200個具體航班、從法國 TGV 到日本新干線的列車時刻表、多篇學(xué)術(shù)論文中的各國道路速度數(shù)據(jù)。一邊等研究結(jié)果，一邊開始寫代碼。然后啟動更多子 AI 來驗證代碼，同時不斷給自己做筆記。

莫利克發(fā)現(xiàn)格陵蘭等偏遠地區(qū)的旅行時間只是估計值。他告訴 Fable 5修正。模型直接啟動了對抗性工作組，兩組子 AI 互相檢查對方的研究結(jié)果。 它最終搞清楚了船多久一趟去太平洋上的皮特凱恩島，以及怎么從渥太華到格賴斯峽灣。

"我的角色極其有限。"莫利克寫道。

卡帕西的感受指向同一個方向："你可以給它遠比從前更具野心的任務(wù)，模型就能理解并去執(zhí)行。從未有過這樣的誘惑讓你完全不去看代碼。"

資深工程師鮑里斯·切爾尼（Boris Cherny）說："Fable 有判斷力、品位和維度。它調(diào)試時做測量、加日志、驗證真的修好了再宣布勝利，沒有任何提示詞告訴它這樣做，這就是它個性的一部分。它有一種'大模型的味道'。"

一句話總結(jié)這批人的共識：Fable 5不是讓你工作得更快。它改變了你和工作之間的關(guān)系。

五、IPO 前夜秀肌肉

Fable 5發(fā)布的時機不是中性的。

Anthropic 和 OpenAI 都已經(jīng)秘密提交了 IPO 申請。今年4月，OpenAI 私下發(fā)布了一個據(jù)稱具有先進網(wǎng)絡(luò)安全能力的模型，組建了類似 Project Glasswing 的工作組。兩家公司都在搶同一個窗口，最好今年上市。Fable 5是 Anthropic 交出的最新答卷。

但這張答卷上寫滿了自相矛盾。

價格翻倍。 每百萬輸入 token 收10美元，每百萬輸出 token 收50美元，是 Opus 4.8的兩倍，但不到 Claude Mythos Preview 價格的一半。而且 Fable 5出手更闊綽，莫利克的地圖項目在短時間內(nèi)燒掉了"驚人的 token 數(shù)量"。好在它會把部分任務(wù)委派給更便宜的 Sonnet，實際成本可能比想象的低。但大企業(yè)已經(jīng)開始皺眉，很多公司今年已經(jīng)用完了全年 AI 預(yù)算，高級模型的推理能力會把一個簡單請求拆成多個任務(wù)，賬單來得比預(yù)期快得多。

數(shù)據(jù)留存出現(xiàn)微妙變化。 Anthropic 宣布對 Mythos 級模型實施30天數(shù)據(jù)強制留存，即使是之前簽了零留存協(xié)議的企業(yè)客戶也不例外。公司承諾不用這些數(shù)據(jù)訓(xùn)練模型，只用于"防御復(fù)雜和新穎的攻擊"和"識別和減少誤報"。

這個政策的潛臺詞是：模型越強，你的隱私就越不能是絕對的。

免費策略上也露出猶豫。 6月22日之前，F(xiàn)able 5包含在 Pro、Max、Team 和 Enterprise 訂閱中，不加價。6月23日起移除，使用需要額外買額度。官方說法是"如果容量允許，免費窗口可能延長"；再之后"如果能做到，盡快恢復(fù)為標(biāo)準(zhǔn)訂閱功能"。

說人話就是：我們不確定能不能撐住需求。先用免費把人拉進來再說。

更深的矛盾藏在安全敘事里。上周，Anthropic 剛發(fā)了一封公開信，呼吁全球主要 AI 實驗室建立"協(xié)調(diào)的剎車踏板"，警告系統(tǒng)正在飛速逼近"遞歸自我改進"，AI 自己改進自己，不需要人類參與。

然后這周，他們發(fā)布了自己做過的最強 AI 模型。

一邊拉剎車，一邊踩油門。

對于一個把"安全"刻在品牌基因里的公司來說，這種張力藏在 Fable 5的每一行代碼里。

莫利克點出了問題的本質(zhì)："甲方委托的是一個藝術(shù)家。Fable 更像是一整個工作室，我是那個在最終作品上簽字、但從未踏進工作室的客戶。"

當(dāng) AI 不再需要你"使用"，只需要你"委托"的時候，

安全的問題，就不再只是"這個模型會不會被壞人利用"了。

它還關(guān)乎一個更大的問題：當(dāng)你不被信任使用完整版 AI 的時候，你和 AI 之間那根正在變細的線，什么時候會徹底斷開？

六、總結(jié)：雖然不是完整版

但 Fable 5是你現(xiàn)在能拿到的最強 AI，至少在 Anthropic 劃定的邊界以內(nèi)。

它的代碼能力讓 Stripe 把兩個月壓到一天。它的視覺讓它純看屏幕就能通關(guān)游戲。它的自主性讓一個沃頓教授覺得自己從巫師淪為了甲方。