網易首頁 > 網易號 > 正文申請入駐

剛剛，Claude Mythos 5發布！5000萬行代碼1天搞定

2026-06-10 06:50:06　來源: 量子位

北京舉報

分享至

衡宇 Jay 發自凹非寺
量子位 | 公眾號 QbitAI

Anthropic遮遮掩掩兩個月的“神話”Mythos，終于降臨了——

自家有史以來最強悍的大模型旗艦，分兩個版本端上桌：Claude Fable 5與 Claude Mythos 5。

Fable 5是加了防護網版本的Mythos**，面向所有用戶開放。

一旦用戶提問觸發風險分類器（比如試圖讓它寫惡意軟件），系統就會自動降級調用上一代Claude Opus 4.8來回答。

Mythos 5是原汁原味的滿血版“Mythos”，但只給少數受信任用戶使用。

它在網絡安全等領域解除了安全限制，官網稱其“擁有全球最頂尖的網安攻防與生物科研純血能力”。

官方表示，Fable 5和Mythos 5的自主運行時間比以往任何Claude模型都長。

小小嘆個氣？前沿AI，開始進入權限時代了。

而且就在Anthropic鄭重其事地呼吁全部AI研究立刻停止后沒兩天……

不懂Dario怎么也開始走上奧特曼每次為自家新模型、新產品提前營銷造勢的老路，還是陣仗極大的那種。

（我知道A社有自己的道理，但我還是報以一個微笑）。

不過還是有非技術層面讓開發者比較欣慰的消息，這兩款新旗艦的API定價直接把之前的預覽版砍掉了一半以上：

每百萬輸入Token僅需10美元，每百萬輸出Token為50美元。

好了，咱們迅速進入技術相關環節，沖——

雙版本Mythos來了！官方給“Token效率”畫了重點

先說個情況。

官方的發布日志和業內評測中沒有像介紹Fable 5那樣，為Mythos 5開列一長串標準的、公開的 Benchmark跑分榜單（比如 MMLU、GSM8K、SWE-bench 等）。

不過鑒于二者是同一底層模型，兩者其實可以看成同一內核的“鏡像分身”，基礎技術指標完全一致。

所以我們只能先看看目前官方渠道主要公開的Fable 5的表現。

按照Anthropic自己的說法，Claude Fable 5是目前最強的公開Claude，也是Fable系列第一次進入Mythos級能力。

它的優勢主要集中在幾個方向：軟件工程、復雜知識工作、視覺、長上下文、記憶能力，以及生命科學研究。

更關鍵的是，任務越長、越復雜，Fable5相比過去Claude的優勢越明顯——說明Fable5的重點不是單輪問答更漂亮，而是能接住長周期任務。

我們不妨用數據和硬核Demo，來拆解這代神話級模型的統治力：

軟件工程：高難度基準打穿，從“修Bug”到“全自動大軍”

在衡量模型解決真實世界、復雜軟件工程問題能力的SWE-bench Pro評測中，Claude Fable 5飆出了80.3%的高分。

作為對比，競爭對手的頂級主力模型GPT-5.5的得分為58.6%。

在Cognition的Frontier Code評測——這個評測更看重模型能不能完成困難編程任務，同時滿足高質量生產代碼庫的標準——中，Fable 5在中等推理強度下就拿到前沿模型最高分。

FrontierCode該基準極難飽和。

不過即便在“中等努力（Medium effort）”模式下，Fable 5得分也高居所有前沿模型之首。

官方給出的第一個典型案例來自Stripe。

在一個5000萬行Ruby代碼庫中，Fable 5完成了一次全庫遷移。這個工作如果讓一個工程團隊手動做，原本要兩個多月。

Fable 5呢？僅僅用了一天。

此外，在端到端前端開發基準ViBench（Vibe-coding benchmark）上，Fable 5幾乎把基礎開發用例直接打到飽和，實現了真正的“一槍流（One-shot）”生成應用。

原生視覺：不要腳手架，盲打通關《寶可夢》

知名科技媒體VentureBeat在《Anthropic brings Mythos to the masses with Claude Fable 5, its most powerful generally available model ever》一文中透露，在專注于視覺文件推理的基準測試GDPpdf上，Fable 5和Mythos 5在不借助外部工具的條件下拿到了29.8%的成績。

作為對比，Opus 4.8得分為22.5%，GPT-5.5得分為24.9%，Gemini 3.1 Pro得分為16.7%。

Anthropic官方也猜大家看一堆數據很枯燥，于是放出了Fable 5打游戲的Demo，更具直接視覺效果。

此前的Claude模型如果想玩RPG游戲《寶可夢·火紅版》，必須在外部為其配置一套極其復雜的“腳手架”（包括地圖導航援助、內存游戲狀態讀取等）。

現在，Fable 5實現了純粹的“原生視覺盲打”。

僅憑一張張原始的游戲屏幕截圖，在沒有任何地圖外掛的前提下，它完全自主推演、策略規劃，硬生生打通關了整部游戲。

不僅如此，由于其超長序列的專注度，當給它配置了持久化的文件級內存后，它在游玩卡牌肉鴿游戲《殺戮尖塔》（Slay the Spire）時，表現直接飆升了3倍，到達最終星體的概率同樣暴漲3倍。

長上下文和記憶能力重點升級，順手強調了下“Token效率”

長上下文和記憶能力也是這次升級的重點。

Anthropic稱，Fable 5能在百萬級Token的長期任務里保持專注，還能利用自己的筆記改進輸出。

官方拿SlaytheSpire做了測試，給模型接入持久化文件記憶后，Fable5的表現提升幅度是Opus4.8的三倍，到達最終章節的頻率也提升了三倍。

這其實是Agent能力里非常底層的一環。

一個能長時間干活的AI，必須能夠記得自己做過什么、錯過什么、下一步為什么這么做。沒有穩定記憶，自主任務就很容易變成一場大型失憶現場。

為此Anthropic還特別強調了Token效率（這也是這代模型的一個關鍵方向）。

越是能長時間自主工作的模型，越會消耗大量Token。

如果模型一邊很強，一邊很“費話”，成本很快會高到讓企業肉疼。

Fable 5強調Token效率，本質上是在解決Agent化落地里的賬本問題。

金融、法律與運營：首次突破 90% 大關的邏輯黑洞

在考察高級分析推理能力的Hebbia金融基準測試（Finance Benchmark for senior-level reasoning）中，Fable 5拿到了行業最高分。

在長篇文檔推理、復雜的圖表和表格解讀、以及多步驟根因分析上，Fable 5實現了雙位數的跨越式增長。

在量化交易大廠IMC和Optiver的實測中，Fable 5幾乎拿滿了其交易分析評估的全部權重（包括事實檢索、概念推理和期望值計算），且展現出驚人的穩定性——在多次重復運行中，輸出結果的分數完全一致。

數據分析平臺 Hex給出的評價是這樣的：

Fable 5是行業內第一個在我們的核心分析基準（覆蓋極其復雜、長周期分析任務）中突破90%得分大關的模型，比Opus提升了整整10個百分點。
在最刁鉆的提問中，它表現出了人類專家級別的微觀評判力。

前沿科研：滿血版Mythos“以小勝大”100倍的模型

在前沿物理學研究上，初創公司VibeCAD和物理研究機構測試表明，Fable 5僅使用了1/3的推理Token，在36小時內產出的物理研究成果，就逼近了GPT-5.5耗時四天才跑出的成績。

以及仍然有點藏著掖著的Myhtos終于在這一板塊現身了。

Anthropic表示，在生物醫藥領域，滿血版的Mythos 5在完全沒有人類協助的情況下，已經可以獨立執行一個生物學家的全部工作流：選擇蛋白質結合位點、自主調度并運行各類生物信息學工具，甚至在遭遇運行失敗時自己 Debug。

它設計出的14個蛋白質靶向復合物中，有9個已經進入了實驗室的真實藥物研發管線。

Anthropic還強調，Mythos 5“是我們首個能夠持續產生新穎且引人注目的科學假設的模型”。

在與Opus系列模型的盲法直接對比中，科學家在80%的情況下更傾向于Mythos的分子生物學假設，并且已將其中幾個假設推進到實驗驗證階段。

與此同時，Mythos 的一個假設——一種關于大腸桿菌蛋白的新機制——在另一家獨立研究同一問題的實驗室的研究《
A newly identified detoxification system protects uropathogenic Escherichia coli from reactive chlorine species》中得到了證實。

更夸張的是在基因組學研究中，Mythos 5自主工作了一周多，拼湊了138個物種的單細胞數據，并自主設計訓練了一個定制的微型機器學習模型。

這個由AI訓練出來的、體積小了100倍的微型模型，在表現上直接擊敗了前不久剛剛發表在《Science》雜志上的最新科研成果。

呼吁停止AI研究后，“危險能力”似乎被做成產品機制

這次最有意思的地方，應該得是Anthropic給Fable 5套上的防護網。

準確來說，Fable 5背后掛了一組獨立分類器。

這些分類器會檢測用戶請求是否涉及網絡安全攻擊、生物和化學風險，以及模型蒸餾。

一旦觸發，Fable 5就會拒絕自己回答，轉而把請求自動轉交給Claude Opus 4.8，并告知用戶發生了降級。

有點意思哈。

過去的大模型在安全這一塊，通常是讓模型拒絕，說什么“抱歉，我無法為你提供幫助”“對不起我不能回答”“對不起我不能理解你的意思”之類balabala。

Fable 5換了一種做法。

它不做單純拒絕了，而是做模型路由。

普通問題由Fable 5處理，一旦被識別到有問題是高風險問題，模型立刻被切到Opus4.8。

Anthropic的意思是，Opus4.8本身也是強模型，降級回答的體驗總比直接拒絕要好的吧？～

這套設計實際把能力和安全拆開了。

你日常使用的是Mythos級能力。

但面對一些敏感、攻擊性、企圖越獄等問題時，Anthropic絲滑切換老版本模型為你服務，讓你手里趁手的工具，突然就沒那么趁手了。

（主要防范網絡安全、生化領域和模型蒸餾方面的一些問題）

Anthropic給出了數據——

好消息，超過95%的Fable 5會話不會觸發降級。

也就是說，對于絕大多數寫作、代碼、分析、研究和辦公任務，用戶能拿到的體驗基本接近Mythos 5。

但還有剩下不到5%的請求，會進入更嚴格的安全路徑。

官網表明，高風險領域主要有三類。

第一類是網絡安全，第二類是生物和化學，第三類是模型蒸餾。

這套機制背后，其實是前沿模型產品形態的一個變化。

安全不再只是模型回答前的一句免責聲明，也不只是寫在系統卡里的政策描述。

它變成了分類器、模型路由、權限分級、數據留存、紅隊測試共同組成的產品架構。

當然，代價也來了。

Fable 5的分類器調得比較保守，正常請求也可能被誤傷。

比如生物學家研究病毒，安全工程師做授權攻防演練，都可能在合理任務中觸發降級。

Anthropic自己也承認，當前護欄比理想狀態更嚴格，后續會降低誤傷率。

另一個代價是數據留存。

從Fable 5、Mythos 5以及后續同等級模型開始，Anthropic要求Mythos級模型所有流量保留30天，覆蓋第一方和第三方使用場景。

官方強調這些數據不會用于訓練，只用于安全監控，包括識別復雜攻擊、新型越獄和跨請求攻擊。

對普通用戶來說，這可能只是條款里的一行字。

但對企業客戶來說，這就是非常現實的數據治理問題。

想用最強能力，就要接受更高等級的安全審查和數據留存。

不可避免的，前沿模型的成本，也不只體現在API賬單上。

價格方面，Fable5和Mythos5統一定價為每百萬輸入Token10美元、每百萬輸出Token50美元。

確實，相比Claude Mythos Preview便宜不少，但仍然是高價模型。

一句話說，Fable5確實強，但不會便宜到可以隨便燒。

這也解釋了為什么Anthropic要同時強調能力、安全和Token效率。

內測AI學者體驗：AI越強，人越像甲方

著名AI學者、沃頓商學院教授埃森·莫里克（Ethan Mollick）在率先拿到測試權限后，撰寫了一篇長文。

其行文邏輯直擊這場技術革命的核心本質——

人類與大模型之間的協作范式，發生了根本性、不可逆的逆轉。

他讓Fable 5做了一個等時圈地圖。

這個任務聽起來不算玄乎，但真做起來非常麻煩。

它要查航班、查鐵路時刻、判斷道路速度，還要處理不同國家、不同交通方式、不同時間成本之間的關系。

Fable 5自己啟動多個代理去查資料，拿到了2200多個具體航班信息，還抓取了TGV、新干線等鐵路數據，以及各國道路速度信息。

最后，它把這些資料整合進一個可用的地圖項目里。

這件事的重點在于Fable 5把一個模糊目標拆成了研究、信息搜集、設計、編碼、驗證等多個環節，并且自己往前推進。

這和過去的大模型體驗差別很大。

于是，莫里克提出了一個深刻的洞察。

在過去，人類使用大模型就像一個“巫師（Wizard）”，你必須手把手地去指導它、駕馭它（Steer），精雕細琢每一句 Prompt，通過不斷的對話提示詞來“念咒”，AI才能勉強變出一個戲法。

而面對Mythos級別的模型，人類正在淪為“贊助人（Patron，這里我感覺翻譯為“甲方”更貼切一些？）”或者“委托人”。

莫里克教授用Fable5工作，感覺已經不像是在操作一個工具，更像是在委托一個小型工作室。

此外，在莫里克的實際測試中，他不再需要工作在最微觀的指令層。

他直接向Fable 5喂進了一個長達15頁、極其復雜的項目設計文檔，然后留下宏觀的需求描述。

接下來的9個多小時里，Fable 5在后臺處于完全自主（Autonomous）的運行狀態。

它自己生出了一個Agent工作流，內部調度多個小Agent分別去搞調研、撰寫大綱、相互校對、推翻錯誤假設、糾錯重來。

人類甚至不需要介入這個工作流半步。

9小時后，一個極高質量的成品直接交付到了莫里克面前。

這就是所謂的“工作室（Studio）”隱喻。

以前，我們用大模型是雇傭了一個臨時的、需要反復溝通的自由職業者；現在，你用Fable 5，等于你用幾美金的Token，瞬間雇傭了一整家好萊塢級別的設計院、或者一個頂尖的科研所。

你不需要關心它在黑盒里做出了多少個微觀決策，你只需要扮演那個在最終成品上簽字的“甲方”。

這種大模型長文本上下文（Context）與自主邏輯的結合，讓Context不再僅僅是一個“內容容納器”，而是徹底沉淀為了一個能自主推演、長時運行的“新型智能操作系統”。

換句話說，AI越像承包方，人類越像需要具備驗收能力的甲方。

小插曲，為了更直觀、更有趣地展示，教授還讓它生成了一系列游戲供大家試玩。

這些游戲都是基于Claude Code的一個初始提示，Fable 5需要根據我提供的模糊提示生成一些可行的程序，之后我會給出一些額外的提示，并給予一些鼓勵（例如“做得更好”）或反饋。

由于Claude Code無法生成圖像，所以所有的美術作品或3D對象都是完全通過數學運算生成的，沒有使用任何外部資源。

這里放一個拋硬幣游戲的demo：

提前內測Fable 5后，教授最后表示“最終的成果令人印象深刻”。

但是，尤其是在著手處理更嚴肅的項目時，教授常常覺得使用這個工具既令人愉悅又令人不安。

愉悅之處在于，我只需提出要求，它就能實現。
不安之處也在于，我只需提出要求，它就能實現。

的確。

回到Anthropic這次發布。

有的人認為最重要的是Mythos終于半明牌了，有的人認為最重要的是前沿AI產品正在進入新形態。

一個更強的模型上桌了。

但Anthropic先給它系上安全帶，然后才把鑰匙遞給所有人。

有人歡呼，有人焦慮，有人在徹夜調試代碼，只為追上那條不斷向前狂奔、甚至已經開始脫離人類微觀視線的智能曲線。

Three More Things

1、注意窗口期。
從今天到6月22日，Pro、Max、Team和企業版用戶可以免費用Fable 5。

但6月23日起，還想用Fable 5，就得額外買usage credits了。

2、Anthropic說，一旦產能跟上，Fable 5會重新做成訂閱標配。

API和按量付費的企業客戶不受這個節奏影響，今天起照常調用。

參考資料：
[1]https://www.anthropic.com/news/claude-fable-5-mythos-5
[2]https://www.oneusefulthing.org/p/what-it-feels-like-to-work-with-mythos
[3]https://www.biorxiv.org/content/10.64898/2026.03.12.711259v1

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.