衡宇 Jay 發自 凹非寺
量子位 | 公眾號 QbitAI
Anthropic遮遮掩掩兩個月的“神話”Mythos,終于降臨了——
自家有史以來最強悍的大模型旗艦,分兩個版本端上桌:Claude Fable 5與 Claude Mythos 5。
![]()
Fable 5是加了防護網版本的Mythos**,面向所有用戶開放。
一旦用戶提問觸發風險分類器(比如試圖讓它寫惡意軟件),系統就會自動降級調用上一代Claude Opus 4.8來回答。
Mythos 5是原汁原味的滿血版“Mythos”,但只給少數受信任用戶使用。
它在網絡安全等領域解除了安全限制,官網稱其“擁有全球最頂尖的網安攻防與生物科研純血能力”。
官方表示,Fable 5和Mythos 5的自主運行時間比以往任何Claude模型都長。
![]()
小小嘆個氣?前沿AI,開始進入權限時代了。
而且就在Anthropic鄭重其事地呼吁全部AI研究立刻停止后沒兩天……
不懂Dario怎么也開始走上奧特曼每次為自家新模型、新產品提前營銷造勢的老路,還是陣仗極大的那種。
(我知道A社有自己的道理,但我還是報以一個微笑)。
不過還是有非技術層面讓開發者比較欣慰的消息,這兩款新旗艦的API定價直接把之前的預覽版砍掉了一半以上:
每百萬輸入Token僅需10美元,每百萬輸出Token為50美元。
![]()
好了,咱們迅速進入技術相關環節,沖——
雙版本Mythos來了!官方給“Token效率”畫了重點
先說個情況。
官方的發布日志和業內評測中沒有像介紹Fable 5那樣,為Mythos 5開列一長串標準的、公開的 Benchmark跑分榜單(比如 MMLU、GSM8K、SWE-bench 等)。
不過鑒于二者是同一底層模型,兩者其實可以看成同一內核的“鏡像分身”,基礎技術指標完全一致。
所以我們只能先看看目前官方渠道主要公開的Fable 5的表現。
![]()
按照Anthropic自己的說法,Claude Fable 5是目前最強的公開Claude,也是Fable系列第一次進入Mythos級能力。
它的優勢主要集中在幾個方向:軟件工程、復雜知識工作、視覺、長上下文、記憶能力,以及生命科學研究。
更關鍵的是,任務越長、越復雜,Fable5相比過去Claude的優勢越明顯——說明Fable5的重點不是單輪問答更漂亮,而是能接住長周期任務。
我們不妨用數據和硬核Demo,來拆解這代神話級模型的統治力:
軟件工程:高難度基準打穿,從“修Bug”到“全自動大軍”
在衡量模型解決真實世界、復雜軟件工程問題能力的SWE-bench Pro評測中,Claude Fable 5飆出了80.3%的高分。
作為對比,競爭對手的頂級主力模型GPT-5.5的得分為58.6%。
![]()
在Cognition的Frontier Code評測——這個評測更看重模型能不能完成困難編程任務,同時滿足高質量生產代碼庫的標準——中,Fable 5在中等推理強度下就拿到前沿模型最高分。
FrontierCode該基準極難飽和。
不過即便在“中等努力(Medium effort)”模式下,Fable 5得分也高居所有前沿模型之首。
![]()
官方給出的第一個典型案例來自Stripe。
在一個5000萬行Ruby代碼庫中,Fable 5完成了一次全庫遷移。這個工作如果讓一個工程團隊手動做,原本要兩個多月。
Fable 5呢?僅僅用了一天。
此外,在端到端前端開發基準ViBench(Vibe-coding benchmark)上,Fable 5幾乎把基礎開發用例直接打到飽和,實現了真正的“一槍流(One-shot)”生成應用。
原生視覺:不要腳手架,盲打通關《寶可夢》
知名科技媒體VentureBeat在《Anthropic brings Mythos to the masses with Claude Fable 5, its most powerful generally available model ever》一文中透露,在專注于視覺文件推理的基準測試GDPpdf上,Fable 5和Mythos 5在不借助外部工具的條件下拿到了29.8%的成績。
作為對比,Opus 4.8得分為22.5%,GPT-5.5得分為24.9%,Gemini 3.1 Pro得分為16.7%。
Anthropic官方也猜大家看一堆數據很枯燥,于是放出了Fable 5打游戲的Demo,更具直接視覺效果。
此前的Claude模型如果想玩RPG游戲《寶可夢·火紅版》,必須在外部為其配置一套極其復雜的“腳手架”(包括地圖導航援助、內存游戲狀態讀取等)。
現在,Fable 5實現了純粹的“原生視覺盲打”。
僅憑一張張原始的游戲屏幕截圖,在沒有任何地圖外掛的前提下,它完全自主推演、策略規劃,硬生生打通關了整部游戲。
不僅如此,由于其超長序列的專注度,當給它配置了持久化的文件級內存后,它在游玩卡牌肉鴿游戲《殺戮尖塔》(Slay the Spire)時,表現直接飆升了3倍,到達最終星體的概率同樣暴漲3倍。
長上下文和記憶能力重點升級,順手強調了下“Token效率”
長上下文和記憶能力也是這次升級的重點。
Anthropic稱,Fable 5能在百萬級Token的長期任務里保持專注,還能利用自己的筆記改進輸出。
官方拿SlaytheSpire做了測試,給模型接入持久化文件記憶后,Fable5的表現提升幅度是Opus4.8的三倍,到達最終章節的頻率也提升了三倍。
這其實是Agent能力里非常底層的一環。
一個能長時間干活的AI,必須能夠記得自己做過什么、錯過什么、下一步為什么這么做。沒有穩定記憶,自主任務就很容易變成一場大型失憶現場。
![]()
為此Anthropic還特別強調了Token效率(這也是這代模型的一個關鍵方向)。
越是能長時間自主工作的模型,越會消耗大量Token。
如果模型一邊很強,一邊很“費話”,成本很快會高到讓企業肉疼。
Fable 5強調Token效率,本質上是在解決Agent化落地里的賬本問題。
金融、法律與運營:首次突破 90% 大關的邏輯黑洞
在考察高級分析推理能力的Hebbia金融基準測試(Finance Benchmark for senior-level reasoning)中,Fable 5拿到了行業最高分。
在長篇文檔推理、復雜的圖表和表格解讀、以及多步驟根因分析上,Fable 5實現了雙位數的跨越式增長。
在量化交易大廠IMC和Optiver的實測中,Fable 5幾乎拿滿了其交易分析評估的全部權重(包括事實檢索、概念推理和期望值計算),且展現出驚人的穩定性——在多次重復運行中,輸出結果的分數完全一致。
數據分析平臺 Hex給出的評價是這樣的:
Fable 5是行業內第一個在我們的核心分析基準(覆蓋極其復雜、長周期分析任務)中突破90%得分大關的模型,比Opus提升了整整10個百分點。
在最刁鉆的提問中,它表現出了人類專家級別的微觀評判力。
前沿科研:滿血版Mythos“以小勝大”100倍的模型
在前沿物理學研究上,初創公司VibeCAD和物理研究機構測試表明,Fable 5僅使用了1/3的推理Token,在36小時內產出的物理研究成果,就逼近了GPT-5.5耗時四天才跑出的成績。
以及仍然有點藏著掖著的Myhtos終于在這一板塊現身了。
Anthropic表示,在生物醫藥領域,滿血版的Mythos 5在完全沒有人類協助的情況下,已經可以獨立執行一個生物學家的全部工作流:選擇蛋白質結合位點、自主調度并運行各類生物信息學工具,甚至在遭遇運行失敗時自己 Debug。
它設計出的14個蛋白質靶向復合物中,有9個已經進入了實驗室的真實藥物研發管線。
![]()
Anthropic還強調,Mythos 5“是我們首個能夠持續產生新穎且引人注目的科學假設的模型”。
在與Opus系列模型的盲法直接對比中,科學家在80%的情況下更傾向于Mythos的分子生物學假設,并且已將其中幾個假設推進到實驗驗證階段。
與此同時,Mythos 的一個假設——一種關于大腸桿菌蛋白的新機制——在另一家獨立研究同一問題的實驗室的研究《
A newly identified detoxification system protects uropathogenic Escherichia coli from reactive chlorine species》中得到了證實。
更夸張的是在基因組學研究中,Mythos 5自主工作了一周多,拼湊了138個物種的單細胞數據,并自主設計訓練了一個定制的微型機器學習模型。
這個由AI訓練出來的、體積小了100倍的微型模型,在表現上直接擊敗了前不久剛剛發表在《Science》雜志上的最新科研成果。
呼吁停止AI研究后,“危險能力”似乎被做成產品機制
這次最有意思的地方,應該得是Anthropic給Fable 5套上的防護網。
準確來說,Fable 5背后掛了一組獨立分類器。
這些分類器會檢測用戶請求是否涉及網絡安全攻擊、生物和化學風險,以及模型蒸餾。
一旦觸發,Fable 5就會拒絕自己回答,轉而把請求自動轉交給Claude Opus 4.8,并告知用戶發生了降級。
有點意思哈。
過去的大模型在安全這一塊,通常是讓模型拒絕,說什么“抱歉,我無法為你提供幫助”“對不起我不能回答”“對不起我不能理解你的意思”之類balabala。
Fable 5換了一種做法。
它不做單純拒絕了,而是做模型路由。
普通問題由Fable 5處理,一旦被識別到有問題是高風險問題,模型立刻被切到Opus4.8。
Anthropic的意思是,Opus4.8本身也是強模型,降級回答的體驗總比直接拒絕要好的吧?~
![]()
這套設計實際把能力和安全拆開了。
你日常使用的是Mythos級能力。
但面對一些敏感、攻擊性、企圖越獄等問題時,Anthropic絲滑切換老版本模型為你服務,讓你手里趁手的工具,突然就沒那么趁手了。
(主要防范網絡安全、生化領域和模型蒸餾方面的一些問題)
Anthropic給出了數據——
好消息,超過95%的Fable 5會話不會觸發降級。
也就是說,對于絕大多數寫作、代碼、分析、研究和辦公任務,用戶能拿到的體驗基本接近Mythos 5。
但還有剩下不到5%的請求,會進入更嚴格的安全路徑。
官網表明,高風險領域主要有三類。
第一類是網絡安全,第二類是生物和化學,第三類是模型蒸餾。
這套機制背后,其實是前沿模型產品形態的一個變化。
安全不再只是模型回答前的一句免責聲明,也不只是寫在系統卡里的政策描述。
它變成了分類器、模型路由、權限分級、數據留存、紅隊測試共同組成的產品架構。
當然,代價也來了。
Fable 5的分類器調得比較保守,正常請求也可能被誤傷。
比如生物學家研究病毒,安全工程師做授權攻防演練,都可能在合理任務中觸發降級。
Anthropic自己也承認,當前護欄比理想狀態更嚴格,后續會降低誤傷率。
另一個代價是數據留存。
從Fable 5、Mythos 5以及后續同等級模型開始,Anthropic要求Mythos級模型所有流量保留30天,覆蓋第一方和第三方使用場景。
官方強調這些數據不會用于訓練,只用于安全監控,包括識別復雜攻擊、新型越獄和跨請求攻擊。
對普通用戶來說,這可能只是條款里的一行字。
但對企業客戶來說,這就是非常現實的數據治理問題。
想用最強能力,就要接受更高等級的安全審查和數據留存。
不可避免的,前沿模型的成本,也不只體現在API賬單上。
價格方面,Fable5和Mythos5統一定價為每百萬輸入Token10美元、每百萬輸出Token50美元。
確實,相比Claude Mythos Preview便宜不少,但仍然是高價模型。
一句話說,Fable5確實強,但不會便宜到可以隨便燒。
這也解釋了為什么Anthropic要同時強調能力、安全和Token效率。
內測AI學者體驗:AI越強,人越像甲方
著名AI學者、沃頓商學院教授埃森·莫里克(Ethan Mollick)在率先拿到測試權限后,撰寫了一篇長文。
其行文邏輯直擊這場技術革命的核心本質——
人類與大模型之間的協作范式,發生了根本性、不可逆的逆轉。
他讓Fable 5做了一個等時圈地圖。
這個任務聽起來不算玄乎,但真做起來非常麻煩。
它要查航班、查鐵路時刻、判斷道路速度,還要處理不同國家、不同交通方式、不同時間成本之間的關系。
Fable 5自己啟動多個代理去查資料,拿到了2200多個具體航班信息,還抓取了TGV、新干線等鐵路數據,以及各國道路速度信息。
![]()
最后,它把這些資料整合進一個可用的地圖項目里。
這件事的重點在于Fable 5把一個模糊目標拆成了研究、信息搜集、設計、編碼、驗證等多個環節,并且自己往前推進。
這和過去的大模型體驗差別很大。
于是,莫里克提出了一個深刻的洞察。
在過去,人類使用大模型就像一個“巫師(Wizard)”,你必須手把手地去指導它、駕馭它(Steer),精雕細琢每一句 Prompt,通過不斷的對話提示詞來“念咒”,AI才能勉強變出一個戲法。
而面對Mythos級別的模型,人類正在淪為“贊助人(Patron,這里我感覺翻譯為“甲方”更貼切一些?)”或者“委托人”。
莫里克教授用Fable5工作,感覺已經不像是在操作一個工具,更像是在委托一個小型工作室。
![]()
此外,在莫里克的實際測試中,他不再需要工作在最微觀的指令層。
他直接向Fable 5喂進了一個長達15頁、極其復雜的項目設計文檔,然后留下宏觀的需求描述。
接下來的9個多小時里,Fable 5在后臺處于完全自主(Autonomous)的運行狀態。
它自己生出了一個Agent工作流,內部調度多個小Agent分別去搞調研、撰寫大綱、相互校對、推翻錯誤假設、糾錯重來。
人類甚至不需要介入這個工作流半步。
9小時后,一個極高質量的成品直接交付到了莫里克面前。
![]()
這就是所謂的“工作室(Studio)”隱喻。
以前,我們用大模型是雇傭了一個臨時的、需要反復溝通的自由職業者;現在,你用Fable 5,等于你用幾美金的Token,瞬間雇傭了一整家好萊塢級別的設計院、或者一個頂尖的科研所。
你不需要關心它在黑盒里做出了多少個微觀決策,你只需要扮演那個在最終成品上簽字的“甲方”。
這種大模型長文本上下文(Context)與自主邏輯的結合,讓Context不再僅僅是一個“內容容納器”,而是徹底沉淀為了一個能自主推演、長時運行的“新型智能操作系統”。
換句話說,AI越像承包方,人類越像需要具備驗收能力的甲方。
小插曲,為了更直觀、更有趣地展示,教授還讓它生成了一系列游戲供大家試玩。
這些游戲都是基于Claude Code的一個初始提示,Fable 5需要根據我提供的模糊提示生成一些可行的程序,之后我會給出一些額外的提示,并給予一些鼓勵(例如“做得更好”)或反饋。
由于Claude Code無法生成圖像,所以所有的美術作品或3D對象都是完全通過數學運算生成的,沒有使用任何外部資源。
這里放一個拋硬幣游戲的demo:
![]()
提前內測Fable 5后,教授最后表示“最終的成果令人印象深刻”。
但是,尤其是在著手處理更嚴肅的項目時,教授常常覺得使用這個工具既令人愉悅又令人不安。
愉悅之處在于,我只需提出要求,它就能實現。
不安之處也在于,我只需提出要求,它就能實現。
的確。
回到Anthropic這次發布。
有的人認為最重要的是Mythos終于半明牌了,有的人認為最重要的是前沿AI產品正在進入新形態。
一個更強的模型上桌了。
但Anthropic先給它系上安全帶,然后才把鑰匙遞給所有人。
有人歡呼,有人焦慮,有人在徹夜調試代碼,只為追上那條不斷向前狂奔、甚至已經開始脫離人類微觀視線的智能曲線。
Three More Things
1、注意窗口期。
從今天到6月22日,Pro、Max、Team和企業版用戶可以免費用Fable 5。
但6月23日起,還想用Fable 5,就得額外買usage credits了。
2、Anthropic說,一旦產能跟上,Fable 5會重新做成訂閱標配。
API和按量付費的企業客戶不受這個節奏影響,今天起照常調用。
參考資料:
[1]https://www.anthropic.com/news/claude-fable-5-mythos-5
[2]https://www.oneusefulthing.org/p/what-it-feels-like-to-work-with-mythos
[3]https://www.biorxiv.org/content/10.64898/2026.03.12.711259v1
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.