Anthropic終于把Mythos推向了公開市場,但分層發(fā)售。
凌晨,Anthropic正式發(fā)布Claude Fable 5和Claude Mythos 5。前者面向普通用戶開放,后者則繼續(xù)限制在“受信任的安全合作伙伴”范圍內(nèi)。
![]()
新模型的命名可以說很符合Claude一貫的風(fēng)格。
從Haiku(俳句)到Sonnet(十四行詩)再到Opus(藝術(shù)巨著),Anthropic一直在用文學(xué)和藝術(shù)概念給模型分層,到了Mythos,名字已經(jīng)從文學(xué)作品膨脹到“神話”本身。
Fable來自拉丁語fabula,意思是“被講述之物”,和希臘語mythos同源,直譯過來的話一般被稱為“寓言”。這個(gè)名字正如新模型的定位,一個(gè)“Mythos級”的模型,一個(gè)“公開的神話”。
按照Anthropic的描述,F(xiàn)able 5和Mythos 5共享同一個(gè)底層模型,只是被裝進(jìn)了更適合公開分發(fā)的安全殼里。在官方給出的模型能力上,它們兩個(gè)被放在同一個(gè)位置。
![]()
但跑分歸跑分,如果Fable和Mythos的表現(xiàn)完全一樣,我想應(yīng)該也不用分成兩個(gè)名字了。
01
被改寫的“神話”
神話被改寫、被壓縮、被加上訓(xùn)誡之后,變成了寓言。
按照官方文檔,F(xiàn)able 5是公開版本。它面向普通用戶和開發(fā)者開放,但在網(wǎng)絡(luò)安全、生物、化學(xué)以及模型蒸餾等高風(fēng)險(xiǎn)領(lǐng)域,會由額外的安全分類器介入。一旦系統(tǒng)判斷請求可能涉及這些敏感方向,回答就不會由Fable 5繼續(xù)完成,而是自動回退到Claude Opus 4.8。
Mythos 5基于同樣的底層模型,但在部分領(lǐng)域解除了Fable 5的護(hù)欄。Anthropic稱,Project Glasswing里的網(wǎng)絡(luò)安全合作伙伴可以使用“滿血版”Mythos 5;未來,部分生命科學(xué)研究者也可能通過受信任訪問計(jì)劃,使用解除生物和化學(xué)限制的版本。
用不到的Mythos我們暫時(shí)不提,先看點(diǎn)實(shí)在的東西。
首先是定價(jià),一個(gè)字,貴。
Fable 5的定價(jià)是輸入10美元/百萬token,輸出50美元/百萬token。開發(fā)者現(xiàn)在就可以通過Claude API調(diào)用claude-fable-5(模型名)。
這個(gè)價(jià)格剛好是Opus 4.8的兩倍,和Opus 4.8的fast mode相同,Anthropic顯然把它放在了比Opus更高一檔的價(jià)格層級里。
不過Anthropic稱,這一價(jià)格不到此前Claude Mythos Preview的一半——但由于Mythos Preview并非公開API模型,官方并未給出面向公眾的標(biāo)準(zhǔn)價(jià),這句話也無從驗(yàn)證。
訂閱用戶也需要注意,F(xiàn)able 5不一定會長期直接包含在基礎(chǔ)訂閱包里。
Anthropic在官方說明中提到,6月23日以后,即使用戶已經(jīng)訂閱Claude,F(xiàn)able 5也可能根據(jù)算力情況按量提供,不一定會直接包含在基礎(chǔ)訂閱服務(wù)中。
這公司越來越吝嗇了,不過好歹還留了小半個(gè)月試用期。官方也留了一點(diǎn)余地:如果6月23日以后算力資源足夠,Anthropic會盡量把Fable 5繼續(xù)包含在Pro、Max等訂閱服務(wù)里。
![]()
定價(jià)高本身并非難以理解,但它最好保證它的能力配得上它的價(jià)格。
從跑分上看,F(xiàn)able 5/Mythos 5基本是Anthropic目前公開表里最強(qiáng)的一檔。
不過官方表格有一個(gè)說明,Claude Fable 5和Claude Mythos 5的分?jǐn)?shù)一般只差1–3個(gè)百分點(diǎn)(除了帶星號的網(wǎng)絡(luò)安全、生物相關(guān)測試),所以表里顯示的是兩者更高的分?jǐn)?shù)。這一點(diǎn)很難不讓人想要吐槽。
![]()
Anthropic把Fable 5的重點(diǎn)放在幾個(gè)方向:軟件工程、知識工作、視覺、長上下文記憶和生命科學(xué)研究。
軟件工程是最突出的場景之一,根據(jù)表格,F(xiàn)able/Mythos 5在SWE-Bench Pro上達(dá)到80.3%,明顯高于Opus 4.8的69.2%;在更難的FrontierCode Diamond上,它拿到29.3%,而Opus 4.8只有13.4%,GPT-5.5只有5.7%。
![]()
![]()
知識工作和視覺任務(wù)上,Anthropic給出了兩類證據(jù)。
一類是標(biāo)準(zhǔn)化benchmark。官方表格顯示,F(xiàn)able/Mythos 5在GDPval-AA上得分1932,高于Opus 4.8、GPT-5.5和Gemini 3.1 Pro;在GDP.pdf這種帶視覺理解的文檔任務(wù)上,它達(dá)到29.8%,也超過其他主要模型。
另一類是早期客戶測試。Anthropic稱,F(xiàn)able 5在Hebbia的高級金融推理基準(zhǔn)上取得最高分,優(yōu)勢集中在文檔推理、圖表和表格理解、問題求解;IMC也反饋,它在交易分析評估中幾乎全面通過。
為了展示Fable 5的視覺能力,Anthropic舉的例子是:此前Claude模型需要復(fù)雜輔助工具才能玩《寶可夢 火紅》,而Fable 5只靠視覺輸入就可以通關(guān)。
![]()
長任務(wù)和記憶能力上,Anthropic稱,F(xiàn)able 5可以在數(shù)百萬token的長期任務(wù)中保持專注,并利用自己的筆記改進(jìn)輸出。
在《殺戮尖塔》這類需要連續(xù)決策和長期策略的游戲里,如果給Fable 5接入持久文件記憶,讓它能記錄前面的選擇和經(jīng)驗(yàn),它的表現(xiàn)會明顯提升。提升幅度是Opus 4.8的三倍,到達(dá)最終關(guān)卡的次數(shù)也提高了三倍。
順便一提,F(xiàn)able也是一款經(jīng)典RPG游戲的名字,中文譯作《神鬼寓言》——或許某天我們能看到Fable玩《Fable》。
另外,網(wǎng)絡(luò)安全能力方面,F(xiàn)able/Mythos 5在ExploitBench Cap%上達(dá)到78.0%,超過Claude Mythos Preview的69.0%,接近Opus 4.8的兩倍。
這里用的應(yīng)該是Mythos 5的得分,因?yàn)镕able 5在高風(fēng)險(xiǎn)請求上會回退到Opus 4.8。
02
強(qiáng)大的模型必須分層
Anthropic這次把模型能力的直觀展示放到了一個(gè)類似”作品集“的滑頁里,并且每個(gè)demo只給了一小段注釋。
![]()
比如,F(xiàn)able 5寫了一個(gè)太陽系模擬,從物理第一性原理推導(dǎo)行星軌道運(yùn)動,并用它預(yù)測日食。
![]()
又比如,它可以自主玩《異星工廠》。這是一款工程師很愛的工廠自動化游戲,玩家要采集資源、規(guī)劃生產(chǎn)線、搭建物流和能源系統(tǒng)。
Anthropic用這個(gè)例子說明,F(xiàn)able 5可以在一個(gè)開放環(huán)境里制定策略,并持續(xù)推進(jìn)一個(gè)復(fù)雜系統(tǒng)的建設(shè)。
![]()
在另一個(gè)demo里,F(xiàn)able 5先做了一個(gè)基于瀏覽器的CAD編輯器,然后又使用這個(gè)由自己開發(fā)的CAD工具,設(shè)計(jì)了一個(gè)可以3D打印的完整模型。這個(gè)編輯器里還內(nèi)置了AI copilot,用來輔助建模。
這個(gè)demo的重點(diǎn)在于Fable 5完成了一個(gè)閉環(huán):先創(chuàng)造工具,再使用工具,最后完成一個(gè)實(shí)體設(shè)計(jì)任務(wù)。
![]()
最后一個(gè)demo,Anthropic展示了一個(gè)由Fable 5寫出來的流體模擬,運(yùn)動節(jié)奏和一段古典音樂EDM remix同步。官方還特意提到,音樂也是Fable 5用代碼生成的。
![]()
這些案例看起來挺花哨,但意思是一樣的:Fable 5很擅長把代碼、視覺、物理、設(shè)計(jì)和長期規(guī)劃混在一起做任務(wù)。
如果說這部分展示的還是Fable 5在開發(fā)者手里能做到什么程度,后面的部分說的就是Mythos 5在研究者手里能做什么——以及Anthropic為什么要把Fable和Mythos分開。
Anthropic稱,在內(nèi)部蛋白設(shè)計(jì)專家的評估中,Mythos 5把藥物設(shè)計(jì)流程中的部分環(huán)節(jié)加速了大約10倍。其中一個(gè)案例里,Mythos 5接入蛋白設(shè)計(jì)和生物信息學(xué)工具、沒有人類幫助,就可以匹配甚至超過熟練人類操作員。
在該任務(wù)中,Mythos 5做的不是簡單問答,而是完成一整套科學(xué)工作流:選擇結(jié)合位點(diǎn),選擇并運(yùn)行蛋白設(shè)計(jì)工具,在失敗后自己恢復(fù)。官方稱,在這項(xiàng)研究的14個(gè)蛋白靶點(diǎn)中,有9個(gè)產(chǎn)生了強(qiáng)候選分子,目前正在進(jìn)一步研究。
![]()
Anthropic還提到,Mythos 5可以穩(wěn)定提出新穎、有吸引力的分子生物學(xué)假設(shè)。在和Opus級模型的盲測對比中,內(nèi)部科學(xué)家大約80%的時(shí)候更偏好Mythos提出的假設(shè),其中一些已經(jīng)進(jìn)入實(shí)驗(yàn)評估。
與此同時(shí),Mythos 5的一個(gè)關(guān)于大腸桿菌蛋白的新機(jī)制的假設(shè),在另一家獨(dú)立研究同一問題的實(shí)驗(yàn)室的研究中得到了證實(shí)。
它甚至還做了一項(xiàng)基因組學(xué)研究。
Anthropic稱,Mythos 5在一周多的時(shí)間里,幾乎自主完成了一項(xiàng)新的基因組學(xué)研究。它整理了橫跨138種動物、數(shù)百萬個(gè)細(xì)胞的單細(xì)胞數(shù)據(jù),并設(shè)計(jì)、訓(xùn)練了一個(gè)定制機(jī)器學(xué)習(xí)模型,用來識別不同物種中執(zhí)行相同角色的細(xì)胞。
更夸張的是,Anthropic稱,Mythos 5訓(xùn)練出的模型性能超過了近期發(fā)表在《Science》上的一個(gè)模型,盡管它的規(guī)模只有后者的百分之一。Anthropic表示,計(jì)劃在未來幾個(gè)月發(fā)表這些結(jié)果。
當(dāng)然,這部分還需要等待論文和外部復(fù)核。但如果只看Anthropic官方給出的信息,Mythos 5在生命科學(xué)里展示的能力已經(jīng)接近科研Agent:能讀問題、用工具、處理數(shù)據(jù)、訓(xùn)練模型、提出假設(shè),并把一項(xiàng)研究推進(jìn)到可以發(fā)表的程度。
而一旦模型可以在藥物設(shè)計(jì)、病毒載體、蛋白設(shè)計(jì)、基因組學(xué)研究這些方向里真正推進(jìn)任務(wù),它就天然具備雙重用途。
可以認(rèn)為,生命科學(xué)這部分不是Fable 5的普通功能演示,而是Mythos 5的能力上限展示。
但它被展示出來,是為了說明Anthropic手里的這套底層模型,已經(jīng)強(qiáng)到了必須通過受信任訪問來分發(fā)。
有意思的是,過去的模型發(fā)布更像是一件技術(shù)產(chǎn)品的事:參數(shù)、跑分、價(jià)格、上下文長度、API名稱。強(qiáng)就是強(qiáng),發(fā)布就是發(fā)布。
但到了Mythos這里,事情開始變得復(fù)雜。同一個(gè)底層模型被分為兩個(gè)版本,普通用戶拿到的是Fable 5,安全研究者和部分生命科學(xué)研究者拿到的是Mythos 5;前者被裝進(jìn)更嚴(yán)格的護(hù)欄里,后者則需要受信任訪問。
模型能力不再只有高低之分,也開始有權(quán)限、場景和責(zé)任之分。
某種意義上來講,可以看作前沿模型商業(yè)化進(jìn)入新階段的信號——越強(qiáng)的模型,越不可能直接扔給所有人。它們會被拆成不同版本,放進(jìn)不同安全邊界,再交給不同類型的用戶。
Anthropic先這么做了,因?yàn)樗鼈兊哪P汀皬?qiáng)到不能完全公開”。未來其它想要講故事的公司,想要證明自己的模型也很強(qiáng),或許也會效仿這種方式。(作者/袁心玥)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.