无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

剛剛,Claude Mythos 5發布!5000萬行代碼1天搞定

0
分享至

衡宇 Jay 發自 凹非寺
量子位 | 公眾號 QbitAI

Anthropic遮遮掩掩兩個月的“神話”Mythos,終于降臨了——

自家有史以來最強悍的大模型旗艦,分兩個版本端上桌:Claude Fable 5與 Claude Mythos 5。



Fable 5是加了防護網版本的Mythos**,面向所有用戶開放。

一旦用戶提問觸發風險分類器(比如試圖讓它寫惡意軟件),系統就會自動降級調用上一代Claude Opus 4.8來回答。

Mythos 5是原汁原味的滿血版“Mythos”,但只給少數受信任用戶使用。

它在網絡安全等領域解除了安全限制,官網稱其“擁有全球最頂尖的網安攻防與生物科研純血能力”。

官方表示,Fable 5和Mythos 5的自主運行時間比以往任何Claude模型都長。



小小嘆個氣?前沿AI,開始進入權限時代了。

而且就在Anthropic鄭重其事地呼吁全部AI研究立刻停止后沒兩天……

不懂Dario怎么也開始走上奧特曼每次為自家新模型、新產品提前營銷造勢的老路,還是陣仗極大的那種。

(我知道A社有自己的道理,但我還是報以一個微笑)。

不過還是有非技術層面讓開發者比較欣慰的消息,這兩款新旗艦的API定價直接把之前的預覽版砍掉了一半以上:

每百萬輸入Token僅需10美元,每百萬輸出Token為50美元。



好了,咱們迅速進入技術相關環節,沖——

雙版本Mythos來了!官方給“Token效率”畫了重點

先說個情況。

官方的發布日志和業內評測中沒有像介紹Fable 5那樣,為Mythos 5開列一長串標準的、公開的 Benchmark跑分榜單(比如 MMLU、GSM8K、SWE-bench 等)。

不過鑒于二者是同一底層模型,兩者其實可以看成同一內核的“鏡像分身”,基礎技術指標完全一致。

所以我們只能先看看目前官方渠道主要公開的Fable 5的表現。



按照Anthropic自己的說法,Claude Fable 5是目前最強的公開Claude,也是Fable系列第一次進入Mythos級能力。

它的優勢主要集中在幾個方向:軟件工程、復雜知識工作、視覺、長上下文、記憶能力,以及生命科學研究。

更關鍵的是,任務越長、越復雜,Fable5相比過去Claude的優勢越明顯——說明Fable5的重點不是單輪問答更漂亮,而是能接住長周期任務。

我們不妨用數據和硬核Demo,來拆解這代神話級模型的統治力:

軟件工程:高難度基準打穿,從“修Bug”到“全自動大軍”

在衡量模型解決真實世界、復雜軟件工程問題能力的SWE-bench Pro評測中,Claude Fable 5飆出了80.3%的高分。

作為對比,競爭對手的頂級主力模型GPT-5.5的得分為58.6%。



在Cognition的Frontier Code評測——這個評測更看重模型能不能完成困難編程任務,同時滿足高質量生產代碼庫的標準——中,Fable 5在中等推理強度下就拿到前沿模型最高分。

FrontierCode該基準極難飽和。

不過即便在“中等努力(Medium effort)”模式下,Fable 5得分也高居所有前沿模型之首。



官方給出的第一個典型案例來自Stripe。

在一個5000萬行Ruby代碼庫中,Fable 5完成了一次全庫遷移。這個工作如果讓一個工程團隊手動做,原本要兩個多月。

Fable 5呢?僅僅用了一天。

此外,在端到端前端開發基準ViBench(Vibe-coding benchmark)上,Fable 5幾乎把基礎開發用例直接打到飽和,實現了真正的“一槍流(One-shot)”生成應用。

原生視覺:不要腳手架,盲打通關《寶可夢》

知名科技媒體VentureBeat在《Anthropic brings Mythos to the masses with Claude Fable 5, its most powerful generally available model ever》一文中透露,在專注于視覺文件推理的基準測試GDPpdf上,Fable 5和Mythos 5在不借助外部工具的條件下拿到了29.8%的成績。

作為對比,Opus 4.8得分為22.5%,GPT-5.5得分為24.9%,Gemini 3.1 Pro得分為16.7%。

Anthropic官方也猜大家看一堆數據很枯燥,于是放出了Fable 5打游戲的Demo,更具直接視覺效果。

此前的Claude模型如果想玩RPG游戲《寶可夢·火紅版》,必須在外部為其配置一套極其復雜的“腳手架”(包括地圖導航援助、內存游戲狀態讀取等)。

現在,Fable 5實現了純粹的“原生視覺盲打”。

僅憑一張張原始的游戲屏幕截圖,在沒有任何地圖外掛的前提下,它完全自主推演、策略規劃,硬生生打通關了整部游戲。

不僅如此,由于其超長序列的專注度,當給它配置了持久化的文件級內存后,它在游玩卡牌肉鴿游戲《殺戮尖塔》(Slay the Spire)時,表現直接飆升了3倍,到達最終星體的概率同樣暴漲3倍。

長上下文和記憶能力重點升級,順手強調了下“Token效率”

長上下文和記憶能力也是這次升級的重點。

Anthropic稱,Fable 5能在百萬級Token的長期任務里保持專注,還能利用自己的筆記改進輸出。

官方拿SlaytheSpire做了測試,給模型接入持久化文件記憶后,Fable5的表現提升幅度是Opus4.8的三倍,到達最終章節的頻率也提升了三倍。

這其實是Agent能力里非常底層的一環。

一個能長時間干活的AI,必須能夠記得自己做過什么、錯過什么、下一步為什么這么做。沒有穩定記憶,自主任務就很容易變成一場大型失憶現場。



為此Anthropic還特別強調了Token效率(這也是這代模型的一個關鍵方向)。

越是能長時間自主工作的模型,越會消耗大量Token。

如果模型一邊很強,一邊很“費話”,成本很快會高到讓企業肉疼。

Fable 5強調Token效率,本質上是在解決Agent化落地里的賬本問題。

金融、法律與運營:首次突破 90% 大關的邏輯黑洞

在考察高級分析推理能力的Hebbia金融基準測試(Finance Benchmark for senior-level reasoning)中,Fable 5拿到了行業最高分。

在長篇文檔推理、復雜的圖表和表格解讀、以及多步驟根因分析上,Fable 5實現了雙位數的跨越式增長。

在量化交易大廠IMC和Optiver的實測中,Fable 5幾乎拿滿了其交易分析評估的全部權重(包括事實檢索、概念推理和期望值計算),且展現出驚人的穩定性——在多次重復運行中,輸出結果的分數完全一致。

數據分析平臺 Hex給出的評價是這樣的:

Fable 5是行業內第一個在我們的核心分析基準(覆蓋極其復雜、長周期分析任務)中突破90%得分大關的模型,比Opus提升了整整10個百分點。
在最刁鉆的提問中,它表現出了人類專家級別的微觀評判力

前沿科研:滿血版Mythos“以小勝大”100倍的模型

在前沿物理學研究上,初創公司VibeCAD和物理研究機構測試表明,Fable 5僅使用了1/3的推理Token,在36小時內產出的物理研究成果,就逼近了GPT-5.5耗時四天才跑出的成績。

以及仍然有點藏著掖著的Myhtos終于在這一板塊現身了。

Anthropic表示,在生物醫藥領域,滿血版的Mythos 5在完全沒有人類協助的情況下,已經可以獨立執行一個生物學家的全部工作流:選擇蛋白質結合位點、自主調度并運行各類生物信息學工具,甚至在遭遇運行失敗時自己 Debug。

設計出的14個蛋白質靶向復合物中,有9個已經進入了實驗室的真實藥物研發管線



Anthropic還強調,Mythos 5“是我們首個能夠持續產生新穎且引人注目的科學假設的模型”。

在與Opus系列模型的盲法直接對比中,科學家在80%的情況下更傾向于Mythos的分子生物學假設,并且已將其中幾個假設推進到實驗驗證階段。

與此同時,Mythos 的一個假設——一種關于大腸桿菌蛋白的新機制——在另一家獨立研究同一問題的實驗室的研究《
A newly identified detoxification system protects uropathogenic Escherichia coli from reactive chlorine species》中得到了證實。

更夸張的是在基因組學研究中,Mythos 5自主工作了一周多,拼湊了138個物種的單細胞數據,并自主設計訓練了一個定制的微型機器學習模型。

這個由AI訓練出來的、體積小了100倍的微型模型,在表現上直接擊敗了前不久剛剛發表在《Science》雜志上的最新科研成果。

呼吁停止AI研究后,“危險能力”似乎被做成產品機制

這次最有意思的地方,應該得是Anthropic給Fable 5套上的防護網。

準確來說,Fable 5背后掛了一組獨立分類器

這些分類器會檢測用戶請求是否涉及網絡安全攻擊、生物和化學風險,以及模型蒸餾。

一旦觸發,Fable 5就會拒絕自己回答,轉而把請求自動轉交給Claude Opus 4.8,并告知用戶發生了降級。

有點意思哈。

過去的大模型在安全這一塊,通常是讓模型拒絕,說什么“抱歉,我無法為你提供幫助”“對不起我不能回答”“對不起我不能理解你的意思”之類balabala。

Fable 5換了一種做法。

它不做單純拒絕了,而是做模型路由。

普通問題由Fable 5處理,一旦被識別到有問題是高風險問題,模型立刻被切到Opus4.8

Anthropic的意思是,Opus4.8本身也是強模型,降級回答的體驗總比直接拒絕要好的吧?~



這套設計實際把能力和安全拆開了。

你日常使用的是Mythos級能力。

但面對一些敏感、攻擊性、企圖越獄等問題時,Anthropic絲滑切換老版本模型為你服務,讓你手里趁手的工具,突然就沒那么趁手了。

(主要防范網絡安全、生化領域和模型蒸餾方面的一些問題)

Anthropic給出了數據——

好消息,超過95%的Fable 5會話不會觸發降級。

也就是說,對于絕大多數寫作、代碼、分析、研究和辦公任務,用戶能拿到的體驗基本接近Mythos 5。

但還有剩下不到5%的請求,會進入更嚴格的安全路徑。

官網表明,高風險領域主要有三類

第一類是網絡安全,第二類是生物和化學,第三類是模型蒸餾。

這套機制背后,其實是前沿模型產品形態的一個變化。

安全不再只是模型回答前的一句免責聲明,也不只是寫在系統卡里的政策描述。

它變成了分類器、模型路由、權限分級、數據留存、紅隊測試共同組成的產品架構。

當然,代價也來了。

Fable 5的分類器調得比較保守,正常請求也可能被誤傷。

比如生物學家研究病毒,安全工程師做授權攻防演練,都可能在合理任務中觸發降級。

Anthropic自己也承認,當前護欄比理想狀態更嚴格,后續會降低誤傷率。

另一個代價是數據留存。

從Fable 5、Mythos 5以及后續同等級模型開始,Anthropic要求Mythos級模型所有流量保留30天,覆蓋第一方和第三方使用場景。

官方強調這些數據不會用于訓練,只用于安全監控,包括識別復雜攻擊、新型越獄和跨請求攻擊。

對普通用戶來說,這可能只是條款里的一行字。

但對企業客戶來說,這就是非常現實的數據治理問題。

想用最強能力,就要接受更高等級的安全審查和數據留存。

不可避免的,前沿模型的成本,也不只體現在API賬單上。

價格方面,Fable5和Mythos5統一定價為每百萬輸入Token10美元、每百萬輸出Token50美元。

確實,相比Claude Mythos Preview便宜不少,但仍然是高價模型

一句話說,Fable5確實強,但不會便宜到可以隨便燒。

這也解釋了為什么Anthropic要同時強調能力、安全和Token效率。

內測AI學者體驗:AI越強,人越像甲方

著名AI學者、沃頓商學院教授埃森·莫里克(Ethan Mollick)在率先拿到測試權限后,撰寫了一篇長文。

其行文邏輯直擊這場技術革命的核心本質——

人類與大模型之間的協作范式,發生了根本性、不可逆的逆轉。

他讓Fable 5做了一個等時圈地圖。

這個任務聽起來不算玄乎,但真做起來非常麻煩。

它要查航班、查鐵路時刻、判斷道路速度,還要處理不同國家、不同交通方式、不同時間成本之間的關系。

Fable 5自己啟動多個代理去查資料,拿到了2200多個具體航班信息,還抓取了TGV、新干線等鐵路數據,以及各國道路速度信息。



最后,它把這些資料整合進一個可用的地圖項目里。

這件事的重點在于Fable 5把一個模糊目標拆成了研究、信息搜集、設計、編碼、驗證等多個環節,并且自己往前推進。

這和過去的大模型體驗差別很大。

于是,莫里克提出了一個深刻的洞察。

在過去,人類使用大模型就像一個“巫師(Wizard)”,你必須手把手地去指導它、駕馭它(Steer),精雕細琢每一句 Prompt,通過不斷的對話提示詞來“念咒”,AI才能勉強變出一個戲法。

而面對Mythos級別的模型,人類正在淪為“贊助人(Patron,這里我感覺翻譯為“甲方”更貼切一些?)”或者“委托人”。

莫里克教授用Fable5工作,感覺已經不像是在操作一個工具,更像是在委托一個小型工作室。



此外,在莫里克的實際測試中,他不再需要工作在最微觀的指令層。

他直接向Fable 5喂進了一個長達15頁、極其復雜的項目設計文檔,然后留下宏觀的需求描述。

接下來的9個多小時里,Fable 5在后臺處于完全自主(Autonomous)的運行狀態。

它自己生出了一個Agent工作流,內部調度多個小Agent分別去搞調研、撰寫大綱、相互校對、推翻錯誤假設、糾錯重來。

人類甚至不需要介入這個工作流半步。

9小時后,一個極高質量的成品直接交付到了莫里克面前。



這就是所謂的“工作室(Studio)”隱喻。

以前,我們用大模型是雇傭了一個臨時的、需要反復溝通的自由職業者;現在,你用Fable 5,等于你用幾美金的Token,瞬間雇傭了一整家好萊塢級別的設計院、或者一個頂尖的科研所。

你不需要關心它在黑盒里做出了多少個微觀決策,你只需要扮演那個在最終成品上簽字的“甲方”。

這種大模型長文本上下文(Context)與自主邏輯的結合,讓Context不再僅僅是一個“內容容納器”,而是徹底沉淀為了一個能自主推演、長時運行的“新型智能操作系統”。

換句話說,AI越像承包方,人類越像需要具備驗收能力的甲方

小插曲,為了更直觀、更有趣地展示,教授還讓它生成了一系列游戲供大家試玩。

這些游戲都是基于Claude Code的一個初始提示,Fable 5需要根據我提供的模糊提示生成一些可行的程序,之后我會給出一些額外的提示,并給予一些鼓勵(例如“做得更好”)或反饋。

由于Claude Code無法生成圖像,所以所有的美術作品或3D對象都是完全通過數學運算生成的,沒有使用任何外部資源。

這里放一個拋硬幣游戲的demo:



提前內測Fable 5后,教授最后表示“最終的成果令人印象深刻”。

但是,尤其是在著手處理更嚴肅的項目時,教授常常覺得使用這個工具既令人愉悅又令人不安

愉悅之處在于,我只需提出要求,它就能實現。
不安之處也在于,我只需提出要求,它就能實現。

的確。

回到Anthropic這次發布。

有的人認為最重要的是Mythos終于半明牌了,有的人認為最重要的是前沿AI產品正在進入新形態。

一個更強的模型上桌了。

但Anthropic先給它系上安全帶,然后才把鑰匙遞給所有人。

有人歡呼,有人焦慮,有人在徹夜調試代碼,只為追上那條不斷向前狂奔、甚至已經開始脫離人類微觀視線的智能曲線。

Three More Things

1、注意窗口期。
從今天到6月22日,Pro、Max、Team和企業版用戶可以免費用Fable 5。

但6月23日起,還想用Fable 5,就得額外買usage credits了。

2、Anthropic說,一旦產能跟上,Fable 5會重新做成訂閱標配。

API和按量付費的企業客戶不受這個節奏影響,今天起照常調用。

參考資料:
[1]https://www.anthropic.com/news/claude-fable-5-mythos-5
[2]https://www.oneusefulthing.org/p/what-it-feels-like-to-work-with-mythos
[3]https://www.biorxiv.org/content/10.64898/2026.03.12.711259v1

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
巴托梅烏:梅西離隊是高層最糟糕的決定之一;說我是最差主席有些好笑

巴托梅烏:梅西離隊是高層最糟糕的決定之一;說我是最差主席有些好笑

懂球帝
2026-06-09 19:53:26
代表國民黨的鄭麗文,最近又在島內上演“語不驚人死不休”的戲碼

代表國民黨的鄭麗文,最近又在島內上演“語不驚人死不休”的戲碼

果媽聊娛樂
2026-06-10 07:30:40
美國專家預言:誰將取代美國?不是中國,答案出人意料

美國專家預言:誰將取代美國?不是中國,答案出人意料

近史談
2026-06-09 16:42:38
廣東女子每周啃一個豬蹄,連續吃了半年,去醫院檢查,結果如何

廣東女子每周啃一個豬蹄,連續吃了半年,去醫院檢查,結果如何

芹姐說生活
2026-06-09 19:08:06
挪威殺瘋了!帶300公斤魚征戰世界杯,英國隊又拿不出手?

挪威殺瘋了!帶300公斤魚征戰世界杯,英國隊又拿不出手?

新歐洲
2026-06-09 19:08:40
閃迪股價漲近8%

閃迪股價漲近8%

每日經濟新聞
2026-06-09 22:08:07
黑龍江挪車糾紛后續:持刀闖倉庫將人捅死,超市老板曝隱情

黑龍江挪車糾紛后續:持刀闖倉庫將人捅死,超市老板曝隱情

奇思妙想草葉君
2026-06-08 18:01:24
虎撲網友曬“骨感美”照,這身材管理太絕了

虎撲網友曬“骨感美”照,這身材管理太絕了

淺遇時光
2026-06-09 06:32:38
五星體育獲得2026美加墨世界杯直播版權

五星體育獲得2026美加墨世界杯直播版權

懂球帝
2026-06-09 17:24:07
重磅!蘇州以舊換新細則出爐!不限套數、區域、比例!還保留原學區…

重磅!蘇州以舊換新細則出爐!不限套數、區域、比例!還保留原學區…

居者
2026-06-09 16:57:23
網傳王健林暗中幫助黃一鳴母女,助力孫女閃閃參與高端走秀并簽約

網傳王健林暗中幫助黃一鳴母女,助力孫女閃閃參與高端走秀并簽約

露珠聊影視
2026-06-10 00:45:10
閑魚被曝公然售賣少女情色寫真,記者8元買到大量10-15歲少女裸體寫真,賣家介紹稱“毛孔、發絲清晰可見”,客服回應:會排查處置

閑魚被曝公然售賣少女情色寫真,記者8元買到大量10-15歲少女裸體寫真,賣家介紹稱“毛孔、發絲清晰可見”,客服回應:會排查處置

芒果都市
2026-06-09 17:59:37
看完釋小龍新片我連聲哀嘆:再這樣下去,連謝苗尾燈都看不到了

看完釋小龍新片我連聲哀嘆:再這樣下去,連謝苗尾燈都看不到了

娛樂圈筆娛君
2026-06-08 18:01:59
以色列發動大規模空襲!戰況激烈,聯合國:3天內記錄到超2100起交火

以色列發動大規模空襲!戰況激烈,聯合國:3天內記錄到超2100起交火

每日經濟新聞
2026-06-09 13:46:21
中方訪朝迎來最佳時機,一旦解鎖關鍵通道,東北從此不靠借港出海

中方訪朝迎來最佳時機,一旦解鎖關鍵通道,東北從此不靠借港出海

南宗歷史
2026-06-08 22:36:47
中國男籃又添勁敵啊!湖人球員加盟!

中國男籃又添勁敵啊!湖人球員加盟!

籃球大圖
2026-06-09 22:57:00
國足0-0悶平泰國!楊希閃耀全場,5人不及格,大概率被邵佳一棄用

國足0-0悶平泰國!楊希閃耀全場,5人不及格,大概率被邵佳一棄用

小火箭愛體育
2026-06-09 23:04:29
保姆珍姐在何家待了整整二十八年,被何猷君視作親奶奶,如今還幫奚夢瑤照看孩子

保姆珍姐在何家待了整整二十八年,被何猷君視作親奶奶,如今還幫奚夢瑤照看孩子

阿廢冷眼觀察所
2026-06-10 00:53:56
辦世界杯竟成燙手山芋,2030年僅兩個申辦國,為啥沒人搶?

辦世界杯竟成燙手山芋,2030年僅兩個申辦國,為啥沒人搶?

嘆為觀止易
2026-06-08 14:22:53
生育率的“回旋鏢”還是呼啦啦來了

生育率的“回旋鏢”還是呼啦啦來了

新浪財經
2026-05-18 07:42:35
2026-06-10 09:11:03
量子位 incentive-icons
量子位
追蹤人工智能動態
12769文章數 176489關注度
往期回顧 全部

科技要聞

一文看懂蘋果WWDC26:庫克告別,Siri重生

頭條要聞

國際宇航科學院16年來首次更新文件:不要回復外星人

頭條要聞

國際宇航科學院16年來首次更新文件:不要回復外星人

體育要聞

誰會花400萬,去看一場尼克斯的比賽?

娛樂要聞

吳文忻因癌癥惡化離世,女兒哭泣不舍

財經要聞

大盤股IPO終結行情盛宴?背后真相來了

汽車要聞

賽豆科技AIVA品牌發布 全系產品覆蓋20萬級市場/量產車年內亮相

態度原創

手機
旅游
本地
健康
公開課

手機要聞

OPPO Reno 16國際版現身跑分庫,換用驍龍7 Gen 4處理器

旅游要聞

馬來西亞旅行家:我在中國探尋旅行的真諦

本地新聞

用楊柳青年畫的方式,打開天津

粽子、湯圓……常見粘食大盤點!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版