網易首頁 > 網易號 > 正文申請入駐

號稱「最強模型」的 Mythos 正式發布，但 Anthropic 還給它裝了個「護欄」

2026-06-10 02:40:40　來源: 極客公園

北京舉報

分享至

最強模型，但會自動「熄火」。

作者｜張勇毅

望眼欲穿近兩個月、在社交媒體上占盡風頭的 Anthropic Mythos 模型，今天終于正式發布了。

兩個月前,Anthropic 說自己最強的那一類模型太危險、不能公開,只把它發給了一百多家機構。

今天,這類能力對所有人開放了：公開發布的版本叫 Claude Fable 5;那個真正「不設限」的 Mythos 5,依然只留給少數合作伙伴。換句話說,你能用上的最強 Claude,是一臺被加了邊界的 Mythos。

而這道護欄的設計,比「公開發布」四個字本身更值得說:它保證安全的方式,不是拒絕你。

Anthropic 這次一口氣放出兩個模型:Claude Fable 5 和 Claude Mythos 5。它們其實是同一個底層模型,差別只有一處——安全護欄。

Fable 5 套了一整套安全分類器,面向所有用戶;Mythos 5 拆掉了其中一部分限制,只給 Project Glasswing 里的網絡安全合作伙伴。

說白了,Fable 5 就是一臺「帶護欄的 Mythos」。

和 Anthropic 一貫的風格一樣，模型名字本身也藏了點心思。

據 Anthropic 解釋,Fable 來自拉丁語 fabula,意思是「被講述的故事」,和希臘語里的 mythos 同源。兩個名字指向同一件東西,區別只在于,其中一個被加上了邊界。

把時間線往回拉一下。今年四月,Anthropic 啟動 Project Glasswing,第一次放出 Mythos 級模型(Claude Mythos Preview)時,只給了一小撮網絡安全和關鍵基礎設施機構——到上周,這份名單擴展到十幾個國家、一百多家機構。當時官方的說法是,這類模型一旦落到錯誤的人手里,能造成嚴重破壞,所以不能公開。

兩個月,從「太危險不能發」到「所有人都能用」。這中間發生的事,才是這次發布真正的主角。

大多數 AI 的安全機制,是「拒絕」——你問一個它不該答的問題,它告訴你「抱歉,我不能幫你」。

Fable 5 換了個思路。安全不是靠它學會拒絕,而是在危險時把它換掉。

具體來說,Fable 5 背后掛著一組獨立的分類器。

當這組分類器判斷你的請求落在三個高風險領域——網絡攻擊、生物化學武器、以及模型蒸餾(指把一個模型的能力「偷」出來,去訓練自己的模型)——它不會讓 Fable 5 來回答,而是悄悄把這道題轉交給 Opus 4.8,同時告訴你:剛才發生了一次降級。

這個設計有意思的地方在于,它把「安全」和「能力」拆成了兩件事。你買的是 Mythos 級別的能力,但在最危險的那三個領域,你其實是在跟 Opus 說話。Anthropic 自己的說法是,降級到 Opus 4.8 的體驗,總比被 Fable 直接拒絕要好——畢竟 Opus 4.8 本身也是個相當強的模型。

Anthropic 給出的數據是,超過 95% 的對話根本不會觸發降級。換句話說,對絕大多數人來說,你用到的 Fable 5,和合作伙伴手里那個「完全體」Mythos 5,體驗幾乎沒有區別。

那這套護欄結實嗎?Anthropic 說,他們做了超過一千小時的外部紅隊測試,沒有人找到能繞過它的「通用越獄」方法(指一種能讓模型徹底無視所有安全限制的萬能手段)。

當然他們也留了余地:完全杜絕越獄大概是不可能的,目標只是讓任何漏洞都「慢到、貴到」來不及被大規模利用。

但這套機制有代價,而且 Anthropic 自己先說了出來:分類器現在調得偏嚴,會誤傷正常請求。一個研究病毒的生物學家,一個做滲透測試的安全工程師,都可能在合理的工作里被莫名其妙地「降級」。官方承認這會讓一些用戶感到煩躁,承諾后續慢慢收窄、降低誤報。

我把這件事想了一會兒,覺得它其實是一個挺聰明、也挺無奈的折中。聰明在于,它沒有在「發」和「不發」之間二選一,而是在能力上切了一刀;無奈在于,這一刀切得并不精準——為了趕在出事之前先上線,Anthropic 寧可錯殺,不肯漏過。

強到危險,才配得上這套護欄

聊了半天安全,你可能會問:它到底強到什么程度,值得這么如臨大敵?

基準測試我本來想跳過——跑分這東西看多了會麻木,何況 Anthropic 列了一長串,幾乎項項第一。

最唬人的一個來自 Stripe。據 Anthropic 披露,Stripe 在一個五千萬行的 Ruby 代碼庫上,用 Fable 5 做了一次全庫遷移,一天完成——而這件事,原本要一整個團隊手工干兩個多月。更關鍵的是效率:在 Cognition 的 FrontierCode 編程測試里,Fable 5 在「中等算力消耗」下就拿到了最高分,Token 效率比以前的 Claude 明顯更好。

這也解釋了為什么 Anthropic 反復強調 Token 效率——一個能連續自主工作很久、動輒消耗上百萬 Token 的模型,如果還很「廢話」,成本會高到沒人用得起。

視覺這塊的進步更直觀。以前的 Claude 玩寶可夢火紅版,得靠一整套輔助工具鏈才能磕磕絆絆地推進;Fable 5 只用最基礎的視覺接口,就自己通關了。它還能僅憑幾張截圖,把一個 Web 應用的源代碼還原出來。

Anthropic 內部的蛋白質設計專家,用 Mythos 5 把藥物設計流程中的部分環節,加速了大約十倍。第二個更夸張:在一項基因組學研究里,Mythos 5 在幾乎完全自主的狀態下連續工作了一周多,自己訓練出了一個機器學習模型——這個模型的表現,超過了發表在《Science》上的同類模型,而它的體量,只有后者的百分之一。

當一個模型能獨立做完一周的科研,還做得比人類發在頂刊上的成果更好,「它會不會被用來設計病毒」就不再是杞人憂天。這正是 Anthropic 給生物化學領域單獨上鎖的原因——同一種能力,在研究者手里是解藥,換一雙手可能就是別的東西。

能力和危險,在這里是同一件事的兩面。護欄不是因為這個模型不行才加的,恰恰是因為它太行了。

可以看出，Anthropic 把 Mythos 形容成一個需要全程看管的危險品。但官方口徑之外,也有不一樣的聲音。

一位 ID 為 @zekramu 的 X 用戶,自稱參與了 Mythos 的企業試點,最近發帖分享了用整整一天之后的感受——他的描述,和發布會上的敘事并不完全一致。

據他說,Mythos 確實強,尤其在安全研究類任務上,明顯比 Opus 和 GPT-5.5 的最高配更能打,像是專門沖著這類活兒調過的。但「強」和「威脅人類」是兩碼事。他舉了個細節:這個被官方說得神乎其神的模型,在他們公司一套基于 Bazel(一種代碼構建工具)、又改了不少自定義邏輯的流程面前卡了殼,最后還得他先把代碼編譯好,再讓模型去跑。

更耐人尋味的是護欄本身。據他描述,Anthropic 隨模型一起發來的,不是大家熟悉的 Claude Code,而是一套專門用來「防止模型逃逸」的運行環境——所謂 Project Glasswing,在他看來很大程度上就是這套沙箱。但他覺得這套環境做得相當粗糙,甚至懷疑其中一部分限制根本沒真正生效;他還稱自己繞開了官方設下的邊界,在沙箱之外跑過這個模型。

至于戰績,他說 Mythos 在他們的產品里揪出了大量此前沒被發現的安全漏洞,多到足以讓團隊重新掂量自己的安全策略。

他的結論很值得玩味:這模型在安全攻防上確實有兩把刷子,但在他眼里,它更像一個極其昂貴、極其專精的工具,而不是 Anthropic 暗示的那種「懸在所有人頭頂」的存在。

說回普通人最關心的事:多少錢,什么時候能用。

價格上,Fable 5 和 Mythos 5 的 API 定價是每百萬輸入 Token 10 美元、輸出 50 美元。橫向比一下就有意思了:比起 Mythos Preview 的 25/125 美元,降了六成;但比 Opus 4.8 的 5/25 美元,整整貴了一倍;和 OpenAI 的 GPT-5.5(5/30 美元)相比,輸入貴一倍,輸出貴約六成七。

換句話說,它是迄今最強的 Claude,也是最貴的 Claude 模型之一。強,但不便宜。

前面提到的 @zekramu 也算個旁證:據他估算,光是企業試點階段的投入,就到了數百萬美元級別;「太貴」是他反復念叨的一句話。

訂閱用戶還得留意一個時間窗口。從今天到 6 月 22 日,Pro、Max、Team 和企業版用戶可以免費用 Fable 5;6 月 23 日起,繼續用就得額外買 usage credits 了。

Anthropic 說,等產能跟上,會把 Fable 5 重新做成訂閱標配——但沒給具體時間。API 和按量付費的企業客戶不受這個節奏影響,今天起照常調用。

這個略顯別扭的「先免費、再收費、以后再說」,其實透露了一個信號:產能不夠。Anthropic 自己也承認,預計 Fable 5 的需求會「非常高、很難預測」。一個對所有人開放的最強模型,先得過算力這一關。

而這次發布里,真正容易被劃過去、卻最值得停下來看的,是另一條政策。

從 Fable 5 開始,所有 Mythos 級模型的流量都會被強制保留 30 天,覆蓋第一方和第三方平臺。

Anthropic 承諾不拿這些數據訓練模型,只用于安全監控,比如識別新型越獄、以及那種分散在很多次請求里、單看每一條都正常的復雜攻擊。為此他們也加了新的隱私保護:記錄每一次人工訪問、30 天后基本全部刪除。

聽上去合情合理。但對那些當初正是沖著「零數據保留」才選擇 Anthropic 的企業客戶來說,這是一個需要重新評估的變化。

你用最強模型的代價,不只是更貴的賬單,還包括:你的數據,會在 Anthropic 的服務器上多待一個月。

安全和隱私,在這里被擺上了同一張天平。而 Anthropic 給出的答案是:為了防住前所未有的攻擊,得先把所有人的流量都看上 30 天。這筆賬劃不劃算,恐怕每家公司得自己算。

把這些放在一起看,Fable 5 真正的新意,也許不在它有多強,而在 Anthropic 趟出了一條新路——怎么把一個危險到不敢公開的能力,拆成一個所有人都能用的產品。

辦法是:用分類器在能力上切一刀,用降級代替拒絕,再用 30 天的留存,當作兜底的監控網。

它不完美。會誤傷,會變貴,會讓一部分人對自己的數據多一層顧慮。但它至少回答了一個所有前沿實驗室遲早都要面對的問題:當你手里的東西強到足以傷人,你是把它鎖進只有少數人能進的房間,還是給它裝上一道足夠結實的護欄,再交到所有人手里?

Anthropic 選了后者。

至于這道護欄到底夠不夠結實——這一次,替它做壓力測試的,不再是那一百多家機構,而是所有人。

*頭圖來源：ClaudeDEV

本文為極客公園原創文章，轉載請聯系極客君微信 geekparkGO

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.