![]()
最強模型,但會自動「熄火」。
作者|張勇毅
望眼欲穿近兩個月、在社交媒體上占盡風頭的 Anthropic Mythos 模型,今天終于正式發布了。
兩個月前,Anthropic 說自己最強的那一類模型太危險、不能公開,只把它發給了一百多家機構。
今天,這類能力對所有人開放了:公開發布的版本叫 Claude Fable 5;那個真正「不設限」的 Mythos 5,依然只留給少數合作伙伴。換句話說,你能用上的最強 Claude,是一臺被加了邊界的 Mythos。
![]()
而這道護欄的設計,比「公開發布」四個字本身更值得說:它保證安全的方式,不是拒絕你。
Anthropic 這次一口氣放出兩個模型:Claude Fable 5 和 Claude Mythos 5。它們其實是同一個底層模型,差別只有一處——安全護欄。
Fable 5 套了一整套安全分類器,面向所有用戶;Mythos 5 拆掉了其中一部分限制,只給 Project Glasswing 里的網絡安全合作伙伴。
說白了,Fable 5 就是一臺「帶護欄的 Mythos」。
和 Anthropic 一貫的風格一樣,模型名字本身也藏了點心思。
據 Anthropic 解釋,Fable 來自拉丁語 fabula,意思是「被講述的故事」,和希臘語里的 mythos 同源。兩個名字指向同一件東西,區別只在于,其中一個被加上了邊界。
把時間線往回拉一下。今年四月,Anthropic 啟動 Project Glasswing,第一次放出 Mythos 級模型(Claude Mythos Preview)時,只給了一小撮網絡安全和關鍵基礎設施機構——到上周,這份名單擴展到十幾個國家、一百多家機構。當時官方的說法是,這類模型一旦落到錯誤的人手里,能造成嚴重破壞,所以不能公開。
![]()
兩個月,從「太危險不能發」到「所有人都能用」。這中間發生的事,才是這次發布真正的主角。
大多數 AI 的安全機制,是「拒絕」——你問一個它不該答的問題,它告訴你「抱歉,我不能幫你」。
Fable 5 換了個思路。安全不是靠它學會拒絕,而是在危險時把它換掉。
具體來說,Fable 5 背后掛著一組獨立的分類器。
當這組分類器判斷你的請求落在三個高風險領域——網絡攻擊、生物化學武器、以及模型蒸餾(指把一個模型的能力「偷」出來,去訓練自己的模型)——它不會讓 Fable 5 來回答,而是悄悄把這道題轉交給 Opus 4.8,同時告訴你:剛才發生了一次降級。
這個設計有意思的地方在于,它把「安全」和「能力」拆成了兩件事。你買的是 Mythos 級別的能力,但在最危險的那三個領域,你其實是在跟 Opus 說話。Anthropic 自己的說法是,降級到 Opus 4.8 的體驗,總比被 Fable 直接拒絕要好——畢竟 Opus 4.8 本身也是個相當強的模型。
![]()
Anthropic 給出的數據是,超過 95% 的對話根本不會觸發降級。換句話說,對絕大多數人來說,你用到的 Fable 5,和合作伙伴手里那個「完全體」Mythos 5,體驗幾乎沒有區別。
那這套護欄結實嗎?Anthropic 說,他們做了超過一千小時的外部紅隊測試,沒有人找到能繞過它的「通用越獄」方法(指一種能讓模型徹底無視所有安全限制的萬能手段)。
當然他們也留了余地:完全杜絕越獄大概是不可能的,目標只是讓任何漏洞都「慢到、貴到」來不及被大規模利用。
但這套機制有代價,而且 Anthropic 自己先說了出來:分類器現在調得偏嚴,會誤傷正常請求。一個研究病毒的生物學家,一個做滲透測試的安全工程師,都可能在合理的工作里被莫名其妙地「降級」。官方承認這會讓一些用戶感到煩躁,承諾后續慢慢收窄、降低誤報。
我把這件事想了一會兒,覺得它其實是一個挺聰明、也挺無奈的折中。聰明在于,它沒有在「發」和「不發」之間二選一,而是在能力上切了一刀;無奈在于,這一刀切得并不精準——為了趕在出事之前先上線,Anthropic 寧可錯殺,不肯漏過。
強到危險,才配得上這套護欄
聊了半天安全,你可能會問:它到底強到什么程度,值得這么如臨大敵?
基準測試我本來想跳過——跑分這東西看多了會麻木,何況 Anthropic 列了一長串,幾乎項項第一。
最唬人的一個來自 Stripe。據 Anthropic 披露,Stripe 在一個五千萬行的 Ruby 代碼庫上,用 Fable 5 做了一次全庫遷移,一天完成——而這件事,原本要一整個團隊手工干兩個多月。更關鍵的是效率:在 Cognition 的 FrontierCode 編程測試里,Fable 5 在「中等算力消耗」下就拿到了最高分,Token 效率比以前的 Claude 明顯更好。
這也解釋了為什么 Anthropic 反復強調 Token 效率——一個能連續自主工作很久、動輒消耗上百萬 Token 的模型,如果還很「廢話」,成本會高到沒人用得起。
視覺這塊的進步更直觀。以前的 Claude 玩寶可夢火紅版,得靠一整套輔助工具鏈才能磕磕絆絆地推進;Fable 5 只用最基礎的視覺接口,就自己通關了。它還能僅憑幾張截圖,把一個 Web 應用的源代碼還原出來。
Anthropic 內部的蛋白質設計專家,用 Mythos 5 把藥物設計流程中的部分環節,加速了大約十倍。第二個更夸張:在一項基因組學研究里,Mythos 5 在幾乎完全自主的狀態下連續工作了一周多,自己訓練出了一個機器學習模型——這個模型的表現,超過了發表在《Science》上的同類模型,而它的體量,只有后者的百分之一。
當一個模型能獨立做完一周的科研,還做得比人類發在頂刊上的成果更好,「它會不會被用來設計病毒」就不再是杞人憂天。這正是 Anthropic 給生物化學領域單獨上鎖的原因——同一種能力,在研究者手里是解藥,換一雙手可能就是別的東西。
![]()
能力和危險,在這里是同一件事的兩面。護欄不是因為這個模型不行才加的,恰恰是因為它太行了。
可以看出,Anthropic 把 Mythos 形容成一個需要全程看管的危險品。但官方口徑之外,也有不一樣的聲音。
一位 ID 為 @zekramu 的 X 用戶,自稱參與了 Mythos 的企業試點,最近發帖分享了用整整一天之后的感受——他的描述,和發布會上的敘事并不完全一致。
據他說,Mythos 確實強,尤其在安全研究類任務上,明顯比 Opus 和 GPT-5.5 的最高配更能打,像是專門沖著這類活兒調過的。但「強」和「威脅人類」是兩碼事。他舉了個細節:這個被官方說得神乎其神的模型,在他們公司一套基于 Bazel(一種代碼構建工具)、又改了不少自定義邏輯的流程面前卡了殼,最后還得他先把代碼編譯好,再讓模型去跑。
![]()
更耐人尋味的是護欄本身。據他描述,Anthropic 隨模型一起發來的,不是大家熟悉的 Claude Code,而是一套專門用來「防止模型逃逸」的運行環境——所謂 Project Glasswing,在他看來很大程度上就是這套沙箱。但他覺得這套環境做得相當粗糙,甚至懷疑其中一部分限制根本沒真正生效;他還稱自己繞開了官方設下的邊界,在沙箱之外跑過這個模型。
至于戰績,他說 Mythos 在他們的產品里揪出了大量此前沒被發現的安全漏洞,多到足以讓團隊重新掂量自己的安全策略。
他的結論很值得玩味:這模型在安全攻防上確實有兩把刷子,但在他眼里,它更像一個極其昂貴、極其專精的工具,而不是 Anthropic 暗示的那種「懸在所有人頭頂」的存在。
說回普通人最關心的事:多少錢,什么時候能用。
價格上,Fable 5 和 Mythos 5 的 API 定價是每百萬輸入 Token 10 美元、輸出 50 美元。橫向比一下就有意思了:比起 Mythos Preview 的 25/125 美元,降了六成;但比 Opus 4.8 的 5/25 美元,整整貴了一倍;和 OpenAI 的 GPT-5.5(5/30 美元)相比,輸入貴一倍,輸出貴約六成七。
![]()
換句話說,它是迄今最強的 Claude,也是最貴的 Claude 模型之一。強,但不便宜。
前面提到的 @zekramu 也算個旁證:據他估算,光是企業試點階段的投入,就到了數百萬美元級別;「太貴」是他反復念叨的一句話。
![]()
訂閱用戶還得留意一個時間窗口。從今天到 6 月 22 日,Pro、Max、Team 和企業版用戶可以免費用 Fable 5;6 月 23 日起,繼續用就得額外買 usage credits 了。
Anthropic 說,等產能跟上,會把 Fable 5 重新做成訂閱標配——但沒給具體時間。API 和按量付費的企業客戶不受這個節奏影響,今天起照常調用。
這個略顯別扭的「先免費、再收費、以后再說」,其實透露了一個信號:產能不夠。Anthropic 自己也承認,預計 Fable 5 的需求會「非常高、很難預測」。一個對所有人開放的最強模型,先得過算力這一關。
而這次發布里,真正容易被劃過去、卻最值得停下來看的,是另一條政策。
從 Fable 5 開始,所有 Mythos 級模型的流量都會被強制保留 30 天,覆蓋第一方和第三方平臺。
Anthropic 承諾不拿這些數據訓練模型,只用于安全監控,比如識別新型越獄、以及那種分散在很多次請求里、單看每一條都正常的復雜攻擊。為此他們也加了新的隱私保護:記錄每一次人工訪問、30 天后基本全部刪除。
聽上去合情合理。但對那些當初正是沖著「零數據保留」才選擇 Anthropic 的企業客戶來說,這是一個需要重新評估的變化。
你用最強模型的代價,不只是更貴的賬單,還包括:你的數據,會在 Anthropic 的服務器上多待一個月。
安全和隱私,在這里被擺上了同一張天平。而 Anthropic 給出的答案是:為了防住前所未有的攻擊,得先把所有人的流量都看上 30 天。這筆賬劃不劃算,恐怕每家公司得自己算。
把這些放在一起看,Fable 5 真正的新意,也許不在它有多強,而在 Anthropic 趟出了一條新路——怎么把一個危險到不敢公開的能力,拆成一個所有人都能用的產品。
辦法是:用分類器在能力上切一刀,用降級代替拒絕,再用 30 天的留存,當作兜底的監控網。
它不完美。會誤傷,會變貴,會讓一部分人對自己的數據多一層顧慮。但它至少回答了一個所有前沿實驗室遲早都要面對的問題:當你手里的東西強到足以傷人,你是把它鎖進只有少數人能進的房間,還是給它裝上一道足夠結實的護欄,再交到所有人手里?
Anthropic 選了后者。
![]()
至于這道護欄到底夠不夠結實——這一次,替它做壓力測試的,不再是那一百多家機構,而是所有人。
*頭圖來源:ClaudeDEV
本文為極客公園原創文章,轉載請聯系極客君微信 geekparkGO
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.