網易首頁 > 網易號 > 正文申請入駐

被叫停的Fable 5，和剎不住車的AI

2026-06-15 12:03:15　來源: 動察Beating

北京舉報

分享至

題圖：《AI BUBBLE》Beeple

文｜Sleepy

現在這些 AI 公司，它們嘴上最警惕的那個東西，往往就是它們手上正在拼命造的那個東西。

開會談風險，他們談得比誰都懇切，說這技術跑得太快，總得有人管管。會一散，模型照常發布，一個比一個強，時間表一個比一個緊。

同一撥人，同一張嘴，上午警告，下午加速。你要說他們是裝的，又不像，可那臺滾滾向前的機器也是真的，一天都沒停下來過，而且越跑越快。

Anthropic 最新發布的模型 Fable 5 就活了三天。

6 月 9 日上線，6 月 12 日被叫停。那天下午 Anthropic 接到美國政府電話，給了 90 分鐘。傍晚五點二十一分，正式指令到達，一切外國國民不論身在何處都不能繼續使用這個模型了，連 Anthropic 自己的外籍員工都不行。理由是國家安全。

國家安全這四個字，落到一個模型身上，聽著有點重。可它落得下來，是因為 Fable 不簡單。這模型是 Anthropic 一直沒放出來的 Mythos 的「安全版本」，通過一層安全護欄確保人們無法用它來進行網絡攻擊、科學研究等可能造成嚴重后果的事情。但 Amazon 卻向美國政府提交了一份報告，說有人能夠越獄，直接通過 Fable 調用 Mythos 模型，美國政府擔心的就是這一點，于是果斷重拳出擊。

Anthropic 大概是全世界最認真對待 AI 風險的公司。但無奈這兩年模型能力成長得太快了，整條賽道只認一個方向，往前。

Anthropic 比同行更早開始提醒大家如果這樣下去可能會有技術失控的風險，甚至主動說過，政府應該有權攔住危險的模型。

沒想到美國政府真動手那天，第一個被攔住的是它自家的模型。

Amazon 提示了風險，美國政府要護住國家，Anthropic 在做它認定該做的安全防護工作。每個人都盡了責，合起來卻沒迎來一個圓滿的結果。

這看著像終于有人給行業踩了腳剎車，其實不是。一個模型上線三天就被一道命令叫停，恰恰說明沒人肯自己慢下來，才輪到外頭動手。要是公司、安全研究者、客戶和美國政府之間真有一套坐下來一起減速的辦法，事情走不到國家安全一刀切這一步。何況這一刀切下去，停的只有 Anthropic 一家，別人都還在跑。

Fable 這三天不是行業開始減速的證據，是沒人能讓它好好減速的證據。

剎車也能成為競爭力

Fable 5 從一開始就是個折中的產物。

Anthropic 手里真正鋒利的模型是 Mythos。它沒有公開就是因為能力太強了。2026 年 4 月，公司通過 Project Glasswing 把 Mythos 的預覽版交給一批安全機構，讓他們拿去找漏洞。

找漏洞這件事，本來就難分善惡。同一個能力，找出來是為了把洞補上，還是為了順著洞鉆進去，取決于擁有這個能力的是誰。

可 Anthropic 終究也在這個每天都加速一點的賽道上。到了 6 月，它還是把這類能力推向了公眾。Fable 是 Mythos 的安全版本，高風險的請求會退回到更受限的 Opus 4.8，上線前做過紅隊測試，流量留存三十天，方便發現有人越獄。它同時還是一件商品，有定價，有客戶評測，有試用期，要賣錢，要在投資人眼里好看。

安全做成競爭力，這本身就是個擰巴的事。競爭力的意思是跑得比別人快，安全的意思是別跑太快。Anthropic 想讓這兩件事同時成立，可怎么同時成立，它自己到今天大概也沒太想明白。

創始人 Dario Amodei 做過 OpenAI 的研究副總裁，Anthropic 的一批創始成員也是從 OpenAI 出來的。他們見過模型一代代變強時人有多興奮，也知道那股興奮底下壓著什么。

OpenAI 后來的事可以拿來做參照。Altman 被解雇，五天后又回來，反過來把董事會重組了。Superalignment 團隊成立時說四年解決安全問題，可不到一年就解散了。

Anthropic 是那場風波之后長出來的另一個答案。它說，強大的模型我們也要造，但要把剎車寫進制度里。負責任擴展政策到 2026 年已經更新到 3.0，按安全等級給模型分級。他們說，技術在指數式地飛速發展，定規矩的世界還沒追上來，所以政府應該有權攔住危險的部署。

一邊自己造模型，一邊主動說政府該有權攔模型。這背后得有一種信念，你得相信那只大手會謹慎地用權，會走程序。這種立場，我原先是有幾分敬重的。可 Fable 的三天，說明了這份信念有多不靠譜。

今年年初，Anthropic 就和五角大樓為 Claude 的軍事用途吵過一架。它做了 Claude Gov 給美國政府客戶用，但拒絕大規模的國內監控，也拒絕沒人盯著的致命自主武器。

在它看來，這是責任的邊界。在國家安全那套體系看來，邊界本身就是麻煩，因為邊界意味著你不肯完全服從。

Anthropic 說的安全，是不要失控。國家安全體系說的安全，是一切都能掌控。

連剎車是什么都談不攏，誰還談得上證明自己擔得起責任。Anthropic 很快發現自己證明不了，因為光靠自己不行。

不能停，也不敢停

6 月初，Anthropic 提了一個想法，前沿實驗室也許得協調著一起放慢，甚至一起暫停，給社會和政策留出追上來的時間。

協調。

為什么非得協調。因為一家公司自己慢下來，世界不會因此更安全。Anthropic 停了，OpenAI 不一定停，Google 不一定停，資本市場絕不會停。

所以一個人單方面克制，在這種局面里算不上什么美德。先停下來的那個，不會被記住，只會被頂替。

Anthropic 的問題，從來不是要不要負責。它很清楚自己要負責。真正的問題是，在別人未必負責的時候，一個人到底能負到哪一步。

過去的工業事故再復雜，總歸能找到一個相對清楚的源頭。可前沿 AI 不是這樣。一個模型的能力，來自算力，來自論文，來自開源社區，來自投資人催著增長，也來自國家想要技術上的優勢。每一塊都能撇清自己，說做決定的不是我。可這些塊拼到一起，就把世界推到了今天這一步。

責任拆散了，加速度還能保持住。

Anthropic 一邊在政策文件里寫 AI 跑得太快、治理跟不上，一邊發布新模型。

我并不是想說 Anthropic 是虛偽的。Anthropic 早就不是那個靠理想主義就能活下去的小實驗室了。它得跟 OpenAI、Google、xAI 搶，得應付融資和 IPO 的預期。硅谷嘴上都很敬重安全，可真到掏錢下注的時候，看的還是誰的模型更強。

所以它只能把事情拆成兩半。自己能做的，先做起來。需要整個行業一起做的，另外列出來，等別人。

務實，也無奈。

Fable 就生在這條夾縫里。車停不下來，那就給車裝一套更復雜的剎車片。夾縫里逼出來的東西，注定兩頭都不討好。

站在中間

Fable 上線之后，最先不滿意的不是美國政府，是做安全的那批人。

IBM X-Force 的研究者 Chompie 說，Fable 會拒掉一大堆只是沾點邊的安全請求，有時候讓它讀一篇博客都能觸發。

安全護欄想分辨的是意圖，可模型眼前只有語言和上下文。它分不清你掏出工具是要修門還是撬鎖，索性把兩種人一起攔下。

兩天之后，一份報告遞進了美國政府的房間，從那一刻起，這件事就不再是 Anthropic 自己評判自己的安全設計了。

Anthropic 反復強調一個時間差。發布之前，它幾次知會過美國政府，美國政府沒反對，甚至參與過發布前的測試，公司是拿到了部署許可的。三天之后，同一套系統忽然告訴它必須下架。

Anthropic 說，美國政府始終沒給出具體的細節。它自己看過演示，覺得那不過是幾個已知的、不算嚴重的漏洞，換別的公開模型一樣做得到。一直到聲明發出，美國政府拿出來的也只是口頭上的說法。

這個模型，開發者不滿意，美國政府也覺得不滿意。Anthropic 站在中間，里外不是人。

Fable 這件事的背后是一整條不信任鏈的運行使然。一圈轉下來，每一環都在防著上一環。到最后，社會也很難再相信，這里頭還有誰真能把責任擔起來。

e/acc 是一種氣候

這個問題難就難在，每一方都覺得自己在負責，而且都說得通。每個人手里，都攥著一份局部的正當。

可怕的就在這兒。每個人都只為自己那一小塊負責，加起來，卻沒有誰為整件事負責。責任被切成了碎片。公司內控，模型評測，出口管制，客戶需求，國家競爭，投資回報，每一片都映出一點真的東西，沒有哪一片映得出全部。

當連定義都統一不了，所有人唯一不會爭的方向，就只剩一個「快」。

Effective accelerationism，縮寫 e/acc，這幾年成了一套挺鮮明的技術樂觀主義。把技術往快里推，不用管監管、社會結構和倫理，相信進步能解決掉那些大問題。

不是每家公司都自稱 e/acc，Anthropic 就更不會。可一種主張，從來不需要所有人認可就改變大環境。

能力上的競賽，燒不完的算力，融資的時間表，國家之間的較勁，軍方的需求，開發者對更強工具的饑渴。這些東西合在一起，就成了一種氣候。有人不喜歡這種氣候，可也得在里面過日子，跟所有人一樣。

強如 Anthropic，是這個加速時代里少數幾個反復念叨剎車的人，到頭來還是得先證明自己跑得夠快。

技術加速不需要一個壞人，它只需要每一個好人都覺得自己不能第一個停下來。

剎車一直都在

Fable 這件事就是把剎車交出去的代價。你盼著公權力介入，是因為行業的自律不夠。可公權力不一定按你期待的方式運轉。國家安全這臺機器最熟練的動作不是協商，是封鎖、許可和例外。

AI 早就不是一件能畫清邊界的技術了。當一個前沿模型同時嵌進商業、科研、國防和基礎設施，還有誰有能力決定它不該被怎樣用。

所有人都知道速度太快。可速度本身，已經成了活下去的條件。

一百多年前，也有過一次沒人敢叫停的加速。

1914 年 8 月 1 日傍晚五點，德皇威廉二世下令全軍總動員。命令剛發出去幾分鐘，倫敦來了一封電報，說只要德國不打法國，英國就能讓法國置身事外。德皇大喜，他本來最怕兩線作戰，這下好了，全部兵力都能調去東邊對付俄國。他轉頭對總參謀長小毛奇說，那我們就只往東打。

小毛奇說，辦不到。

他給的理由是，一支上百萬人的軍隊，怎么開拔、走哪條鐵路、幾點幾分到哪個站臺，全按計劃排死了。這套時刻表是用整整一年磨出來的，磨好之后，一個字都改不了。

后來很多歷史學家都講過這個故事。講的人多半把它當成一個關于機器的寓言，說現代戰爭的機器精密到了這個地步，連開機器的人都按不住。

可再后來，人們又翻出一件事。那套時刻表，其實是改得動的。鐵路部門每年都演練怎么臨時改線、改時間，東線的方案也一直備著。火車真要掉頭，掉得過來。

也就是說，剎車一直都在。

那一夜真正發生的，不是沒有剎車，是站在閘邊上的那個人，一口咬定剎車碰不得。他沒去問能不能改，他太確定不能改了。

于是火車繼續一列列往西邊開，把一場本來能關在三個國家之間的沖突，拖成了一場把整個歐洲都埋進去的大戰。沒有人想要這個結果。每個人當時都覺得，自己只是在做那件最該做、也最沒法不做的事。

我之所以想起這列火車，是因為 AI 的加速也是這樣一列已經發動的車。它不是哪個人造出來的，是算力、資本和國家的野心，一節一節掛上去，自己往前開。車上坐著所有人，每個人都在做手邊最該做的事，火車還是一直往前開。

這是 AI 時代讓我感不安的地方。危險不是沒人看見，剎車也不是真的不存在。喊剎車的人就坐在車里，知道危險的人腳還踩在油門上。

這個行業最警惕的東西，往往就是它自己正在拼命造的那個東西。Fable 本該是個讓所有人停下來看一眼的例子。可等我寫完這些，新模型又發布了幾個，都說自己最強。

愿意先踩剎車的人，一個都沒有。

參考資料

[1] Anthropic: Claude Fable 5 and Claude Mythos 5

[2] Anthropic: Statement on the US government directive to suspend access to Fable 5 and Mythos 5

[3] Anthropic: Responsible Scaling Policy Version 3.0

[4] Anthropic: Policy on the AI Exponential

[5] Anthropic: Claude Gov models for U.S. national security customers

[6] Axios: Anthropic had 90 minutes to take down Fable after Trump admin demand

[7] Axios: How Amazon and the White House ended Anthropic's Fable

[8] TechCrunch: Cybersecurity researchers aren't happy about the guardrails on Anthropic's Fable

[9] Washington Examiner: Amazon researchers use Anthropic AI to find cybersecurity weaknesses

[10] AP: A former OpenAI leader says safety has taken a backseat to shiny produc

[11] WIRED: OpenAI's Long-Term AI Risk Team Has Disbanded

[12] Business Insider: OpenAI and Anthropic keep warning about a future they're building at breakneck speed

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.