![]()
![]()
題圖:《AI BUBBLE》Beeple
文|Sleepy
現在這些 AI 公司,它們嘴上最警惕的那個東西,往往就是它們手上正在拼命造的那個東西。
開會談風險,他們談得比誰都懇切,說這技術跑得太快,總得有人管管。會一散,模型照常發布,一個比一個強,時間表一個比一個緊。
同一撥人,同一張嘴,上午警告,下午加速。你要說他們是裝的,又不像,可那臺滾滾向前的機器也是真的,一天都沒停下來過,而且越跑越快。
Anthropic 最新發布的模型 Fable 5 就活了三天。
6 月 9 日上線,6 月 12 日被叫停。那天下午 Anthropic 接到美國政府電話,給了 90 分鐘。傍晚五點二十一分,正式指令到達,一切外國國民不論身在何處都不能繼續使用這個模型了,連 Anthropic 自己的外籍員工都不行。理由是國家安全。
![]()
國家安全這四個字,落到一個模型身上,聽著有點重。可它落得下來,是因為 Fable 不簡單。這模型是 Anthropic 一直沒放出來的 Mythos 的「安全版本」,通過一層安全護欄確保人們無法用它來進行網絡攻擊、科學研究等可能造成嚴重后果的事情。但 Amazon 卻向美國政府提交了一份報告,說有人能夠越獄,直接通過 Fable 調用 Mythos 模型,美國政府擔心的就是這一點,于是果斷重拳出擊。
Anthropic 大概是全世界最認真對待 AI 風險的公司。但無奈這兩年模型能力成長得太快了,整條賽道只認一個方向,往前。
Anthropic 比同行更早開始提醒大家如果這樣下去可能會有技術失控的風險,甚至主動說過,政府應該有權攔住危險的模型。
沒想到美國政府真動手那天,第一個被攔住的是它自家的模型。
Amazon 提示了風險,美國政府要護住國家,Anthropic 在做它認定該做的安全防護工作。每個人都盡了責,合起來卻沒迎來一個圓滿的結果。
這看著像終于有人給行業踩了腳剎車,其實不是。一個模型上線三天就被一道命令叫停,恰恰說明沒人肯自己慢下來,才輪到外頭動手。要是公司、安全研究者、客戶和美國政府之間真有一套坐下來一起減速的辦法,事情走不到國家安全一刀切這一步。何況這一刀切下去,停的只有 Anthropic 一家,別人都還在跑。
Fable 這三天不是行業開始減速的證據,是沒人能讓它好好減速的證據。
![]()
剎車也能成為競爭力
Fable 5 從一開始就是個折中的產物。
Anthropic 手里真正鋒利的模型是 Mythos。它沒有公開就是因為能力太強了。2026 年 4 月,公司通過 Project Glasswing 把 Mythos 的預覽版交給一批安全機構,讓他們拿去找漏洞。
找漏洞這件事,本來就難分善惡。同一個能力,找出來是為了把洞補上,還是為了順著洞鉆進去,取決于擁有這個能力的是誰。
可 Anthropic 終究也在這個每天都加速一點的賽道上。到了 6 月,它還是把這類能力推向了公眾。Fable 是 Mythos 的安全版本,高風險的請求會退回到更受限的 Opus 4.8,上線前做過紅隊測試,流量留存三十天,方便發現有人越獄。它同時還是一件商品,有定價,有客戶評測,有試用期,要賣錢,要在投資人眼里好看。
安全做成競爭力,這本身就是個擰巴的事。競爭力的意思是跑得比別人快,安全的意思是別跑太快。Anthropic 想讓這兩件事同時成立,可怎么同時成立,它自己到今天大概也沒太想明白。
創始人 Dario Amodei 做過 OpenAI 的研究副總裁,Anthropic 的一批創始成員也是從 OpenAI 出來的。他們見過模型一代代變強時人有多興奮,也知道那股興奮底下壓著什么。
![]()
OpenAI 后來的事可以拿來做參照。Altman 被解雇,五天后又回來,反過來把董事會重組了。Superalignment 團隊成立時說四年解決安全問題,可不到一年就解散了。
Anthropic 是那場風波之后長出來的另一個答案。它說,強大的模型我們也要造,但要把剎車寫進制度里。負責任擴展政策到 2026 年已經更新到 3.0,按安全等級給模型分級。他們說,技術在指數式地飛速發展,定規矩的世界還沒追上來,所以政府應該有權攔住危險的部署。
一邊自己造模型,一邊主動說政府該有權攔模型。這背后得有一種信念,你得相信那只大手會謹慎地用權,會走程序。這種立場,我原先是有幾分敬重的。可 Fable 的三天,說明了這份信念有多不靠譜。
今年年初,Anthropic 就和五角大樓為 Claude 的軍事用途吵過一架。它做了 Claude Gov 給美國政府客戶用,但拒絕大規模的國內監控,也拒絕沒人盯著的致命自主武器。
在它看來,這是責任的邊界。在國家安全那套體系看來,邊界本身就是麻煩,因為邊界意味著你不肯完全服從。
Anthropic 說的安全,是不要失控。國家安全體系說的安全,是一切都能掌控。
連剎車是什么都談不攏,誰還談得上證明自己擔得起責任。Anthropic 很快發現自己證明不了,因為光靠自己不行。
![]()
不能停,也不敢停
6 月初,Anthropic 提了一個想法,前沿實驗室也許得協調著一起放慢,甚至一起暫停,給社會和政策留出追上來的時間。
協調。
為什么非得協調。因為一家公司自己慢下來,世界不會因此更安全。Anthropic 停了,OpenAI 不一定停,Google 不一定停,資本市場絕不會停。
所以一個人單方面克制,在這種局面里算不上什么美德。先停下來的那個,不會被記住,只會被頂替。
Anthropic 的問題,從來不是要不要負責。它很清楚自己要負責。真正的問題是,在別人未必負責的時候,一個人到底能負到哪一步。
過去的工業事故再復雜,總歸能找到一個相對清楚的源頭。可前沿 AI 不是這樣。一個模型的能力,來自算力,來自論文,來自開源社區,來自投資人催著增長,也來自國家想要技術上的優勢。每一塊都能撇清自己,說做決定的不是我。可這些塊拼到一起,就把世界推到了今天這一步。
責任拆散了,加速度還能保持住。
Anthropic 一邊在政策文件里寫 AI 跑得太快、治理跟不上,一邊發布新模型。
我并不是想說 Anthropic 是虛偽的。Anthropic 早就不是那個靠理想主義就能活下去的小實驗室了。它得跟 OpenAI、Google、xAI 搶,得應付融資和 IPO 的預期。硅谷嘴上都很敬重安全,可真到掏錢下注的時候,看的還是誰的模型更強。
所以它只能把事情拆成兩半。自己能做的,先做起來。需要整個行業一起做的,另外列出來,等別人。
務實,也無奈。
Fable 就生在這條夾縫里。車停不下來,那就給車裝一套更復雜的剎車片。夾縫里逼出來的東西,注定兩頭都不討好。
![]()
站在中間
Fable 上線之后,最先不滿意的不是美國政府,是做安全的那批人。
IBM X-Force 的研究者 Chompie 說,Fable 會拒掉一大堆只是沾點邊的安全請求,有時候讓它讀一篇博客都能觸發。
![]()
安全護欄想分辨的是意圖,可模型眼前只有語言和上下文。它分不清你掏出工具是要修門還是撬鎖,索性把兩種人一起攔下。
兩天之后,一份報告遞進了美國政府的房間,從那一刻起,這件事就不再是 Anthropic 自己評判自己的安全設計了。
Anthropic 反復強調一個時間差。發布之前,它幾次知會過美國政府,美國政府沒反對,甚至參與過發布前的測試,公司是拿到了部署許可的。三天之后,同一套系統忽然告訴它必須下架。
Anthropic 說,美國政府始終沒給出具體的細節。它自己看過演示,覺得那不過是幾個已知的、不算嚴重的漏洞,換別的公開模型一樣做得到。一直到聲明發出,美國政府拿出來的也只是口頭上的說法。
這個模型,開發者不滿意,美國政府也覺得不滿意。Anthropic 站在中間,里外不是人。
Fable 這件事的背后是一整條不信任鏈的運行使然。一圈轉下來,每一環都在防著上一環。到最后,社會也很難再相信,這里頭還有誰真能把責任擔起來。
![]()
e/acc 是一種氣候
這個問題難就難在,每一方都覺得自己在負責,而且都說得通。每個人手里,都攥著一份局部的正當。
可怕的就在這兒。每個人都只為自己那一小塊負責,加起來,卻沒有誰為整件事負責。責任被切成了碎片。公司內控,模型評測,出口管制,客戶需求,國家競爭,投資回報,每一片都映出一點真的東西,沒有哪一片映得出全部。
當連定義都統一不了,所有人唯一不會爭的方向,就只剩一個「快」。
Effective accelerationism,縮寫 e/acc,這幾年成了一套挺鮮明的技術樂觀主義。把技術往快里推,不用管監管、社會結構和倫理,相信進步能解決掉那些大問題。
不是每家公司都自稱 e/acc,Anthropic 就更不會。可一種主張,從來不需要所有人認可就改變大環境。
能力上的競賽,燒不完的算力,融資的時間表,國家之間的較勁,軍方的需求,開發者對更強工具的饑渴。這些東西合在一起,就成了一種氣候。有人不喜歡這種氣候,可也得在里面過日子,跟所有人一樣。
強如 Anthropic,是這個加速時代里少數幾個反復念叨剎車的人,到頭來還是得先證明自己跑得夠快。
技術加速不需要一個壞人,它只需要每一個好人都覺得自己不能第一個停下來。
![]()
剎車一直都在
Fable 這件事就是把剎車交出去的代價。你盼著公權力介入,是因為行業的自律不夠。可公權力不一定按你期待的方式運轉。國家安全這臺機器最熟練的動作不是協商,是封鎖、許可和例外。
AI 早就不是一件能畫清邊界的技術了。當一個前沿模型同時嵌進商業、科研、國防和基礎設施,還有誰有能力決定它不該被怎樣用。
所有人都知道速度太快。可速度本身,已經成了活下去的條件。
一百多年前,也有過一次沒人敢叫停的加速。
1914 年 8 月 1 日傍晚五點,德皇威廉二世下令全軍總動員。命令剛發出去幾分鐘,倫敦來了一封電報,說只要德國不打法國,英國就能讓法國置身事外。德皇大喜,他本來最怕兩線作戰,這下好了,全部兵力都能調去東邊對付俄國。他轉頭對總參謀長小毛奇說,那我們就只往東打。
小毛奇說,辦不到。
他給的理由是,一支上百萬人的軍隊,怎么開拔、走哪條鐵路、幾點幾分到哪個站臺,全按計劃排死了。這套時刻表是用整整一年磨出來的,磨好之后,一個字都改不了。
后來很多歷史學家都講過這個故事。講的人多半把它當成一個關于機器的寓言,說現代戰爭的機器精密到了這個地步,連開機器的人都按不住。
可再后來,人們又翻出一件事。那套時刻表,其實是改得動的。鐵路部門每年都演練怎么臨時改線、改時間,東線的方案也一直備著。火車真要掉頭,掉得過來。
也就是說,剎車一直都在。
那一夜真正發生的,不是沒有剎車,是站在閘邊上的那個人,一口咬定剎車碰不得。他沒去問能不能改,他太確定不能改了。
于是火車繼續一列列往西邊開,把一場本來能關在三個國家之間的沖突,拖成了一場把整個歐洲都埋進去的大戰。沒有人想要這個結果。每個人當時都覺得,自己只是在做那件最該做、也最沒法不做的事。
我之所以想起這列火車,是因為 AI 的加速也是這樣一列已經發動的車。它不是哪個人造出來的,是算力、資本和國家的野心,一節一節掛上去,自己往前開。車上坐著所有人,每個人都在做手邊最該做的事,火車還是一直往前開。
這是 AI 時代讓我感不安的地方。危險不是沒人看見,剎車也不是真的不存在。喊剎車的人就坐在車里,知道危險的人腳還踩在油門上。
這個行業最警惕的東西,往往就是它自己正在拼命造的那個東西。Fable 本該是個讓所有人停下來看一眼的例子。可等我寫完這些,新模型又發布了幾個,都說自己最強。
愿意先踩剎車的人,一個都沒有。
參考資料
[1] Anthropic: Claude Fable 5 and Claude Mythos 5
[2] Anthropic: Statement on the US government directive to suspend access to Fable 5 and Mythos 5
[3] Anthropic: Responsible Scaling Policy Version 3.0
[4] Anthropic: Policy on the AI Exponential
[5] Anthropic: Claude Gov models for U.S. national security customers
[6] Axios: Anthropic had 90 minutes to take down Fable after Trump admin demand
[7] Axios: How Amazon and the White House ended Anthropic's Fable
[8] TechCrunch: Cybersecurity researchers aren't happy about the guardrails on Anthropic's Fable
[9] Washington Examiner: Amazon researchers use Anthropic AI to find cybersecurity weaknesses
[10] AP: A former OpenAI leader says safety has taken a backseat to shiny produc
[11] WIRED: OpenAI's Long-Term AI Risk Team Has Disbanded
[12] Business Insider: OpenAI and Anthropic keep warning about a future they're building at breakneck speed
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.