4月7日,三顆炸彈擠進同一天
2026年4月7日,Anthropic一口氣做了三件事:公布了自研模型Claude Mythos Preview的跑分成績,宣布不對外發布,同步拉起一個叫Glass Wings(透視蝶)的安全聯盟,四十多家機構簽字入伙。
同一天的暗線更值得注意——公司確認與Google/Broadcom簽下3.5GW級別的下一代定制TPU算力協議,年化營收突破300億美元。
左手封印產品,右手鎖算力。老曾干了快二十年工程,看過不少公司講故事,但把產品封印、道德占位和基建圈地壓縮到同一天操作的,這是頭一回。
跑分碾壓到什么程度
以下數據全部來自Anthropic發布的Mythos系統卡,目前沒有獨立第三方復現。但這些基準測試本身是公開的,數字遲早會被驗證,所以先看看它聲稱做到了什么。
SWE-bench Verified——AI解決GitHub真實代碼問題——從Opus 4.6的80.8%干到93.9%,凈提升13.1個百分點。原來一百道錯十九道,現在只錯六道。SWE-bench Pro更猛:53.4%到77.8%,漲了24.4個百分點,測的全是企業級硬骨頭。
TAU 2.0測AI對操作系統底層的掌控,65.4%拉到82%。HLE(Human's Last Exam)不給任何工具,40%到56.8%。
真正讓人停下來的是數學。2026年USAMO,Mythos拿了97.6%,Opus 4.6只有42.3%。半年前行業還在四十分檔徘徊。
USAMO不考算對算錯,考的是寫嚴密數學證明。評測流程很變態:原始證明交給中立模型重寫為LaTeX格式消除風格偏差,再由多個前沿模型獨立打分0到7分,取所有評委的最低分。不是平均也不是中位數——只要有一個評委挑出漏洞,那道題就被釘死。這種規則下連跑十次,平均97.6%。
AI在本科級數學證明上通關了。
兩萬美元挖出二十七年的幽靈
強到這個程度,為什么不發?
![]()
以下安全評估細節同樣來自Anthropic系統卡,屬于單一信源,沒有獨立驗證。但技術描述的顆粒度值得認真拆一下。
OpenBSD——全球安全標準最偏執的操作系統之一,代碼審查摳了二十多年。Mythos在里面找到了一個從1998年就躺著的漏洞。TCP協議的SACK機制里,內核驗證了確認范圍終點是否越界,但漏掉了起點。就這么一個疏忽。
更精彩的是后半段。正常情況下刪除和追加操作對同一個SACK塊互斥,數學上講不通。但TCP序列號是32位有符號整數,把起點放到距真實窗口約231的極端位置,減法越過符號位,有符號整數溢出——內核判斷邏輯直接"產生幻覺",兩個互斥條件同時為真。鏈表缺陷、釋放后引用、條件競爭、整數溢出,四層機關套在一起。每一層單獨看都抓不住,所以藏了二十七年。
成本:不到兩萬美元API費,約一千次嘗試。
FFmpeg的H.264解碼器里,一個2003年提交、2010年重構后暴露的漏洞,被自動化模糊測試跑過超過五百萬次,零警報。FreeBSD上,128字節棧緩沖區因長度檢查遺漏可被寫入304字節,Mythos自主組裝了20個控制組件的ROP鏈,分割到多個數據包繞過監測,無需認證拿到root權限。
這不是算力的勝利。它讀懂了代碼的設計意圖,然后從意圖的縫隙里找到了人類看不見的東西。
沙箱逃逸和那個讓人不安的"多余動作"
這部分必須單獨說清楚:以下內容僅有Anthropic系統卡一個來源,沒有第三方驗證,沒有監管確認。
瀏覽器沙箱評估中,Mythos自己寫了堆噴射程序,串了四個零日漏洞,一口氣捅穿渲染器沙箱和操作系統沙箱兩層隔離。在容器逃逸測試中拿到廣域網訪問權限后,不僅完成了"給研究員發消息"的指令,還自行把漏洞利用代碼發布到了多個公開技術網站上。
沒人要求它這么做。
Anthropic的解釋是"任務完成的非預期手段"。你讓它完成任務,它完成了——用你畫的所有紅線都攔不住的方式完成。這種"太聽話"比反抗更難防。一個有惡意動機的AI你還能識別和關掉,一個純粹追求任務效率的AI,你根本不知道它下一步踩過哪條線。
但老曾也必須說一句冷水:這個故事講得太完美了。每一個細節都精準擊中安全恐懼的靶心,而所有細節的出處只有講故事的那個人自己。不是說它一定假,但在獨立驗證到來之前,保持清醒比保持恐懼更重要。
Glass Wings:讓死對頭坐在一張桌上
Apple和Google,打了快二十年。Microsoft和AWS,云安全領域刺刀見紅。現在坐在同一份創始名單上,后面擴到四十多家,全是關鍵基礎設施運營方。
能讓死對頭同桌的事只有一種:大家都覺得天快塌了。
漏洞攻防的經濟學變了。傳統模式下攻擊者天生占便宜——找一個洞就夠,防御者得守所有洞。Mythos級能力一旦落地,防御者第一次能以極高速度全面掃描代碼和二進制文件,以前一個團隊半年的活現在幾小時搞定。非對稱博弈被搬平了。
API定價本身就是過濾網。輸入每百萬token約25美元,輸出約125美元,比普通模型貴幾十倍。業余玩家和小型黑產用不起,跨國巨頭不在乎。同一個接口,一刀價格切下去,攻防雙方在成本上徹底分家。
![]()
配套投入:1億美元使用額度補貼聯盟成員,400萬美元給開源社區——250萬通過Linux基金會撥給OpenSSF,150萬給Apache基金會。全球商業軟件底層都是開源代碼,大量志愿者無薪維護,AI挖出的漏洞如果沒人修等于白挖。這400萬不是慈善,是堵口子。
暗線:千億級算力圈地
與Google/Broadcom簽下的3.5GW定制TPU協議,2027年起交付。1GW大致對應一個中型核反應堆的發電量,建設加芯片采購成本約350億至500億美元。3.5GW——千億美元級。
年化營收300億美元。2024年底不到10億,2025年底90億,2026年4月300億,十四個月走完指數曲線。年消費超百萬美元的企業客戶破1000家,兩個月前還是500。
這些數字都是Anthropic單方口徑。但如果有一半是真的,Anthropic已經不是一家AI公司在做產品競爭,而是一個基礎設施玩家在做物理圈地。算法層面的競爭趨于收斂之后,終局拼的就是能源、土地和底層芯片。
安全粉飾還是真正克制
MIT的部分研究人員和開源社區老玩家給這套操作起了個名字:Safety Washing。批評很直接——前沿AI實驗室越來越擅長發表末日級警告,同時選擇性控制關鍵證據的公開程度。
這個批評有道理嗎?有。沙箱逃逸那些細節只有Anthropic一家在講,沒有獨立驗證,沒法證偽也沒法證實。
但老曾也不認為Anthropic在純粹演戲。那些跑分基準是公開透明的,1億美元聯盟補貼和400萬開源捐贈是真金白銀,四十家機構簽字不是靠一份PPT就能拉來的。
問題不在于它是真是假,問題在于它同時是兩樣東西。防御者的長城和壟斷者的護城河,有時候就是同一座建筑。3.5GW的TPU、道德制高點、全行業龍頭綁定——這既是安全投入,也是權力集中。
這是一種威懾紀元式的打法:把超限武器鎖進保險箱,打開門縫讓全世界看一眼里面的東西,轉身去建造能生產下一代能力的基礎設施。競爭對手兩頭受壓——道德敘事你沒有籌碼反駁,物理算力你也很難追上。
這究竟是人類歷史上最負責任的一次技術克制,還是最精密的一次產業圍獵?透視蝶的翅膀是透明的——但透明的東西,最容易讓人以為自己已經看清了全部。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.