亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Anthropic最強模型,很可能敲響了AGI的防盜門

0
分享至



Anthropic每次傳出新品發(fā)布,都會被媒體稱為“王炸”,但這次王炸真的來了。外媒曝光了Anthropic正處于測試階段的最強AI模型。

Anthropic的內(nèi)容管理系統(tǒng)配置出了問題,近3000份未發(fā)布的內(nèi)部文檔,被放在了公開可訪問的數(shù)據(jù)緩存里。



相當(dāng)于敞著大門讓別人看內(nèi)部機密。

劍橋大學(xué)網(wǎng)絡(luò)安全研究員亞歷山大·保韋爾斯(Alexandre Pauwels)和LayerX Security的高級研究員羅伊·帕斯(Roy Paz)在搜索公開數(shù)據(jù)時發(fā)現(xiàn)了這些文件。

這些文件里有什么?文章草稿、未使用的圖片素材、內(nèi)部活動安排,甚至還有一份標(biāo)題里帶“parental leave”的員工文檔。

但最引人注目的,是一份詳細(xì)介紹新模型的草稿。

文件顯示,Capybara和Mythos指向同一個底層模型。

前者是產(chǎn)品層級的命名,跟Opus、Sonnet一樣,后者是模型的代號。就像你可以把一款發(fā)動機裝進(jìn)不同型號的車?yán)?,Mythos是那臺發(fā)動機,Capybara是那個新車系。

說句題外話,其實千問的卡通形象也是Capybara,你說這不巧了嘛!



言歸正傳,草稿里面有這么一句話,“與我們之前最好的模型Claude Opus 4.6相比,Capybara在軟件編程、學(xué)術(shù)推理和網(wǎng)絡(luò)安全測試等方面的得分顯著提高。”

Anthropic發(fā)言人證實,新模型在“推理、編碼和網(wǎng)絡(luò)安全”方面有“有意義的進(jìn)步”,代表了“階躍式變化”,并且該模型已經(jīng)交付給了極少數(shù)早期客戶,以進(jìn)行測試。

但真正讓Anthropic緊張的不是性能提升,而是網(wǎng)絡(luò)安全能力的飛躍。

草稿中寫道,這款模型“在網(wǎng)絡(luò)能力方面目前遠(yuǎn)遠(yuǎn)領(lǐng)先于任何其他AI模型”,并且“預(yù)示著即將到來的一波模型浪潮,這些模型利用漏洞的能力將遠(yuǎn)遠(yuǎn)超過防御者的努力”。

換句話說,Anthropic擔(dān)心黑客會拿這個模型發(fā)動大規(guī)模網(wǎng)絡(luò)攻擊。

今年2月,OpenAI發(fā)布GPT-5.3-Codex時,首次將一款模型歸類為“高網(wǎng)絡(luò)安全能力”,它被OpenAI拿去訓(xùn)練識別軟件漏洞。Opus 4.6也展現(xiàn)出類似的能力,可以發(fā)現(xiàn)代碼庫中的未知漏洞。

兩家公司都清楚,這其實是一把雙刃劍。

Capybara可以是守護(hù)天使,也可以是充滿惡意的病毒。

所以Anthropic為Capybara設(shè)計了一套謹(jǐn)慎的發(fā)布策略。草稿寫道:“在準(zhǔn)備發(fā)布Claude Capybara時,我們希望格外謹(jǐn)慎。因為我們清楚它帶來的風(fēng)險,肯定比測試中能遇到的情況更為嚴(yán)重。”

Anthropic的具體做法是優(yōu)先向網(wǎng)絡(luò)安全防御組織提供早期訪問權(quán)限,讓他們有時間加固代碼庫,應(yīng)對即將到來的AI攻擊浪潮。

文件還提到,這個模型運行成本很高,短期內(nèi)不會面向普通用戶開放。

隨后Anthropic迅速關(guān)閉了公開訪問權(quán)限。發(fā)言人將此歸咎于“內(nèi)容管理系統(tǒng)配置中的人為錯誤”,并強調(diào)這些是“考慮發(fā)布的早期草稿”。

但泄露已經(jīng)發(fā)生。Mythos和Capybara成了公開的秘密,Anthropic的發(fā)言人也大大方方地承認(rèn)了Mythos和Capybara的存在。

01

Mythos可能是這個樣子的

那么Mythos具體會是什么樣呢?

先說結(jié)論:如果Mythos真有“階躍式變化”,我猜它不只是一個更大的base model,而是一套“模型+編排+驗證 +風(fēng)險控制”的復(fù)合系統(tǒng)。


也就是說,真正跳變的可能不是參數(shù)量,而是“做長任務(wù)時不散架”。

我的理由很簡單,技術(shù)會變,但是Anthropic自己的大方向不會變。

Anthropic已經(jīng)發(fā)布了很多關(guān)于公司技術(shù)路線的博客,比如《Next-generation Constitutional Classifiers: More efficient protection against universal jailbreaks》(下一代分類器:更高效地防范通用越獄攻擊),以及《Mitigating the risk of prompt injections in browser use》(降低瀏覽器使用中提示注入的風(fēng)險)等等。



這東西就跟概念車一樣。

先說說安全方面吧,很多人以為殺毒軟件還是靠“病毒庫”——就像警察拿著通緝犯照片挨個比對。但實際上,現(xiàn)代殺毒軟件和EDR(端點檢測與響應(yīng))系統(tǒng)早就不是這么干了。

它們會看文件結(jié)構(gòu)、監(jiān)控進(jìn)程行為、分析API調(diào)用模式、追蹤橫向移動軌跡,甚至用機器學(xué)習(xí)判斷“這個行為像不像攻擊”。

換句話說,現(xiàn)代安全系統(tǒng)已經(jīng)不只是在找“已知的壞人”,而是在識別“可疑的行為模式”。

Mythos可能把這個邏輯又往前推了一步。它能理解攻擊的語義。

通過理解一段代碼、一串工具調(diào)用、一段對話,判斷是不是在構(gòu)造一條真實可執(zhí)行的攻擊鏈。

比如它能分辨出:這不是普通的壓縮腳本,而是在做規(guī)避掃描、自啟動、憑據(jù)竊取這一整套動作;這不是正常的滲透測試問答,而是在拼接exploit、持久化、橫移、出網(wǎng)這幾個步驟。

Mythos很可能具備“漏洞泛化發(fā)現(xiàn)”能力。

Anthropic 在今年2月的博客中提到,Opus 4.6找零日漏洞的方式不像傳統(tǒng)fuzzing那樣亂撞,而是通過理解代碼語義、歷史修復(fù)模式和相似bug特征,去找“還沒被修掉的同類漏洞”。

看到一個漏洞后,它就能立刻聯(lián)想到“其他地方是不是也存在類似的漏洞”。

Mythos在推理方面的提升,可能也不單單是說benchmark分?jǐn)?shù)又高了幾分。

比如它可能在思考過程中更少出現(xiàn)中途漂移,更少為了迎合用戶而過度自信,更會顯式區(qū)分“已知、推斷、未知”,更會在不確定時保守行動等等。

這和安全是同一類底層能力。因為好的模型不只是更會生成答案,而是更會管理自己的不確定性。

Claude的一大重點就是編程。所以我覺得在編程能力上,Mythos可能不只是“把代碼寫地更好”,而是從“會寫代碼”變成“會經(jīng)營代碼庫”。

Mythos可能會把模塊邊界、依賴關(guān)系、歷史patch風(fēng)格、測試習(xí)慣放在一起進(jìn)行建模。

它會先拆改動圖、再分批落patch,而不是想到哪改到哪;寫完代碼后會主動補測試、跑靜態(tài)檢查,根據(jù)失敗日志回滾到更穩(wěn)的方案。

這種能力對真實工程項目的價值,遠(yuǎn)超在測試集上多做對幾道題。

當(dāng)然最終要落到的地方,肯定是在線束(harness)上,Mythos很可能實現(xiàn)了從“單次回答強”到“整條執(zhí)行鏈穩(wěn)”的跨越。

它會把大任務(wù)拆成可驗證的小階段,多個子任務(wù)并行執(zhí)行再匯總結(jié)果,在長鏈條里保留關(guān)鍵狀態(tài)、丟掉噪聲。某一步報錯時不需要從頭來過,只要找到問題發(fā)生地,對其局部進(jìn)行修復(fù),就可以繼續(xù)執(zhí)行任務(wù)。

就像游戲里的檢查點,如果你沒有通過某一個BOSS,你不需要從頭開始打整個章節(jié),你會被傳送到上一個檢查點。

這就像工業(yè)控制里的“線束管理”——不是某一根線更粗,而是整個連接、隔離、容錯、標(biāo)記、回路設(shè)計更合理。

長上下文能力的提升可能也不只是“窗口更大”,而是“上下文利用率更高”。

現(xiàn)在的大模型,一說上下文窗口,每個都說自己能裝下幾十萬字,但是一問它全文重點或者文檔關(guān)系,立刻就啞巴了。

Mythos如果真有進(jìn)步,可能體現(xiàn)在更強的重點檢測、更好的層級摘要、更準(zhǔn)的跨文檔對齊,以及更有效的持續(xù)記憶寫回機制。

在工具使用上,Mythos可能從“會調(diào)工具”升級到“會設(shè)計實驗”。

Anthropic已經(jīng)在推computer use、terminal、browser這套能力,但真正的跨越不是UI自動化更強,而是知道什么時候該讀代碼、什么時候該跑測試、什么時候該查文檔。

如何設(shè)計最小驗證閉環(huán)、避免無效探索、控制成本。

通俗說,就是從“會操作電腦”升級到“會像工程師那樣做排障實驗”,甚至于是說“碰到問題時,會原地掏出一個機床自己制造一個特化對口的工具來處理問題”。

02

還有呢?

反正都猜這么多了,不妨咱們就再往深了猜猜,我覺得Mythos的提升很可能來自幾種訓(xùn)練和推理技巧的疊加。

第一是更重的測試時計算,也就是模型會根據(jù)任務(wù)難度動態(tài)分配更多“思考預(yù)算”,在關(guān)鍵步驟上做更長、更深的推理,而不是一口氣線性吐完答案。

就像考試,普通的AI都是閉卷快答選手,不管是1分的選擇題,還是20分的壓軸大題,都是掃一眼就動筆,寫一步不回頭,勻速寫完拉倒,哪怕題很難,也是順嘴瞎編湊數(shù)。

Mythos是學(xué)霸,拿到題先分難度,簡單題秒答不浪費時間;遇到復(fù)雜大題、關(guān)鍵步驟,就多打草稿、多琢磨幾遍,算對了再往下寫,卡殼了就停下來多想一層,絕不會張嘴就來。

第二是更偏向agent軌跡的強化學(xué)習(xí),訓(xùn)練目標(biāo)不再只是“最后一句話答對了沒有”,而是“整條任務(wù)鏈有沒有成功完成”,包括怎么拆計劃、何時調(diào)用工具、何時停下來驗證、出錯后如何回退。

原來的訓(xùn)練方式是只看“項目最后有沒有交差”,哪怕實習(xí)生中間瞎搞、找別人代做、步驟全錯,最后蒙對了結(jié)果,就發(fā)獎金。

要是中間全對,最后一步手抖錯了,直接扣錢,完全不管過程。

Mythos是全程盯流程,不僅看最后項目成沒成,還要看你會不會把大項目拆成一步一步的小計劃,什么時候該查資料、用工具,什么時候該停下來核對前面的內(nèi)容,做錯了會不會回頭修正。

第三是更強的verifier,也就是某種內(nèi)置的審稿人或質(zhì)檢員,在代碼場景里檢查patch是否真的成立,在安全場景里檢查輸出是否顯著增加攻擊可執(zhí)行性。

這個你就當(dāng)成是公眾號發(fā)文章。普通AI是作者寫完了直接發(fā),不管有沒有錯別字、事實錯誤、合規(guī)風(fēng)險,發(fā)出去出問題再說。

Mythos就和字母AI一樣,要有提綱、要有多道審核、還要去求證等等。這篇文章除外。

第四是更細(xì)粒度的風(fēng)險監(jiān)控,不只看最終文本,而是看模型內(nèi)部表征和中間軌跡,判斷它是不是正在形成一條危險的攻擊鏈。

這也是為什么我一直拿現(xiàn)代殺毒軟件和EDR來類比。過去的殺毒軟件更像“對照病毒庫”,今天的安全系統(tǒng)更像“識別可疑行為模式”。

如果把這個邏輯搬到大模型里,Mythos的安全能力就可能不是靠硬編碼關(guān)鍵詞,而是靠對任務(wù)語義、工具調(diào)用順序、代碼行為和中間狀態(tài)的綜合判斷。

它識別的不是“某個壞答案”,而是“這個請求會造成怎樣的后果”。一旦這種能力成熟,安全就不再只是一個外掛過濾器,而會變成模型推理過程本身的一部分。

如果把這些能力串起來看,Mythos可能會是一個將語義泛化、長任務(wù)穩(wěn)定性、工具編排、風(fēng)險控制這幾件事給融合起來的新產(chǎn)品。

這也解釋了為什么Anthropic對Mythos如此謹(jǐn)慎。

一個能理解攻擊語義、能泛化發(fā)現(xiàn)漏洞、能編排長鏈條任務(wù)、能自主使用工具的AI,這已經(jīng)是敲響AGI的防盜門了。

但這里有個更深層的問題:當(dāng)AI的攻擊能力開始系統(tǒng)性地超過防御能力,整個網(wǎng)絡(luò)安全的平衡會不會被打破?

如果未來幾個月Anthropic真的正式發(fā)布Mythos或者Capybara,那么最應(yīng)該盯緊的是它在computer use、terminal、browser這類長任務(wù)環(huán)境里的穩(wěn)定性。

因為這類場景最能暴露一個模型到底只是“單輪回答強”,還是已經(jīng)具備“持續(xù)執(zhí)行”的系統(tǒng)能力。真正的階躍式變化,最后都會反映在這些難以偽裝美化的指標(biāo)上。

從這個角度看,Mythos泄密事件的真正意義,是揭示了AI發(fā)展的下一個臨界點。

而這個臨界點,可能比我們想象的來得更快。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
美女歌唱家淪為貪官情婦,收巨額財物,半生奢靡放縱,下場太解氣

美女歌唱家淪為貪官情婦,收巨額財物,半生奢靡放縱,下場太解氣

往史過眼云煙
2026-04-15 14:46:46
張婉婷曝宋寧峰近況:他每天就是下跪、哭、悔過,就是死都不離開

張婉婷曝宋寧峰近況:他每天就是下跪、哭、悔過,就是死都不離開

觀魚聽雨
2026-04-15 22:30:00
杭州一女子KTV消費近200萬,被丈夫發(fā)現(xiàn)后想要回:我被男模PUA了

杭州一女子KTV消費近200萬,被丈夫發(fā)現(xiàn)后想要回:我被男模PUA了

我不叫阿哏
2026-04-16 01:42:11
卸妝后,王一博邋遢油膩,張柏芝像土撥鼠,劉曉慶神似禿頭阿哥

卸妝后,王一博邋遢油膩,張柏芝像土撥鼠,劉曉慶神似禿頭阿哥

手工制作阿殲
2026-04-15 17:39:28
長的太漂亮了,真正的珠圓玉潤,標(biāo)準(zhǔn)的東方美

長的太漂亮了,真正的珠圓玉潤,標(biāo)準(zhǔn)的東方美

生活新鮮市
2026-03-27 07:21:32
又有2名間諜被抓!潛藏中國17年,境外滲透曝光,泄密細(xì)節(jié)驚人

又有2名間諜被抓!潛藏中國17年,境外滲透曝光,泄密細(xì)節(jié)驚人

蜉蝣說
2026-04-15 11:03:59
阿爾特塔創(chuàng)造隊史紀(jì)錄:目標(biāo)直指歐冠冠軍,半決賽對手出爐

阿爾特塔創(chuàng)造隊史紀(jì)錄:目標(biāo)直指歐冠冠軍,半決賽對手出爐

足球狗說
2026-04-16 05:40:31
迪拜帆船酒店:將停業(yè)1年半

迪拜帆船酒店:將停業(yè)1年半

第一財經(jīng)資訊
2026-04-15 19:05:49
浙金中心案件關(guān)鍵性進(jìn)展:追回 11億贓款,逃亡境外者全部押解回國

浙金中心案件關(guān)鍵性進(jìn)展:追回 11億贓款,逃亡境外者全部押解回國

新浪財經(jīng)
2026-04-15 14:09:10
1942年延安產(chǎn)了一批帽子,樣子不好看沒人愿戴,主席笑著說:我戴

1942年延安產(chǎn)了一批帽子,樣子不好看沒人愿戴,主席笑著說:我戴

芳芳?xì)v史燴
2026-03-30 21:22:47
羅伯遜看好趙心童世錦賽衛(wèi)冕:他讓很多球手畏懼,打法太有壓迫性

羅伯遜看好趙心童世錦賽衛(wèi)冕:他讓很多球手畏懼,打法太有壓迫性

楊華評論
2026-04-15 21:33:53
史上最搶手皇后,6位帝王輪番霸占60年不停歇,48歲還被人爭著要

史上最搶手皇后,6位帝王輪番霸占60年不停歇,48歲還被人爭著要

小豫講故事
2026-04-12 06:00:09
納斯達(dá)克金龍中國指數(shù)收漲0.75%,熱門中概股多數(shù)上漲

納斯達(dá)克金龍中國指數(shù)收漲0.75%,熱門中概股多數(shù)上漲

每日經(jīng)濟新聞
2026-04-16 05:05:47
男子騎摩托闖高速被攔,交警質(zhì)問“是不是張雪機車給你打雞血了”,張雪回應(yīng)視頻已刪除;當(dāng)?shù)兀航K禁止摩托上高速,正核查

男子騎摩托闖高速被攔,交警質(zhì)問“是不是張雪機車給你打雞血了”,張雪回應(yīng)視頻已刪除;當(dāng)?shù)兀航K禁止摩托上高速,正核查

山西晚報
2026-04-15 18:16:50
官方:全美有1.7億人觀看25-26賽季NBA常規(guī)賽,較上賽季提升86%

官方:全美有1.7億人觀看25-26賽季NBA常規(guī)賽,較上賽季提升86%

懂球帝
2026-04-16 04:55:15
打了45天,美以最新傷亡出爐,兩黨高層接連發(fā)難,特朗普被逼宮

打了45天,美以最新傷亡出爐,兩黨高層接連發(fā)難,特朗普被逼宮

Ck的蜜糖
2026-04-16 06:56:46
1936年,前清翰林嫌紅軍沒文化,毛主席笑了:讓舒同給他寫封信

1936年,前清翰林嫌紅軍沒文化,毛主席笑了:讓舒同給他寫封信

興趣知識
2026-04-16 01:55:57
女子因感冒輸液休克,已花80萬治療仍昏迷未醒!丈夫:出診者無醫(yī)學(xué)資質(zhì)

女子因感冒輸液休克,已花80萬治療仍昏迷未醒!丈夫:出診者無醫(yī)學(xué)資質(zhì)

上觀新聞
2026-04-15 12:44:09
5輪0出場!伊萬重點提拔的國足新星慘遭韓鵬無視,淪為中超多余人

5輪0出場!伊萬重點提拔的國足新星慘遭韓鵬無視,淪為中超多余人

零度眼看球
2026-04-16 06:37:25
張雪峰去世不到一個月,員工宣布離職,低價挖客戶,賬號已私密

張雪峰去世不到一個月,員工宣布離職,低價挖客戶,賬號已私密

180視角
2026-04-15 17:52:51
2026-04-16 07:32:49
字母榜 incentive-icons
字母榜
讓未來不止于大。
2379文章數(shù) 8059關(guān)注度
往期回顧 全部

科技要聞

ChatGPT十億用戶又怎樣?Anthropic直接貼臉

頭條要聞

美國發(fā)布新一輪涉伊朗制裁措施

頭條要聞

美國發(fā)布新一輪涉伊朗制裁措施

體育要聞

三球準(zhǔn)絕殺戴大金鏈:轟30+10自我救贖

娛樂要聞

謝娜現(xiàn)身環(huán)球影城,牽手女兒溫馨有愛

財經(jīng)要聞

業(yè)績失速的Lululemon:"健康"人設(shè)崩塌?

汽車要聞

空間絲毫不用妥協(xié) 小鵬GX首發(fā)評測

態(tài)度原創(chuàng)

旅游
本地
家居
游戲
軍事航空

旅游要聞

“上海定制”圈粉海外游客:入境游下一程,比拼服務(wù)“軟實力”|文旅觀察

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

家居要聞

簡而不減 暖居之道

Steam主機提前被玩家造出來了!成本更低 性能更強

軍事要聞

萬斯:對當(dāng)前美伊局勢進(jìn)展“感到樂觀”

無障礙瀏覽 進(jìn)入關(guān)懷版