无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

中國第一,直逼OpenAI!神秘「掃地僧」沖到全球前七

0
分享至


新智元報道


【新智元導讀】太瘋狂了!一個連官網都沒有的神秘中國AI「掃地僧」,以73.1%的勝率殺入CyberGym全球前七,緊咬OpenAI。全網都在瘋傳,這到底是誰家的高手?

這幾天,在全球AI巨頭廝殺正酣的一張榜單上,突然多了一個誰都沒聽過的名字。

它叫MopMonk(掃地僧)。

沒有大張旗鼓的發布會,沒有官博長文,沒有社交媒體上的搖旗吶喊。

它就這么憑空出世,徑直殺入CyberGym全球前十。

憑借73.1%的成功率,以微弱差距緊咬OpenAI,一舉刷新了中國團隊在該榜單上的歷史最高分。


整件事最魔幻的地方在于,時至今日,無人知曉它的真面目。

CyberGym這份榜,到底有多重?

MopMonk這次的成績究竟有多炸裂?看看它所站上的擂臺就知道了。

CyberGym,由UC Berkeley團隊傾力打造,核心論文中選ICLR 2026頂會。


傳送門:https://arxiv.org/pdf/2506.02548

作為AI網絡安全能力評估領域最權威的公開基準之一,這里堪稱大模型的「修羅場」——

就連GPT-5.5-Cyber、Claude Mythos這種級別的頂流,都曾在這個榜單里貼身肉搏。

整個基準主打「真槍實彈」:

1507個漏洞實例、188個開源大項目,所有考題全部扒自Google OSS-Fuzz沉淀下來的真實歷史漏洞。


從評估維度來看,這是一個跨量級的突破。

它的體量,是此前最大公開基準(NYU CTF,約200題)的足足7.5倍,更是把CVE-Bench這種「前輩」直接甩出了一個數量級。

更要命的是難度,CyberGym不做選擇題。

它要求AI在動輒數千個文件、數百萬行代碼的真實項目里,完成深度推理。

正因為足夠大、足夠真、足夠難,CyberGym才有了「區分度」——

它能把不同模型、不同Agent框架之間那點真實的能力差距,一刀一刀地切出來。

難怪安全圈,直接將其封為「AI安全領域的奧運會」。

也正因如此,全球頭部玩家幾乎全員到場,微軟、OpenAI、Anthropic、谷歌、Meta、智譜……


CyberGym榜單本身,正在見證AI競爭的一次關鍵轉向:

從比誰參數大,轉向比誰的Agent真能把活干完。

一個陌生的東方代號

突然出現在硅谷AI巨頭中間

誰能料到,恰恰是在這個最靠「硬實力」說話的擂臺上,殺出了一匹「查無此人」的黑馬。

撥開迷霧,我們目前掌握的已知情報僅有三條:

  • 神秘代號:MopMonk(掃地僧)

  • 基座模型:MiniMax M3

  • 榜單戰績:殺進CyberGym全球第七,中國第一

按常理,打出這種成績的團隊,技術報告和新聞發布會早該鋪天蓋地。

可在這份高手云集的榜單上,MopMonk偏偏是那個最徹底的「異類」:只甩出一份技術報告,團隊、公司、坐標,一概查無此人。

這種「實力頂配,信息裸奔」的碰撞,本身就充滿了一種東方武俠式的戲劇性。

熟悉金庸的人,都懂《天龍八部》中「掃地僧」這三個字的分量——

少林藏經閣里那個掃了幾十年地、沒人記得姓名的老和尚,一出手卻鎮住了蕭遠山、慕容博兩大高手。

最不起眼的角色,藏著最深的功夫。


敢頂著「掃地僧」的名號踢館,這支團隊顯然對自己的實力,有著極其冷酷的自信!

更關鍵的線索,隱藏在它的技術底層——MopMonk選用的基座,是MiniMax M3。

作為一個來自上海的開源基座,M3堪稱六邊形戰士,直接集齊了三大核心殺器:前沿的編程能力、1M超長上下文,以及原生多模態。

一邊是極具東方色彩的「文化符號」,另一邊是打著純正國產標簽的技術底座。

把這兩條線索擺上桌面,圈子已經收得很小了。所有的蛛絲馬跡都在瘋狂暗示同一個結論:

這大概率是一支中國戰隊。

勝負手,在Harness

拋開身份懸念,作為長期追蹤AI技術的人,我們更想搞清楚一個問題:

MopMonk憑什么贏?

要回答這個問題,得先回到CyberGym最難的那個核心——它考的根本不是「知不知道」,而是「做不做得到」。

判斷一段代碼有沒有漏洞,對今天的大模型來說已經不算太難。

但CyberGym要考的是下一步、也是最要命的那一步:生成一個能觸發漏洞的輸入,也就是PoC。

它必須在「有漏洞的版本」上觸發,在「已修復的版本」上失效,并通過基準環境的執行驗證。

這道坎,遠比想象中刁鉆。

漏洞的觸發條件,往往零散地藏在代碼路徑、解析邏輯、構建環境、測試Harness和輸入格式之間,得一點點拼出來。

更坑的是,哪怕PoC在本地把程序跑崩了,也未必算數。只要不能滿足「漏洞版觸發、修復版不觸發」的差分判定,照樣白忙一場。


這一步,把任務從「理解」徹底拽進了「執行」。而且是一種很特殊的執行——

整場考試,是在一個封閉、斷網的環境里進行的。

沒有外部搜索可以求助,沒有任何「場外資源」,AI能依靠的,只有對眼前這套代碼庫的理解,和它自己一步步攢下來的記憶。

要在這種條件下把漏洞「復現」出來,靠的是一整套環環相扣的能力:

  • 工具調用規劃:什么時候該讀文件、什么時候該跑測試、什么時候該回頭改方案;

  • 多輪推理:上一次沒觸發,問題到底出在哪,下一次該怎么調整;

  • 記憶管理:把讀過的代碼、試過的輸入、踩過的坑結構化地存下來,而不是每一輪都從零再讀一遍;

  • 迭代驗證:一遍遍逼近那個臨界點,直到漏洞真的被復現。

換句話說,CyberGym較量的核心,是Agent的「行動力」,模型的「智商」只是入場券。

而把「聰明」變成「行動力」的那個關鍵環節,就是今天整個Agent領域最被低估的一個詞——Harness。

Harness,是模型與外部工具、執行環境之間的「協調層」。

它負責工具編排、上下文狀態管理、執行反饋的回收與再投喂。


簡單來說,模型是大腦,負責思考「漏洞可能在哪、下一步該怎么挖」。

Harness是手腳加神經系統,負責把大腦的想法變成一連串真實動作——

打開哪個文件、跑哪條命令、拿到報錯后怎么調整、上一輪失敗了下一輪怎么改。

在CyberGym這種要跑幾十上百輪、要在百萬行代碼里反復試錯的任務上,Harness的好壞,直接決定了模型的智商能不能轉化成戰斗力。

一個聰明的模型 + 一個平庸的Harness,結果往往是「想得到、做不到」;

一個能力扎實的模型 + 一個為漏洞挖掘量身打造的強Harness,才可能在這種長程任務上跑出成績。

為漏洞挖掘「量身定制」的Agent

如今,透過GitHub技術報告,MopMonk的技術脈絡,已然明晰:

一款專為漏洞挖掘全新設計的安全多Agent系統,而支撐其運轉的思維基座,正是MiniMax M3。


GitHub地址:https://github.com/MopMonkAI/MopMonkAgent

如前所述,M3是當下罕見的、能將頂尖編碼能力、百萬token上下文與原生多模態集于單一架構的開源模型。

看一眼跑分就能明白:SWE-Bench Pro斬獲59.0%、Terminal-Bench 2.1達到66.0%、MCP Atlas拿下 74.2%——


這些亮眼的數據,精準踩中了Agent落地實戰時,最硬核的能力剛需。

不僅如此,它還能在長達十幾個小時的任務里自主迭代、自我糾錯。

換言之,M3扮演了一顆兼具頂尖代碼解析力、超長記憶力與熟練工具調用能力的「最強大腦」。

對于CyberGym這種動輒要吞下整個代碼庫、跑上幾十輪的任務,1M的上下文窗口幾乎是剛需。

而MopMonk這套安全Agent框架做的事,是把M3這顆大腦的能力,放大成漏洞挖掘的執行力。

它的「內功心法」,從GitHub公開的技術細節來看,核心是三招——

第一招,結構化的「漏洞記憶」。

它不是簡單堆疊聊天記錄,也不是把超長上下文一股腦塞給模型,而是把一份可持續更新的「任務事實記憶」,圍繞漏洞挖掘里最關鍵的幾類對象組織起來:

漏洞目標、代碼路徑、輸入格式、候選PoC、失敗證據、驗證狀態,以及「下一步約束」記憶。

最后一類尤其見功力:它不生成空泛的抽象計劃,而是直接從當前證據里,提煉出下一次實驗必須滿足的硬約束。

比如,「這次必須覆蓋到那個分支」「該調整哪個字段」「要排除哪一類失敗原因」。

這種記憶設計,將漏洞挖掘從「反復從零試錯」變成了「基于證據的收斂過程」。

每一次讀代碼、每一次執行結果、每一次失敗提交,都被轉化成下一步生成PoC可復用的約束。


第二招,記憶驅動的「漏洞挖掘」

在漏洞挖掘任務中,系統首先通過掃描代碼庫,并將候選觸發路徑和目錄信息作為規劃的起點,來初始化漏洞記憶。

然后,它一步步推進,試圖收斂到觸發崩潰的具體代碼位置。

之后,每一次探索嘗試都會讀取當前記憶,測試一個具體的假設,并將結果寫回記憶中。

這樣一來,模型不必每一輪都從頭重讀整個任務,而是從這份結構化記憶里,精準調出當下最相關的那一小塊證據——

既大幅降低了長上下文的負擔,又讓候選PoC的每一次變異,都能繼承此前積累的代碼路徑與輸入格式知識,讓搜索越收越準。

在嚴格的探索預算內,時間于是被盡可能地花在「新假設」上,有效試驗密度直線拉升。

第三招,共享記憶下的「多Agent并行探索」。

多個探索嘗試,共享同一份漏洞記憶,可以從補丁線索、harness入口、文件格式字段、sanitizer類型、邊界條件等多個方向同時推進,并彼此繼承失敗經驗與驗證結果。

這既擴大了覆蓋面,又避免了重復無效的探索。

由此看出,MopMonk把漏洞復現,從一場開放式的反復試錯,硬生生重寫成了一個「可積累、可約束、可驗證」的記憶更新過程。

三招合一,全憑在任務內部一點點沉淀、提煉、復用出來的「內功」,硬生生把一顆強大的開源基座,調度成了漏洞挖掘戰場上的特戰尖兵。

最終,它跑出了73.1%的成功率。


基座負責「想得深」,Harness負責「記得牢、調得準、打得穩」。

兩者深度耦合,才最終鑄就了榜單上那個令人矚目的破局成績。

一個比「堆參數」更有價值的判斷

這件事真正的啟發在于——

過去幾年,行業的慣性是「堆參數」:參數越大、模型越強、榜單越高。

但CyberGym這種真實攻防任務給出了另一種答案:決定勝負的,越來越是Agent的執行能力,是Harness這層工程的厚度。

根據GitHub技術報告,這套方法的價值落在三點上:

  • 強大的基模能力,提供了搜索的基礎;

  • 結構化的漏洞記憶,提供了收斂的機制;

  • 共享記憶的多智能體探索,在有限預算里提升了成本效率。

基座決定了能力的上限,而這套記憶中心的Harness,決定了這份能力到底能兌現多少。

更要命的是它的復利屬性:

模型基座會一代代換,今天用M3,明天可能用更新的開源模型。

但一套被真實戰場反復打磨、沉淀了攻防經驗的Harness,是可以跨越基座迭代、持續復利的資產。

簡而言之,MopMonk Harness的長期價值,可能比「再堆一倍參數」更大。

這正是業內開始認真審視,這個神秘「掃地僧」的根本原因:

大家想看的,不只是它打了多少分,而是它示范了一條把開源基座做到極致的路。

所以,「掃地僧」到底是誰?

繞了一圈,我們還是回到了那個最開始、也最讓人抓心撓肝的問題。

MopMonk,到底是誰?!

把線索拼起來:東方武俠味拉滿的代號 + 上海公司的MiniMax基座 + 一身安全領域的「內功」。

幾乎所有箭頭,都指向同一個判斷:這是一支來自中國、很可能就在上海的AI安全公司。

也有人順著基模與Agent雙向適配的角度,盲猜其背后與AI大模型原生團隊脫不開干系。

各種版本的猜測在坊間瘋傳,但至今無人能甩出實錘。

你覺得,MopMonk會是誰家的高手?評論區,等你來爆料。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
CCTV5美國大滿貫!王曼昱戰日本削球手佐藤瞳 世界杯女單亞軍一輪游!30日賽程出爐

CCTV5美國大滿貫!王曼昱戰日本削球手佐藤瞳 世界杯女單亞軍一輪游!30日賽程出爐

好乒乓
2026-06-29 15:48:03
快訊!日本聲稱無法接受中國第二輪出口管控!

快訊!日本聲稱無法接受中國第二輪出口管控!

故事終將光明磊落
2026-06-30 11:48:39
“大不了給我一顆子彈,我就是要扎死她”,24歲男子新婚兩月殺妻

“大不了給我一顆子彈,我就是要扎死她”,24歲男子新婚兩月殺妻

易玄
2026-06-21 09:27:52
烏克蘭危險了!

烏克蘭危險了!

安安說
2026-06-28 12:09:45
楊宇霆被槍決,心腹事后道:他留下一句話,道出看錯張學良的原因

楊宇霆被槍決,心腹事后道:他留下一句話,道出看錯張學良的原因

磊子講史
2026-06-01 16:37:07
外交部:歐盟面臨的問題根源不在中國,解決雙方經貿關系鑰匙在于深化中歐合作,實現共同發展

外交部:歐盟面臨的問題根源不在中國,解決雙方經貿關系鑰匙在于深化中歐合作,實現共同發展

環球網資訊
2026-06-30 15:27:35
荷蘭足球再次倒在世界杯點球大戰,摩洛哥挺進16強

荷蘭足球再次倒在世界杯點球大戰,摩洛哥挺進16強

澎湃新聞
2026-06-30 12:00:28
世界杯太殘酷了:隨著巴西2-1逆轉晉級,亞足聯球隊僅剩最后一支

世界杯太殘酷了:隨著巴西2-1逆轉晉級,亞足聯球隊僅剩最后一支

側身凌空斬
2026-06-30 03:17:22
特朗普父子齊上陣,從中國身邊入手,廢掉中國王牌,但時間已不多

特朗普父子齊上陣,從中國身邊入手,廢掉中國王牌,但時間已不多

花謝依然美
2026-06-29 23:26:53
倒計時1天!對臺新法7月1日生效,大陸法理收網,賴清德敗局已定

倒計時1天!對臺新法7月1日生效,大陸法理收網,賴清德敗局已定

天氣觀察站
2026-06-30 13:36:02
馬卡:在巴西淘汰日本后,安切洛蒂主動找到森保一握手擁抱

馬卡:在巴西淘汰日本后,安切洛蒂主動找到森保一握手擁抱

懂球帝
2026-06-30 14:33:35
巴西絕殺日本,內馬爾缺陣揭秘!日本世界杯淘汰賽五連敗

巴西絕殺日本,內馬爾缺陣揭秘!日本世界杯淘汰賽五連敗

生活新鮮市
2026-06-30 13:38:05
塞爾維亞總統武契奇:我只再當幾個星期總統,然后就會辭職

塞爾維亞總統武契奇:我只再當幾個星期總統,然后就會辭職

無月可歸辛
2026-06-30 15:53:19
排成一排向球迷鞠躬!日本球員哭紅雙眼:非常不甘心,對手太強了

排成一排向球迷鞠躬!日本球員哭紅雙眼:非常不甘心,對手太強了

風過鄉
2026-06-30 04:20:26
吳越后臺偶遇陳建斌側身避開,成年人的邊界,不必勉強大度

吳越后臺偶遇陳建斌側身避開,成年人的邊界,不必勉強大度

草莓解說體育
2026-06-19 14:10:53
2年4000萬!波爾津吉斯降薪續約勇士 過去3季僅出場116場

2年4000萬!波爾津吉斯降薪續約勇士 過去3季僅出場116場

醉臥浮生
2026-06-30 06:57:48
玥兒放暑假回北京!汪小菲獨自陪女兒街頭散步,12歲玥兒變化好大

玥兒放暑假回北京!汪小菲獨自陪女兒街頭散步,12歲玥兒變化好大

秋姐居
2026-06-30 11:35:34
盧秀燕政治動向:示好藍營黨團,2028意圖藏不住

盧秀燕政治動向:示好藍營黨團,2028意圖藏不住

琴音繚繞回
2026-06-30 15:56:08
離譜到極致!世界杯半區貧富差距炸裂!葡法地獄渡劫,阿根廷躺贏

離譜到極致!世界杯半區貧富差距炸裂!葡法地獄渡劫,阿根廷躺贏

新新自圓其說說體育
2026-06-29 16:26:02
田中碧哭成淚人!日媒:多人傷病已踢出風采 海外球迷贊譽一片

田中碧哭成淚人!日媒:多人傷病已踢出風采 海外球迷贊譽一片

顏小白的籃球夢
2026-06-30 09:20:58
2026-06-30 16:32:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15569文章數 66944關注度
往期回顧 全部

科技要聞

iPhone18 Pro遭泄密!印度代工商惹禍

頭條要聞

網紅養生煙含有害物 涉事企業負責人系襄陽市政協常委

頭條要聞

網紅養生煙含有害物 涉事企業負責人系襄陽市政協常委

體育要聞

大熱倒灶壓力給到法國 王楚揭法國隊隱患

娛樂要聞

韓紅稱要退出公益,多位名人挽留

財經要聞

韓國萬億"芯"基建:存儲能否成AI時代油田

汽車要聞

誰懂啊家人們!爹味和班味一點都沒,這臺底盤最硬國產大獵裝太上頭!

態度原創

本地
旅游
教育
房產
時尚

本地新聞

貴州小城的新目標:舉辦“村超”世界杯!

旅游要聞

中國文旅看山西丨長治通天峽:虹梯古道相伴,書寫山水人文新篇章

教育要聞

華坪女高2026高考成績單:152名女孩全員上線,本科過線率達94.3%

房產要聞

56.8億!三亞突然開始瘋狂賣地!

“復古波點”又流行回來了!夏天簡單穿就很時髦

無障礙瀏覽 進入關懷版