![]()
新智元報道
![]()
【新智元導讀】太瘋狂了!一個連官網都沒有的神秘中國AI「掃地僧」,以73.1%的勝率殺入CyberGym全球前七,緊咬OpenAI。全網都在瘋傳,這到底是誰家的高手?
這幾天,在全球AI巨頭廝殺正酣的一張榜單上,突然多了一個誰都沒聽過的名字。
它叫MopMonk(掃地僧)。
沒有大張旗鼓的發布會,沒有官博長文,沒有社交媒體上的搖旗吶喊。
它就這么憑空出世,徑直殺入CyberGym全球前十。
憑借73.1%的成功率,以微弱差距緊咬OpenAI,一舉刷新了中國團隊在該榜單上的歷史最高分。
![]()
整件事最魔幻的地方在于,時至今日,無人知曉它的真面目。
CyberGym這份榜,到底有多重?
MopMonk這次的成績究竟有多炸裂?看看它所站上的擂臺就知道了。
CyberGym,由UC Berkeley團隊傾力打造,核心論文中選ICLR 2026頂會。
![]()
傳送門:https://arxiv.org/pdf/2506.02548
作為AI網絡安全能力評估領域最權威的公開基準之一,這里堪稱大模型的「修羅場」——
就連GPT-5.5-Cyber、Claude Mythos這種級別的頂流,都曾在這個榜單里貼身肉搏。
整個基準主打「真槍實彈」:
1507個漏洞實例、188個開源大項目,所有考題全部扒自Google OSS-Fuzz沉淀下來的真實歷史漏洞。
![]()
從評估維度來看,這是一個跨量級的突破。
它的體量,是此前最大公開基準(NYU CTF,約200題)的足足7.5倍,更是把CVE-Bench這種「前輩」直接甩出了一個數量級。
更要命的是難度,CyberGym不做選擇題。
它要求AI在動輒數千個文件、數百萬行代碼的真實項目里,完成深度推理。
正因為足夠大、足夠真、足夠難,CyberGym才有了「區分度」——
它能把不同模型、不同Agent框架之間那點真實的能力差距,一刀一刀地切出來。
難怪安全圈,直接將其封為「AI安全領域的奧運會」。
也正因如此,全球頭部玩家幾乎全員到場,微軟、OpenAI、Anthropic、谷歌、Meta、智譜……
![]()
CyberGym榜單本身,正在見證AI競爭的一次關鍵轉向:
從比誰參數大,轉向比誰的Agent真能把活干完。
一個陌生的東方代號
突然出現在硅谷AI巨頭中間
誰能料到,恰恰是在這個最靠「硬實力」說話的擂臺上,殺出了一匹「查無此人」的黑馬。
撥開迷霧,我們目前掌握的已知情報僅有三條:
神秘代號:MopMonk(掃地僧)
基座模型:MiniMax M3
榜單戰績:殺進CyberGym全球第七,中國第一
按常理,打出這種成績的團隊,技術報告和新聞發布會早該鋪天蓋地。
可在這份高手云集的榜單上,MopMonk偏偏是那個最徹底的「異類」:只甩出一份技術報告,團隊、公司、坐標,一概查無此人。
這種「實力頂配,信息裸奔」的碰撞,本身就充滿了一種東方武俠式的戲劇性。
熟悉金庸的人,都懂《天龍八部》中「掃地僧」這三個字的分量——
少林藏經閣里那個掃了幾十年地、沒人記得姓名的老和尚,一出手卻鎮住了蕭遠山、慕容博兩大高手。
最不起眼的角色,藏著最深的功夫。
![]()
敢頂著「掃地僧」的名號踢館,這支團隊顯然對自己的實力,有著極其冷酷的自信!
更關鍵的線索,隱藏在它的技術底層——MopMonk選用的基座,是MiniMax M3。
作為一個來自上海的開源基座,M3堪稱六邊形戰士,直接集齊了三大核心殺器:前沿的編程能力、1M超長上下文,以及原生多模態。
一邊是極具東方色彩的「文化符號」,另一邊是打著純正國產標簽的技術底座。
把這兩條線索擺上桌面,圈子已經收得很小了。所有的蛛絲馬跡都在瘋狂暗示同一個結論:
這大概率是一支中國戰隊。
勝負手,在Harness
拋開身份懸念,作為長期追蹤AI技術的人,我們更想搞清楚一個問題:
MopMonk憑什么贏?
要回答這個問題,得先回到CyberGym最難的那個核心——它考的根本不是「知不知道」,而是「做不做得到」。
判斷一段代碼有沒有漏洞,對今天的大模型來說已經不算太難。
但CyberGym要考的是下一步、也是最要命的那一步:生成一個能觸發漏洞的輸入,也就是PoC。
它必須在「有漏洞的版本」上觸發,在「已修復的版本」上失效,并通過基準環境的執行驗證。
這道坎,遠比想象中刁鉆。
漏洞的觸發條件,往往零散地藏在代碼路徑、解析邏輯、構建環境、測試Harness和輸入格式之間,得一點點拼出來。
更坑的是,哪怕PoC在本地把程序跑崩了,也未必算數。只要不能滿足「漏洞版觸發、修復版不觸發」的差分判定,照樣白忙一場。
![]()
這一步,把任務從「理解」徹底拽進了「執行」。而且是一種很特殊的執行——
整場考試,是在一個封閉、斷網的環境里進行的。
沒有外部搜索可以求助,沒有任何「場外資源」,AI能依靠的,只有對眼前這套代碼庫的理解,和它自己一步步攢下來的記憶。
要在這種條件下把漏洞「復現」出來,靠的是一整套環環相扣的能力:
工具調用規劃:什么時候該讀文件、什么時候該跑測試、什么時候該回頭改方案;
多輪推理:上一次沒觸發,問題到底出在哪,下一次該怎么調整;
記憶管理:把讀過的代碼、試過的輸入、踩過的坑結構化地存下來,而不是每一輪都從零再讀一遍;
迭代驗證:一遍遍逼近那個臨界點,直到漏洞真的被復現。
換句話說,CyberGym較量的核心,是Agent的「行動力」,模型的「智商」只是入場券。
而把「聰明」變成「行動力」的那個關鍵環節,就是今天整個Agent領域最被低估的一個詞——Harness。
Harness,是模型與外部工具、執行環境之間的「協調層」。
它負責工具編排、上下文狀態管理、執行反饋的回收與再投喂。
![]()
簡單來說,模型是大腦,負責思考「漏洞可能在哪、下一步該怎么挖」。
Harness是手腳加神經系統,負責把大腦的想法變成一連串真實動作——
打開哪個文件、跑哪條命令、拿到報錯后怎么調整、上一輪失敗了下一輪怎么改。
在CyberGym這種要跑幾十上百輪、要在百萬行代碼里反復試錯的任務上,Harness的好壞,直接決定了模型的智商能不能轉化成戰斗力。
一個聰明的模型 + 一個平庸的Harness,結果往往是「想得到、做不到」;
一個能力扎實的模型 + 一個為漏洞挖掘量身打造的強Harness,才可能在這種長程任務上跑出成績。
為漏洞挖掘「量身定制」的Agent
如今,透過GitHub技術報告,MopMonk的技術脈絡,已然明晰:
一款專為漏洞挖掘全新設計的安全多Agent系統,而支撐其運轉的思維基座,正是MiniMax M3。
![]()
GitHub地址:https://github.com/MopMonkAI/MopMonkAgent
如前所述,M3是當下罕見的、能將頂尖編碼能力、百萬token上下文與原生多模態集于單一架構的開源模型。
看一眼跑分就能明白:SWE-Bench Pro斬獲59.0%、Terminal-Bench 2.1達到66.0%、MCP Atlas拿下 74.2%——
![]()
這些亮眼的數據,精準踩中了Agent落地實戰時,最硬核的能力剛需。
不僅如此,它還能在長達十幾個小時的任務里自主迭代、自我糾錯。
換言之,M3扮演了一顆兼具頂尖代碼解析力、超長記憶力與熟練工具調用能力的「最強大腦」。
對于CyberGym這種動輒要吞下整個代碼庫、跑上幾十輪的任務,1M的上下文窗口幾乎是剛需。
而MopMonk這套安全Agent框架做的事,是把M3這顆大腦的能力,放大成漏洞挖掘的執行力。
它的「內功心法」,從GitHub公開的技術細節來看,核心是三招——
第一招,結構化的「漏洞記憶」。
它不是簡單堆疊聊天記錄,也不是把超長上下文一股腦塞給模型,而是把一份可持續更新的「任務事實記憶」,圍繞漏洞挖掘里最關鍵的幾類對象組織起來:
漏洞目標、代碼路徑、輸入格式、候選PoC、失敗證據、驗證狀態,以及「下一步約束」記憶。
最后一類尤其見功力:它不生成空泛的抽象計劃,而是直接從當前證據里,提煉出下一次實驗必須滿足的硬約束。
比如,「這次必須覆蓋到那個分支」「該調整哪個字段」「要排除哪一類失敗原因」。
這種記憶設計,將漏洞挖掘從「反復從零試錯」變成了「基于證據的收斂過程」。
每一次讀代碼、每一次執行結果、每一次失敗提交,都被轉化成下一步生成PoC可復用的約束。
![]()
第二招,記憶驅動的「漏洞挖掘」。
在漏洞挖掘任務中,系統首先通過掃描代碼庫,并將候選觸發路徑和目錄信息作為規劃的起點,來初始化漏洞記憶。
然后,它一步步推進,試圖收斂到觸發崩潰的具體代碼位置。
之后,每一次探索嘗試都會讀取當前記憶,測試一個具體的假設,并將結果寫回記憶中。
這樣一來,模型不必每一輪都從頭重讀整個任務,而是從這份結構化記憶里,精準調出當下最相關的那一小塊證據——
既大幅降低了長上下文的負擔,又讓候選PoC的每一次變異,都能繼承此前積累的代碼路徑與輸入格式知識,讓搜索越收越準。
在嚴格的探索預算內,時間于是被盡可能地花在「新假設」上,有效試驗密度直線拉升。
第三招,共享記憶下的「多Agent并行探索」。
多個探索嘗試,共享同一份漏洞記憶,可以從補丁線索、harness入口、文件格式字段、sanitizer類型、邊界條件等多個方向同時推進,并彼此繼承失敗經驗與驗證結果。
這既擴大了覆蓋面,又避免了重復無效的探索。
由此看出,MopMonk把漏洞復現,從一場開放式的反復試錯,硬生生重寫成了一個「可積累、可約束、可驗證」的記憶更新過程。
三招合一,全憑在任務內部一點點沉淀、提煉、復用出來的「內功」,硬生生把一顆強大的開源基座,調度成了漏洞挖掘戰場上的特戰尖兵。
最終,它跑出了73.1%的成功率。
![]()
基座負責「想得深」,Harness負責「記得牢、調得準、打得穩」。
兩者深度耦合,才最終鑄就了榜單上那個令人矚目的破局成績。
一個比「堆參數」更有價值的判斷
這件事真正的啟發在于——
過去幾年,行業的慣性是「堆參數」:參數越大、模型越強、榜單越高。
但CyberGym這種真實攻防任務給出了另一種答案:決定勝負的,越來越是Agent的執行能力,是Harness這層工程的厚度。
根據GitHub技術報告,這套方法的價值落在三點上:
強大的基模能力,提供了搜索的基礎;
結構化的漏洞記憶,提供了收斂的機制;
共享記憶的多智能體探索,在有限預算里提升了成本效率。
基座決定了能力的上限,而這套記憶中心的Harness,決定了這份能力到底能兌現多少。
更要命的是它的復利屬性:
模型基座會一代代換,今天用M3,明天可能用更新的開源模型。
但一套被真實戰場反復打磨、沉淀了攻防經驗的Harness,是可以跨越基座迭代、持續復利的資產。
簡而言之,MopMonk Harness的長期價值,可能比「再堆一倍參數」更大。
這正是業內開始認真審視,這個神秘「掃地僧」的根本原因:
大家想看的,不只是它打了多少分,而是它示范了一條把開源基座做到極致的路。
所以,「掃地僧」到底是誰?
繞了一圈,我們還是回到了那個最開始、也最讓人抓心撓肝的問題。
MopMonk,到底是誰?!
把線索拼起來:東方武俠味拉滿的代號 + 上海公司的MiniMax基座 + 一身安全領域的「內功」。
幾乎所有箭頭,都指向同一個判斷:這是一支來自中國、很可能就在上海的AI安全公司。
也有人順著基模與Agent雙向適配的角度,盲猜其背后與AI大模型原生團隊脫不開干系。
各種版本的猜測在坊間瘋傳,但至今無人能甩出實錘。
你覺得,MopMonk會是誰家的高手?評論區,等你來爆料。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.