網易首頁 > 網易號 > 正文 申請入駐

不卷跑分不養蝦,MiniMax M2.7 帶來了一個真正能打的 Cowork Agent

0
分享至


3月18日晚,Minimax 悄悄上了波大分。

更新了其最新的M2.7版本,并且官方還給出了一個核心定義:M2.7,是 MiniMax 第一代深度參與自身進化的模型。

其不僅在指令遵循、辦公協同、Coding 方面有明顯提升,更重要的是它能夠自主搭建 Agent Harness。也就是說,它能搭出一套完整的任務框架,調用各種技能和工具,解決單個模型搞不定的問題,思考干活兩手抓,妥妥的“自我進化”。

但這不是光說不練,Minimax還甩出了可驗證的測試數據。在測試中,測試員給它甩在了MLE Lite 22道高難度競賽中,M2.7取得了9金5銀1銅的成績,僅次于Opus-4.6、GPT-5.4,與Gemini-3.1持平。

另外,在當下行業最關注的 Agent 真實任務執行能力評測上,M2.7 的表現同樣出圈。在基于標準化 OpenClaw Agent 測試的 PinchBench 榜單中,剛發布的 M2.7 快速登頂,以 86.2% 的任務成功率擊敗英偉達 Nemotron 3,拿下了 Best score 榜單的全球第四名,僅次于 Claude Sonnet 4.6、GPT-5.4、Claude Opus 4.6,刷新了國內大模型在該榜單的最好成績。


而此次更新僅僅距離 M2.5 過去一個月。接連刷新的榜單、肉眼可見的能力躍升,都在印證一件事:大模型的能力已經不僅僅局限于答題、寫代碼的基礎能力,正在向自主規劃、自主迭代進化。

尤其是 OpenClaw 爆火后,大家更在意的,已經不是模型能不能寫代碼了,而是接進真實工作流以后到底好不好用。說白了,就是把模型和工具真正接起來跑任務之后,它會不會掉鏈子,能不能把事情接著往下做。OpenClaw 本身就是沖著這種用法去的,所以現在大家都在找一個更合適的大模型接入。

我們第一時間拿到了上手評測的機會。這一次,我們核心要驗證的只有一件事:接入 OpenClaw 之后,M2.7 的真實體驗到底如何?M2.7 到底是不是現在國內最好的 Cowork Agent?


長鏈路任務的穩定性,才是真分水嶺

最近 OpenClaw 這波熱度,大家應該都感受得到。現在模型能接進去,真不算新鮮事了,真正開始拉開差距的,是接進去以后到底好不好使。任務短的時候,很多模型都還能裝得挺像樣;一旦開始掛 skills、開始疊約束、開始把流程拉長,問題就出來了,前面條件沒吃透,后面補充一句它就亂,做到一半直接掉線。

OpenClaw 本來就是沖著把模型和工具、會話、任務鏈路接起來去的,所以放在這個環境里測,反而更容易看出一個模型到底靠不靠譜。

第一個任務是一道約束很多的龍蝦活動題,預算、人群、渠道、門店承載、風險和備選方案全都提前卡死,重點就看它會不會先把條件理清,再往下拆。

M2.7 這一步給我的感覺還不錯,沒有急著往外發散,而是先把約束撈出來,再拆任務,再給方案,這種起手方式就比較讓人放心。而這也正是 M2.7 本次升級的核心強化方向 —— 復雜長鏈路任務的承接與落地,實測下來的表現的確不俗。

接著我把任務再拉長一點。先給一版基礎方案,然后一輪一輪往上加條件,不能打折、供應鏈有限、門店人手少、目標人群變了,最后再加一個更像真實業務會提的要求,希望這套活動下個月還能復用成 SOP。

全程下來,M2.7 沒有出現很多模型常見的 “一加需求就推翻重寫” 的問題,始終能沿著初始的核心邏輯持續優化迭代,這一點對于長流程工作流來說,至關重要。第三輪迭代中它出現了短暫的卡頓,能看出超長鏈路中仍有小幅波動,但在追問之后,它快速補齊了所有內容,包括最小可復用版本、標準化執行環節、人工決策節點,完整承接,沒有出現信息遺漏。

跑完這兩組全鏈路任務,M2.7 在 OpenClaw 里的表現已經非常清晰:它最核心的價值,不是單輪輸出多么驚艷的答案,而是任務啟動時邏輯清晰、鏈路拉長后不易散架、多輪迭代中不丟約束。在真實的工作流里,這種穩定的持續交付能力,遠比單輪的華麗輸出重要得多。而在復雜長鏈路任務的承接上,M2.7 已經交出了國內最好的 Cowork Agent該有的滿分答卷。


代碼能力全場景驗證:從 “寫代碼” 到 “做項目” 的工程化躍升

真要看編程能力,還是得把項目丟過去。MiniMax 這次公開給出的方向里,Coding 的位置明顯更靠前。官方數據顯示,在 SWE-Pro 基準測試中,M2.7 得分 56.22%,無限接近 Claude Opus 的頂級水平;在端到端完整項目交付的 VIBE-Pro 測試中得分 55.6%,在復雜工程系統理解的 Terminal Bench 2 測試中得分 57.0%。更重要的是,它的能力早已跳出了單純的代碼生成,延伸到了日志分析、Bug 定位、故障排障、工程重構等高階開發領域,而這種變化,在實測中有著極為直觀的體感。


在前端測試環節,我們給出了一個品牌展示官網的全量開發需求,這個任務的難度并非簡單的頁面拼接 ——它會包含品牌調性、視覺配色、頁面節奏、交互動效、粒子特效等多個維度,并且多個維度必須同時達標,最終產出的才是一個能真正商用的官網。很多模型在這里最容易翻車的。而 M2.7 的表現也超出了我的意料,尤其是配合官方 Skill 協同運行時,頁面的完成度直接拉滿,完全沒有常見的模板化痕跡,視覺層次、品牌配色、交互動效完全統一,最終交付的是一個可以直接上線使用的完整站點,而非零散的代碼片段。

在后端測試環節,我給 M2.7 的不是補幾段接口代碼的小任務,而是一個從零開始往下搭的真實項目。技術棧用的是 Python、FastAPI 和 PostgreSQL,里面既有接口、數據模型、鑒權這些基礎環節,也有遷移、測試、文檔和后續排障。這類任務真正難的地方,不在代碼量,而在上下文要一直對得上,前面定下來的結構,后面每一步都不能亂。 M2.7 這一輪最讓人驚喜的一點,就是它在這種連續工程任務中,更像是資深開發的項目管理思維,而非單純的代碼生成工具:先搭好完整的項目骨架,再逐層補齊數據庫設計、業務接口、測試用例、接口文檔,項目上線跑通后,遇到問題還能自主排查、快速修復,全程邏輯連貫,沒有出現任何架構跑偏、上下文脫節的問題。

M2.7 這次編程能力最明顯的變化,不是某個點突然特別炸,而是工程感更強了。前端會往展示結果上收,后端也能按項目節奏一路往下推。現在模型會寫代碼已經不稀奇了,真正有價值的是項目跑起來之后還能不能繼續跟。就這一點看,M2.7 已經不只是一個會生成代碼的模型了,而是在往真正能參與開發流程的 Cowork Agent 方向走。放到國內這批模型里,這種工程參與感其實很少見。


辦公自動化全鏈路考驗:覆蓋完整知識工作流的協同能力

Office 自動化這塊,我沒有拿簡單表格來試,而是直接上了一條完整鏈路。先生成一套模擬經營數據,再基于數據做復雜金融圖表,最后把圖表和數據整理成網頁數據報告。這里測的已經不是會不會寫公式,而是數據、圖表、分析和展示能不能連成一套結果。


M2.7 這一輪的表現比較扎實。數據生成不是隨便拼數字,收入、利潤率、現金流、營收這些指標之間有基本邏輯;圖表也不是簡單折線圖,而是把幾個關鍵經營指標放進同一個分析畫面里,信息密度和重點都夠。繼續往下做網頁報告時,它也沒有停在把圖貼上去,而是把核心結論、風險點和管理建議一起整理出來,最后形成的是一份能直接展示的頁面,不是一堆零散素材。


它現在展現出來的,已經不是基礎表格處理能力了,而是復雜 Office 自動化能力。數據清洗、圖表生成、分析歸納、匯報整理這一整條鏈路,它都能繼續往下做,多輪修改之后結構也沒有明顯散掉。放到真實辦公場景里,這種表現比單獨會做 Excel、會寫報告更有參考價值,因為它開始覆蓋的是更完整的知識工作流程。

從能力邊界來看,M2.7 的能力已經不只是停留在辦公整理層面。其不僅能完整落地企業經營分析全鏈路任務,并且對于資料歸納、研究鏈路梳理、專業分析與結果匯總這類更高階的知識工作,也能輕松完成。


最佳 Cowork Agent 來了嗎?

這一輪測下來,M2.7 給我最明顯的感覺,已經不只是編程能力繼續往上走了一點,真正拉開差距的地方,在于它對智能體工作流的支持更完整了。尤其放進 OpenClaw 之后,這種變化會更明顯。任務交過去,它不只是給一段回答,很多時候是真的能順著任務往下做,過程中也沒那么容易散。單看這一點,我會直接把 M2.7 放在國內最好 Cowork Agent 的位置上。

如果用幾句話概括 M2.7 這次最值得看的地方,核心還是連續性、穩定性和落地感。

不過更值得注意的是,它這次已經開始顯出自我迭代能力。

官方給出的路徑很清楚,不只是讓模型調用 Agent Harness 干活,而是讓它基于短時記憶、自反饋和自優化去反復調整自己的做事方法。內部腳手架優化里,M2.7 可以連續跑超過 100 輪分析失敗軌跡、規劃改動、修改代碼、回跑評測、對比結果,再決定保留還是回退,內部評測效果提升 30%。放到更重的機器學習任務里,它在 MLE Bench Lite 22 個任務上拿到 9 金 5 銀 1 銅,平均得牌率 66.6%。這說明它已經不只是執行任務,也開始參與優化完成任務的路徑。

當下整個行業都在跟風適配 OpenClaw,忙著教模型怎么用好人類打造的工具,卻很少有人真正去突破模型的能力邊界 —— 讓模型自己造工具、自己搭框架、自己完成迭代進化。M2.7 自主搭建 Agent Harness 的能力,本質上是讓模型擁有了自主打造 “任務操作臺” 的能力,它不再局限于人類給定的工具與框架,而是能根據任務需求,自主搭建完整的任務執行體系,調度多智能體協同作業,甚至能通過自反饋、自優化,持續迭代這套體系本身。

更重要的是,它已經深度參與到了 MiniMax 自身的模型研發流程中,成為了下一代模型研發的核心參與者,真正實現了 “模型訓練模型” 的正向循環。這種自我迭代的技術創新,不僅讓 M2.7 坐穩了國內最好 Cowork Agent 的位置,更提前搶占了下一代大模型競爭的核心分水嶺,開啟了大模型自主進化的全新紀元。

顯然,M2.7 更適合那些已經不滿足于簡單問答的人。獨立開發者、全棧工程師、產品型開發者,或者本來就會把模型接進自己工作流的人,用起來會更容易感受到它的價值。因為這類用戶真正關心的,從來不是模型會不會說幾句聰明話,而是能不能把任務拆開、持續推進、出問題后繼續修正,最后把結果交出來。

借著M2.7,我們似乎也看到了最強的 Cowork Agent 長什么樣子,或許在未來,我們能看到 AI 能承接更多的任務,解決更復雜的任務。

如果你當下正在關注 OpenClaw 的生態,或是正在尋找一款接入后足夠順手、足夠能打、能真正融入工作流的大模型,M2.7 絕對值得你親自上手實測。

體驗地址如下,快來試試吧!

MiniMax Agent:

agent.minimaxi.com

Token Plan 訂閱:

https://platform.minimaxi.com/subscribe/token-plan

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中國19號底牌一亮相,美國才意識到嚴重性:真正的變局已經開始

中國19號底牌一亮相,美國才意識到嚴重性:真正的變局已經開始

南宗歷史
2026-04-26 04:53:55
駐日武官王慶簡:為日本潛伏20年出賣軍事機密,卻因一動作暴露身份

駐日武官王慶簡:為日本潛伏20年出賣軍事機密,卻因一動作暴露身份

睡前講故事
2026-02-03 20:55:43
差距懸殊!胡歌飯局雪茄曝光,普通人根本消費不起

差距懸殊!胡歌飯局雪茄曝光,普通人根本消費不起

南萬說娛26
2026-04-24 10:33:19
央視紅人洛桑之死,時隔25年后,搭檔博林坦白:他根本沒喝多少酒

央視紅人洛桑之死,時隔25年后,搭檔博林坦白:他根本沒喝多少酒

漫婷侃娛樂
2026-04-26 13:27:40
經常“放屁”是肝不好嗎?提醒:放屁多很可能與這5種疾病有關!

經常“放屁”是肝不好嗎?提醒:放屁多很可能與這5種疾病有關!

芹姐說生活
2026-04-25 16:12:39
“香港演員幾乎全軍覆沒! 無戲可拍”引發網友熱議

“香港演員幾乎全軍覆沒! 無戲可拍”引發網友熱議

許三歲
2026-03-26 11:35:13
250萬賠償不算啥?官方介入,崔麗麗事件“創先河”,釋放3大信號

250萬賠償不算啥?官方介入,崔麗麗事件“創先河”,釋放3大信號

天天熱點見聞
2026-04-25 06:27:01
鄭維山本來已交接準備回國,聽聞韓總統不服,掉頭怒殲28000韓軍

鄭維山本來已交接準備回國,聽聞韓總統不服,掉頭怒殲28000韓軍

談古論今歷史有道
2026-04-25 10:55:03
班主任連帶出5屆狀元,評優卻沒她,被私立學校挖走后,校長上門

班主任連帶出5屆狀元,評優卻沒她,被私立學校挖走后,校長上門

卡西莫多的故事
2025-11-18 10:27:13
不聽趙本山勸告,拋棄發妻凈身出戶,轉身迎娶小19歲“女兒閨蜜”

不聽趙本山勸告,拋棄發妻凈身出戶,轉身迎娶小19歲“女兒閨蜜”

曉徙娛樂
2026-04-26 09:26:43
打臉詹黑?比斯利辟謠詹姆斯單挑被自己打爆!

打臉詹黑?比斯利辟謠詹姆斯單挑被自己打爆!

歷史第一人梅西
2026-04-26 14:37:36
恭喜這3生肖,明年比今年更富,實力與福氣疊加,日子越過越富

恭喜這3生肖,明年比今年更富,實力與福氣疊加,日子越過越富

毅談生肖
2026-04-26 11:28:40
尚界汽車法務部官方微博上線

尚界汽車法務部官方微博上線

三言科技
2026-04-24 08:03:35
阿里云 1053 億、份額增 2.7%;華為云 436 億、降 2.1%;騰訊云 292 億、降 0.3%

阿里云 1053 億、份額增 2.7%;華為云 436 億、降 2.1%;騰訊云 292 億、降 0.3%

云頭條
2026-04-24 15:41:03
越南一渣男用私密視頻要挾前女友:強迫她與9個陌生男人發生關系,自己收錢

越南一渣男用私密視頻要挾前女友:強迫她與9個陌生男人發生關系,自己收錢

緬甸中文網
2026-04-26 13:19:20
抓抽煙沒空,刪帖1小時上門:深圳速度快得讓人膽寒

抓抽煙沒空,刪帖1小時上門:深圳速度快得讓人膽寒

虔青
2026-04-25 22:10:10
兩名襲擊者全程戴頭盔,高喊侮辱先知,監控拍下瘋狂砍殺近四分鐘

兩名襲擊者全程戴頭盔,高喊侮辱先知,監控拍下瘋狂砍殺近四分鐘

獨舞獨舞
2026-04-26 07:54:46
特朗普抨擊哈里王子訪烏,俄市民哀嘆烏克蘭襲擊后當地像廣島和切爾諾貝利 | 狼叔看世界

特朗普抨擊哈里王子訪烏,俄市民哀嘆烏克蘭襲擊后當地像廣島和切爾諾貝利 | 狼叔看世界

狼叔看世界
2026-04-24 15:29:22
22噸!黃金,再現大拋售

22噸!黃金,再現大拋售

中國基金報
2026-04-25 18:25:44
鹽城城投 “超級內循環”:肥水不流外人田,民企還能分幾杯羹?

鹽城城投 “超級內循環”:肥水不流外人田,民企還能分幾杯羹?

MC洋洋拍客
2026-04-24 16:52:05
2026-04-26 15:11:00
CSDN incentive-icons
CSDN
成就一億技術人
26482文章數 242272關注度
往期回顧 全部

數碼要聞

電視反光嚴重怎么辦?華為智慧屏 S7 Pro展現低反光硬核實力

頭條要聞

特朗普2年內遭遇4次刺殺威脅 第一個任期也曾險遭襲擊

頭條要聞

特朗普2年內遭遇4次刺殺威脅 第一個任期也曾險遭襲擊

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《八千里路云和月》大結局意難平

財經要聞

DeepSeek V4背后,梁文鋒的轉身

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

本地
教育
家居
藝術
公開課

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

教育要聞

麻省理工公開課19:吉爾伯特教授線性代數課-

家居要聞

自然肌理 溫潤美學

藝術要聞

鄭麗文訪問清華附中引發熱議,蔣中正信札字跡真實性遭質疑

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版