亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

實測MiniMax M2.7 :上能拆英偉達(dá),下能演我爸媽

0
分享至



總覺得MiniMax才發(fā)布M2.5,如今M2.7就上線了。查了一下,真的只隔了一個月(要知道,中間還隔了一個春節(jié))。

MiniMax在官方微信公眾號文章中表示:“MiniMax M2.7是我們第一個模型深度參與迭代自己的模型?!?/p>

這幾年,“AI自我進(jìn)化”幾乎已經(jīng)從一個略帶科幻感的說法,變成了行業(yè)里默認(rèn)成立的方向。

谷歌前CEO埃里克·施密特(Eric Schmidt)更是總結(jié),目前已經(jīng)形成了一個“硅谷共識”:隨著人工智能推理能力和記憶系統(tǒng)的發(fā)展,它將重塑人類的運作方式。最終我們將達(dá)到所謂的遞歸式自我改進(jìn)——屆時,系統(tǒng)將以人類無法理解的速度進(jìn)行學(xué)習(xí)。

目前,這件事已經(jīng)被拆解成更具體的工程路徑:用模型生成數(shù)據(jù)、用模型做評測,甚至讓模型參與到代碼修改和實驗流程里。

模型被放進(jìn)了一個可以不斷試錯、不斷反饋的循環(huán)系統(tǒng)里。在這個系統(tǒng)中,模型既是執(zhí)行者,也是部分決策者,而人更多退到設(shè)定目標(biāo)和邊界的位置。

M2.7這次強調(diào)的Agent Harness,也是把原本需要多人協(xié)作完成的一整套研發(fā)流程,盡可能壓縮進(jìn)一個可以持續(xù)運行的循環(huán)里,讓模型去承擔(dān)其中越來越多的環(huán)節(jié)。

MiniMax亮出的Benchmark成績也相當(dāng)亮眼:



這些benchmark對應(yīng)不同的能力維度:SWE Bench和VIBE-Pro更接近真實的軟件工程任務(wù),而Toolathon和MM-ClawBench則強調(diào)模型在復(fù)雜流程中的執(zhí)行能力;相比之下,MLE-Bench等測試則更偏向算法與研究能力。

從結(jié)果來看,M2.7在工程執(zhí)行類任務(wù)中已經(jīng)進(jìn)入第一梯隊,這一點在幾個關(guān)鍵指標(biāo)上體現(xiàn)得比較明顯。

比如在SWE Bench Pro上,它的表現(xiàn)已經(jīng)接近甚至超過部分一線模型,這類測試本質(zhì)上是在真實代碼庫中定位問題并完成修復(fù),更接近“線上排障”的場景;

而在VIBE-Pro這種端到端項目任務(wù)中,M2.7同樣處在第一梯隊,這意味著它不只是會補代碼,而是具備從需求到交付完整產(chǎn)出的能力。

另一個比較值得注意的是MM-ClawBench這一類Agent測試。這里考查的不是單步能力,而是模型在長流程中的穩(wěn)定執(zhí)行能力,能不能在多步驟任務(wù)中持續(xù)調(diào)用工具、保持上下文、最終把事情做完。

M2.7在這一項上已經(jīng)接近頭部模型,說明它在“能不能把活干完”這件事上,確實已經(jīng)跨過了一道門檻。

但如果切換到更偏研究和復(fù)雜推理的任務(wù),比如MLE-Bench這一類測試,M2.7仍有進(jìn)步空間。這類任務(wù)更接近算法工程或科研場景,要求模型具備更強的抽象能力和系統(tǒng)性建模能力,這一部分目前仍然是頭部模型的優(yōu)勢區(qū)間。

好了,硬核的信息放在一邊,拿到MiniMax M2.7內(nèi)測API的那一刻,我們第一反應(yīng)是:“能用它整點什么活?”

把它丟進(jìn)一個真實的場景里,看它能不能滿足我的需求,這最直觀,也最接地氣。

所以我們給M2.7設(shè)計了四場“考試”,難度從低到高,場景從荒誕到嚴(yán)肅:先讓它同時扮演我爸媽和弟弟在微信群里聊天,再搭一個Agent Harness框架讓它自主編程(做一個霓虹燈數(shù)字時鐘熱熱身,再從零寫一個貪吃蛇游戲),最后把英偉達(dá)的年報甩給它,讓它像分析師一樣輸出研究報告、交互式儀表盤和演示文稿。

玩了一下午,只想說:M2.7,你有點東西。

01

讓AI同時扮演我全家人

我們做的第一個測試,靈感來源于每個中國人手機里都有的那個東西——家族微信群。

你知道的,就是那種群名叫“相親相愛一家人”的群,里面永遠(yuǎn)有人在轉(zhuǎn)發(fā)養(yǎng)生文章,有人在發(fā)語音消息,有人在催你結(jié)婚,還有人在打游戲不回消息。

這個場景之所以適合測試AI,是因為它對“角色一致性”的要求極高。

群里每個人的說話方式、關(guān)注點,甚至打字習(xí)慣都完全不同,而且他們之間還會互相接話、抬杠、拌嘴。

我們用M2.7搭了一個高仿微信界面的網(wǎng)頁應(yīng)用,連手機外殼、狀態(tài)欄、綠色氣泡都做了出來,力求還原度拉滿。一開始我想了很多人設(shè),比如前文提到的爺爺奶奶等。

但是最后我敲定了一家四口,他們分別是:

老李(爸爸),55歲國企退休干部,性格暴躁但刀子嘴豆腐心,釣魚狂熱愛好者,最恨吃蔬菜尤其是西蘭花,說話愛引用名人名言,動不動就“我當(dāng)年……”

媽媽(王秀英),52歲社區(qū)居委會大媽,超級嘮叨但滿滿都是愛,養(yǎng)生達(dá)人兼廚藝高手,打字瘋狂用 emoji,喜歡用【】強調(diào)重點,三句話之內(nèi)必催女兒找對象

李小龍(弟弟),24歲,大學(xué)畢業(yè)兩年了還沒找到正經(jīng)工作,整天在家打原神和王者榮耀,嘴貧愛懟人,滿嘴“yyds”“絕絕子”,最怕爸爸說教,一被罵就裝可憐或者轉(zhuǎn)移話題,經(jīng)常找姐姐借錢但從不還。

頁面如下:



在我并未詳細(xì)要求界面具體呈現(xiàn)的情況下,模型返回的設(shè)計相當(dāng)讓人滿意,于是我開始嘗試發(fā)送第一句話。



發(fā)送失???顯示的是調(diào)用API失敗。于是我讓M2.7給我檢查一下問題所在。



M2.7很快就發(fā)現(xiàn)了BUG,在修復(fù)后終于可以對話了,但是……



設(shè)定上作為我的父親,他卻不認(rèn)識我,很顯然,這是一個人物設(shè)計上的BUG。于是我又讓M2.7重新編排了一下角色身份,“我”被設(shè)定為家中的長女。



隨后,一切正常,這個模擬器終于可以運行了。

雖然沒有一上來就夢幻開局,但是Bug的發(fā)現(xiàn)和修復(fù)都非常絲滑。

M2.7的角色扮演能力很強。但我想強調(diào)的是,多角色群聊的難度遠(yuǎn)不止“給每個角色設(shè)定不同的語氣”這么簡單。

通過報錯的那張圖可以看到,對于不同角色,M2.7會分別調(diào)用模型,而不是說一次生成所有的對話。

它要求模型同時維持多個角色的人格狀態(tài)、理解角色之間的關(guān)系(父女、母女、兄妹、夫妻),并且讓這些關(guān)系在對話中自然地碰撞出火花。

一家四口,三個AI角色,每個人都有自己的小心思和說話習(xí)慣,還要讓他們能和我互動起來。

M2.7做到了,而且做得相當(dāng)自然。

02

一句話,從零造一個霓虹燈時鐘

第二場開始,我決定上一點強度。

為了測試M2.7的Agent能力,我專門搭了一個Agent Harness測試框架。界面長得像一個深色主題的IDE:左邊是 agent的思考軌跡面板,實時顯示它每一步在想什么、打算做什么。



右邊分成三塊——任務(wù)配置區(qū)、虛擬文件系統(tǒng)(顯示它創(chuàng)建了哪些文件)和實時預(yù)覽窗口(直接渲染它寫出來的 HTML)。

這個框架給M2.7提供了五個工具:write_file(創(chuàng)建/寫入文件)、read_file(讀取文件)、list_files(列出目錄)、execute_js(在沙盒里跑 JavaScript)和 finish(宣布任務(wù)完成)。

除此之外,什么都沒有。相當(dāng)于把一個程序員扔進(jìn)一間空屋子,只給他一臺電腦和一個需求。

第一個任務(wù),我讓M2.7做一個霓虹燈風(fēng)格的數(shù)字時鐘。M2.7需要理解需求、規(guī)劃方案、寫代碼、自己檢查、最后交付。

點擊“啟動 Agent”之后,M2.7的ReAct循環(huán)開始轉(zhuǎn)了。最后在第5輪的時候,M2.7執(zhí)行完了命令,實際上第4輪就行了,當(dāng)時我這里出現(xiàn)了一些網(wǎng)絡(luò)波動,導(dǎo)致M2.7調(diào)用工具失敗。



說實話,這個結(jié)果本身并不讓我們特別驚訝。

一個數(shù)字時鐘對于2026年的大模型來說確實不算什么。

真正讓人感到驚喜的,是整個開發(fā)過程非常流暢。

從理解需求到規(guī)劃方案到寫代碼到自檢到交付,整個Agent工作流跑得行云流水,沒有一步多余的操作。這說明M2.7對ReAct框架的適配相當(dāng)成熟,它知道什么時候該想、什么時候該動手、什么時候該收工。

好,熱身結(jié)束。接下來,繼續(xù)上難度。

03

讓AI自己寫一個貪吃蛇游戲

時鐘畢竟太簡單了。沒有交互邏輯,沒有狀態(tài)管理,沒有邊界條件。

我需要一個真正能考驗Agent自主推理和調(diào)試能力的任務(wù),比如貪吃蛇。

這回的需求復(fù)雜度完全不在一個量級:Canvas繪制、鍵盤事件監(jiān)聽、蛇的移動邏輯、食物隨機生成、碰撞檢測(撞墻和撞自己)、計分系統(tǒng)、游戲結(jié)束判定、重新開始功能。

同時我還要求M2.7用Word記錄下來自己的開發(fā)過程。



結(jié)果如下:

在第1輪里,M2.7沒有著急寫代碼,它是先創(chuàng)建了一個規(guī)劃?!拔乙_發(fā)什么什么任務(wù)”,“這個任務(wù)需要用到什么工具”等等。



第2輪,進(jìn)入正題。M2.7會創(chuàng)建一個完整的HTML文件,包含所有功能,包括畫布渲染、鍵盤控制、隨機食物生成、計分、碰撞檢測以及開始 / 重新開始功能。



第3輪,檢查文件有沒有被正確創(chuàng)建。



第4輪,檢查語法,并且檢查游戲的完整性。



第5輪,檢查所有任務(wù)是否已經(jīng)完成。



整個任務(wù)只需要5輪,共消耗25882個token。



不過也要說說不足。

整個過程并不是一帆風(fēng)順的——Agent 在早期的幾輪迭代中,JSON 格式的工具調(diào)用偶爾會出錯,導(dǎo)致框架解析失敗,返回一個紅色的錯誤提示。

M2.7 看到錯誤后能自我糾正,下一輪就輸出了正確格式的 JSON,但這種“先犯錯再改”的模式在需要長時間自主運行的 Agent 場景中是一個隱患——如果連續(xù)幾輪都格式錯誤,可能會耗盡最大輪次限制而任務(wù)失敗。

但總的來說,從時鐘的“一次過”到貪吃蛇的“寫→查→修→再驗證”,這兩個任務(wù)放在一起看,恰好展現(xiàn)了 M2.7 作為 Agent 的兩面:面對簡單任務(wù)時的高效利落,和面對復(fù)雜任務(wù)時的自主調(diào)試能力。

這也正是 M2.7 官方最強調(diào)的核心能力——Agent Harness 能力,不僅能在給定的工具框架中完成任務(wù),還能主動迭代和自我糾錯。

04

第四場:2159 億美元的投行級財報分析

前面三個測試,一個考“說”,兩個考“做”。

最后一個測試,我們想換個方向。

現(xiàn)在有很多金融行業(yè)的人也在使用Claude Opus這樣的大模型,原因很簡單,它們能把復(fù)雜的數(shù)據(jù)制作成直觀的圖表形式。

我把英偉達(dá)FY2026的完整財報數(shù)據(jù)甩給了M2.7。

然后我給了它一個任務(wù):基于這些數(shù)據(jù),生成三個專業(yè)交付物。

第一個是深度研究報告,要求投行風(fēng)格,包含財務(wù)全景、五大業(yè)務(wù)板塊分析、FY2027 預(yù)測模型、風(fēng)險評估和估值分析。



第二個是交互式財務(wù)儀表盤,要求是藍(lán)綠色風(fēng)格的深色主題,包含圖表、可調(diào)動的滑塊,以及五個功能標(biāo)簽頁。

第三個是12頁演示文稿,要求投行風(fēng)格,支持鍵盤翻頁,包含數(shù)據(jù)可視化圖表。



當(dāng)然,這里必須誠實地說一句,這個測試的“含金量”需要打個折扣。因為財報數(shù)據(jù)是我預(yù)先搜集好喂給它的,而不是讓它自己去搜索和整理的。

M2.7在這個任務(wù)中,盡職扮演了一個“拿到所有原材料后進(jìn)行加工和呈現(xiàn)”的分析師,如果我們讓它自己搜集數(shù)據(jù)(這個對現(xiàn)在的模型來說并不難),那它完全可以扮演一個“從零開始做調(diào)研”的研究員。

但即便如此,它對復(fù)雜金融數(shù)據(jù)的理解能力、對多種輸出格式的駕馭能力,以及生成專業(yè)級可視化內(nèi)容的能力,都給我們留下了深刻印象。

這個測試直接對應(yīng)了M2.7官方宣傳的復(fù)雜Office自動化能力——“支持復(fù)雜 Excel/Word/PPT 辦公任務(wù)及多輪編輯”。從實測來看,在金融分析這個場景上,M2.7 確實能輸出接近專業(yè)水準(zhǔn)的內(nèi)容。

還有一點特別想分享,MiniMax也在做更多有趣的嘗試,這一點也令人驚喜。

比如,MiniMax這次官宣的時候就提到,他們構(gòu)建了一個 Agent 交互系統(tǒng) OpenRoom(openroom.ai),它將 AI 互動置入一個萬物皆可互動的 Web GUI 空間。有意思的是,原型項目已開源,這里面的代碼大部分也是 AI 寫的。



在這里,對話即驅(qū)動,實時產(chǎn)生視覺反饋與場景交互,角色可以主動地與環(huán)境交互。MiniMax希望能夠隨著模型 Agentic 能力的提升和社區(qū)的共建持續(xù)進(jìn)化,探索出更多人與 Agent 之間全新的交互方式。

這次測下來,我最大的感受其實不是“它又變強了”,而是你開始能明顯感覺到,一個模型不再只是等你提問的工具,而是可以被放進(jìn)一個系統(tǒng)里持續(xù)運轉(zhuǎn)的搭檔。

我們評測挑選的場景是任何一個普通用戶都可以上手用到的,從群聊模擬,到寫代碼,再到做分析報告,這些任務(wù)背后其實是同一件事:模型開始參與到一個完整流程里,而不是只負(fù)責(zé)某一個瞬間的輸出。

當(dāng)然,這一步還遠(yuǎn)遠(yuǎn)沒有到終點。你依然能看到它在復(fù)雜推理、長流程穩(wěn)定性上的邊界,也能看到一些細(xì)節(jié)上的不穩(wěn)定,比如工具調(diào)用格式錯誤、需要多輪修正才能收斂。這些問題在“單次對話”里可能不明顯,但放進(jìn)Agent這種長時間運行的框架里會被放大。

但有一點是比較直觀的:當(dāng)模型開始能在一個任務(wù)里自己往前推進(jìn)、自己發(fā)現(xiàn)問題、再自己修正的時候,整個使用體驗就變了。模型離“你問一句、它答一句”的形態(tài)越來越遠(yuǎn),開始和你一起把一件事做完。

你的下一個生活、工作搭子,何必是人類?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
特斯拉股價上漲7.9%,勢將創(chuàng)下九個多月以來的最大單日漲幅

特斯拉股價上漲7.9%,勢將創(chuàng)下九個多月以來的最大單日漲幅

每日經(jīng)濟新聞
2026-04-16 00:00:23
先撤校長,再撤教育局長,開除涉事學(xué)生!保證這事不會再發(fā)生

先撤校長,再撤教育局長,開除涉事學(xué)生!保證這事不會再發(fā)生

教而育之
2026-04-14 10:04:48
拜仁6-4淘汰皇馬,拜仁球迷的盤外招見效了,球迷:勝之不武

拜仁6-4淘汰皇馬,拜仁球迷的盤外招見效了,球迷:勝之不武

側(cè)身凌空斬
2026-04-16 07:39:18
詹姆斯·哈登、莫布里和騎士隊全力備戰(zhàn),與猛龍隊季后賽首輪

詹姆斯·哈登、莫布里和騎士隊全力備戰(zhàn),與猛龍隊季后賽首輪

好火子
2026-04-16 05:39:09
波蘭數(shù)學(xué)家用1個符號重寫微積分:300年來的函數(shù)帝國,塌了

波蘭數(shù)學(xué)家用1個符號重寫微積分:300年來的函數(shù)帝國,塌了

野生運營
2026-04-13 12:41:27
震驚!一女孩求職不順焦慮,父親轉(zhuǎn)來4.8萬,按月4000元當(dāng)作工資

震驚!一女孩求職不順焦慮,父親轉(zhuǎn)來4.8萬,按月4000元當(dāng)作工資

火山詩話
2026-04-14 07:33:54
人形機器人的風(fēng)還在吹,但半數(shù)機器人公司倒下了,泡沫破滅太快了

人形機器人的風(fēng)還在吹,但半數(shù)機器人公司倒下了,泡沫破滅太快了

柏銘銳談
2026-04-13 22:52:50
狐貍尾巴藏不??!以為能“毀掉”全紅嬋,不料自己先被扒個底朝天

狐貍尾巴藏不住!以為能“毀掉”全紅嬋,不料自己先被扒個底朝天

小椰的奶奶
2026-04-14 13:29:01
開拓者晉級季后賽更衣室!斯普利特講話爆贊2將,楊瀚森開心壞了

開拓者晉級季后賽更衣室!斯普利特講話爆贊2將,楊瀚森開心壞了

籃球資訊達(dá)人
2026-04-15 14:55:05
不想訪華了?特朗普召回美駐華大使,貝森特?fù)P言:中國“不可靠”

不想訪華了?特朗普召回美駐華大使,貝森特?fù)P言:中國“不可靠”

影孖看世界
2026-04-15 22:29:46
小鵬最貴SUV預(yù)售39.98萬!L4架構(gòu)3000TOPS算力,座椅支持“三折疊”

小鵬最貴SUV預(yù)售39.98萬!L4架構(gòu)3000TOPS算力,座椅支持“三折疊”

車東西
2026-04-16 00:39:40
上海失業(yè)金發(fā)放標(biāo)準(zhǔn)

上海失業(yè)金發(fā)放標(biāo)準(zhǔn)

教書心
2026-04-15 15:13:06
不等了就這臺!11.99萬開走全球車,86.5%高強鋼,安全感拉滿

不等了就這臺!11.99萬開走全球車,86.5%高強鋼,安全感拉滿

念寒車評
2026-04-14 18:42:56
世錦賽:中國7人已躋身正賽首輪,CCTV直播趙心童丁俊暉時間確定

世錦賽:中國7人已躋身正賽首輪,CCTV直播趙心童丁俊暉時間確定

求球不落諦
2026-04-15 13:13:46
伊朗航母殘骸曝光:已經(jīng)處于半沉狀態(tài)

伊朗航母殘骸曝光:已經(jīng)處于半沉狀態(tài)

烽火觀天下
2026-04-13 12:52:31
英足總:對塞門約遭受歧視感到憤慨,已向球員和曼城提供支持

英足總:對塞門約遭受歧視感到憤慨,已向球員和曼城提供支持

懂球帝
2026-04-16 07:47:23
全世界會發(fā)現(xiàn),伊朗戰(zhàn)爭打完后,世界只剩下一個超級大國了

全世界會發(fā)現(xiàn),伊朗戰(zhàn)爭打完后,世界只剩下一個超級大國了

傲傲講歷史
2026-04-15 03:43:24
重慶15號線462億落地,2026年內(nèi)通車,通勤省一半!

重慶15號線462億落地,2026年內(nèi)通車,通勤省一半!

黑哥講現(xiàn)代史
2026-04-16 00:54:59
女星張紫寧自曝:主動報名“乘風(fēng)2026”,被告知“不夠抓馬”落選

女星張紫寧自曝:主動報名“乘風(fēng)2026”,被告知“不夠抓馬”落選

南方都市報
2026-04-15 12:28:29
內(nèi)蒙古通報一研究院1200元就能辦院士證:已約談涉事研究院相關(guān)負(fù)責(zé)人,責(zé)令立即停止違規(guī)行為

內(nèi)蒙古通報一研究院1200元就能辦院士證:已約談涉事研究院相關(guān)負(fù)責(zé)人,責(zé)令立即停止違規(guī)行為

大象新聞
2026-04-15 22:45:03
2026-04-16 08:55:00
字母榜 incentive-icons
字母榜
讓未來不止于大。
2379文章數(shù) 8059關(guān)注度
往期回顧 全部

科技要聞

39.98萬!小鵬GX預(yù)售“純電增程同價”

頭條要聞

1萬名美軍參與封鎖霍爾木茲 林肯號航母距伊朗200公里

頭條要聞

1萬名美軍參與封鎖霍爾木茲 林肯號航母距伊朗200公里

體育要聞

三球準(zhǔn)絕殺戴大金鏈:轟30+10自我救贖

娛樂要聞

謝娜現(xiàn)身環(huán)球影城,牽手女兒溫馨有愛

財經(jīng)要聞

油輪被困波斯灣1個多月 船員飽受煎熬

汽車要聞

空間絲毫不用妥協(xié) 小鵬GX首發(fā)評測

態(tài)度原創(chuàng)

時尚
本地
房產(chǎn)
教育
軍事航空

赫本愛穿的傘裙,好優(yōu)雅!

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

房產(chǎn)要聞

重磅調(diào)規(guī)!341畝商改住+中小學(xué)用地!寶龍城這把穩(wěn)了?

教育要聞

26新高考如何選專業(yè),哪些專業(yè)好就業(yè)

軍事要聞

封鎖霍爾木茲海峽后 美釋放雙重信號

無障礙瀏覽 進(jìn)入關(guān)懷版