網易首頁 > 網易號 > 正文申請入駐

深度測評 MiniMax M3，能打但不貴

2026-06-15 18:44:32　來源: 蒼何

湖北舉報

分享至

這是蒼何的第 548 篇原創！

大家好，我是蒼何。

其實在 MiniMax M3 模型剛發布的時候就看到 Vercel CEO 發過一條帖子，說 M3 在 Next.js 的 AI Coding Agent 評測中僅次于 Opus 和 GPT5，但價格便宜了 10 倍。

當時就一直想做下測試，但后來出差加一堆的事情就沒來得及，所以這篇文章也拖到現在才發。

我上來就用自己的開源項目 WeSight 里的 Claude Code 快速接入了 MiniMax M3。

剛好最近 WeSight 積了不少 issue，干脆先讓 M3 試試能不能自主修復。

說一下背景，WeSight 目前有 954 個工程文件，16 萬多行代碼，是個真實的工程化項目，不是那種 demo 級別的玩具倉庫。

配置好 M3 后，我直接把 issue 鏈接丟給它，開啟 plan 模式，先讓它分析項目代碼，再想辦法修復。

M3 花了一些時間獲取項目上下文后，開始自行調用技能去拉 GitHub issue 信息。

這里有個小細節值得單獨說。M3 拿到 Issue 后沒有上來就蠻干，而是先做了任務分解，判斷當前有哪些工具可用，然后定了一套降級策略，gh CLI 優先，失敗走瀏覽器抓取，都不行再向用戶要內容。這其實就是 Agent 領域里的 Plan-then-Execute 范式，先規劃再執行，遇到阻塞還能自己繞路。

這種能力在簡單任務里看不出差距，但任務鏈一旦拉長，模型會不會主動規劃、能不能自己做容錯，直接決定了最終產出能不能一次跑通。

而且你會發現，M3 最終選擇的是瀏覽器抓取，而不是 gh CLI。因為這個 issue 里有附件，gh issue view 對附件和 Markdown 渲染的支持不如網頁直觀，M3 自己判斷出來并切換了方案。

耗時 9.5 分鐘后，bug 修復完成，修改 12 個文件及 2 個核心文件。

修改完代碼 diff 后，完成了 449 測試用例的驗證通過。

然后我還讓 Codex 的 GPT 5.5 做了下 Code Review。指出了一兩個小問題，我又讓 M3 來修復。

經過 1 輪的 Code Review 和修改后，重新打包，發現已經修復這個 bug 了。

然后讓 M3 自己推送代碼到 GitHub，然后自動回復和關閉 issure。

我發現用 M3 來寫代碼，然后用 Claude Opus 和 GPT 5.5 來做對抗式 Code Review，效果很不錯，而且還省 token 啊，性價比拉滿，畢竟后兩玩意太貴。

聊完 Coding Agent，咱換個賽道。

聽說 M3 的 3D 效果挺猛，我順手把它和 DeepSeek-V4-Pro 都接進了 Hermes，丟同一個 Prompt，讓它們用 Three.js 各自渲染一版 3D 城市街道。

Prompt 是這個。

●●●生成一個單文件 HTML 頁面，使用 Three.js（通過 CDN 引入），渲染一個 3D 可交互的城市街道場景。要求：1. 有一條可行駛車輛的瀝青馬路，包含車道線、斑馬線；2. 馬路兩側有多層建筑，建筑窗戶有紋理和燈光效果；3. 人行道上有路燈、樹木、長椅等街道設施；4. 有環境光和定向陽光，并開啟陰影；5. 支持鼠標拖拽旋轉視角（OrbitControls），滾輪縮放；6. 所有幾何體和紋理必須程序化生成，不能使用外部圖片資源；7. 畫面要有科技感，夜晚/白天模式可切換。

先來看 MiniMax M3 的效果。

不瞞你說，M3 第一眼給我的感覺就是，交互做得到位。

晝夜聯動、小車速度交互、時間、車速、霧氣、晝夜四個控制按鈕一個不落。左下角還貼心地放了實時 FPS、建筑數量、光源數量的狀態面板。

更細的地方還在后面。

車頭燈用了 SpotLight + target 做真實投射光，尾燈是 emissive 紅色，建筑天線點綴著紅色閃爍燈。路燈做了點光源加微閃爍，模擬那種真實路燈的不穩定感。樹冠用三層球體堆疊，加了隨機偏移防對稱。

不過建筑細節和陰影比較粗糙，天空和夜晚效果一般，算是個小遺憾。

再來看 DeepSeek-V4-Pro 的效果。

DeepSeek-V4-Pro 這版完成度也能打。

道路、建筑、燈光、樹木、長椅、霓虹牌和晝夜切換全都搭起來了，視覺氛圍拉滿，程序化紋理讓細節加分不少。

它更偏視覺呈現，交互上相對克制，能調的參數有限。白天光照有點過曝，我翻了下代碼，部分函數參數沒真正用起來。

我看大家都在說 M3 的原生多模態表現不錯，我測試了一個 Sketch-to-UI 的場景。

我隨手畫了一張電商商品詳情頁的草圖，塞了商品圖輪播、價格區、規格選擇、加購按鈕、詳情 Tab 這些常見模塊。

然后給兩個模型發了同樣的 Prompt。

●●●我畫了一張電商商品詳情頁的草圖，請根據這張圖片生成一個可運行的單文件 HTML 頁面。
要求：1. 識別草圖中的所有組件和布局；2. 使用 TailwindCSS 美化，盡量還原草圖結構；3. 商品圖支持輪播切換，規格選擇有選中狀態反饋；4. 加入購物車按鈕需要有交互反饋（例如點擊后數量變化或提示）；5. 頁面需要是響應式的；6. 所有資源內聯，單文件即可運行。

MiniMax M3 的輸出。

M3 對草圖的理解依然在線。

商品圖輪播、價格標題、規格選擇、加購按鈕、詳情 Tab、底部推薦，全都識別到位。輪播切換、規格高亮、加購提示條這些交互也順手補齊了。

最讓我意外的是，它把我畫得很潦草的背包，直接給還原成了實際效果。

這種「看懂線條 + 補全行業默認交互」的能力，做前端原型真的省心。

最后一個 case，壓一壓極限，超長上下文 + Agent 長任務。

我直接搬來一份 ZF 工作報告，讓兩個模型跑同一個多步驟的政策分析任務。

Prompt 是這個。

●●●你是一名頂級產業分析師。請對我提供的政策文件進行對比分析，重點識別與上一版本相比的新增內容、刪減內容、表述變化和政策升級方向，找出真正的邊際變化。隨后從投資視角推演政策影響路徑：**政策變化 → 行業影響 → 產業鏈傳導 → 細分賽道 → 受益公司**，分析哪些賽道獲得增量支持、哪些機會存在預期差、哪些公司可能受益最大。不要復述文件內容，而要解釋政策變化背后的意圖、市場容易忽略的信號以及未來可能產生的產業影響，并以圖表和HTML方式呈現結論。

MiniMax M3 的輸出報告。

可以看到 M3 在這個任務上的表現很不錯，細節處理相當到位。

拿 2026 年和 2025 年兩版報告做了逐條對比，識別出 13 個維度的邊際變化，推演了完整的投資傳導路徑，還附帶 9 張可視化圖表和四層受益標的矩陣，30+ 標的逐一拆解。

從核心判斷到 13 個細分維度的邊際變化，5 個市場容易忽略的隱性信號，再到 12 個賽道的政策紅利強度評分，最后落到風險提示和操作建議。一份能直接給投研團隊參考的報告，它一次就跑出來了。

再看 DeepSeek-V4-Pro。

DeepSeek-V4-Pro 也拆得不錯，速度還更快，政策邊際變化對比表、產業鏈傳導路徑圖、細分賽道受益熱力圖該有的都有。只是維度上沒 M3 鋪得開，一些細分賽道的深度拆解也相對淺一些。

金融長文檔 + Agent 長任務這種場景，M3 在輸出結構和引用規范上更穩，幾百頁文檔多步驟提取一次跑通的概率更高。DeepSeek-V4-Pro 的優勢在速度，響應更跟手。

金融場景天然就是長文檔、多步推理、高頻跑量，模型需要做「邊際變化識別→產業鏈傳導→細分賽道映射」，M3 的細節表現會更好一些。

所以，對于需要高頻處理研報、招股書、政策文件的金融場景來說，M3 更為適合，性價比更高。

幾個 case 跑完，我整體感受是，M3 和 DeepSeek-V4-Pro 各有側重，但 M3 在多模態理解、Agent 長任務穩定性和交互細節上，確實有自己的東西。

瞅一眼官方的 OSWorld，M3 在 Computer Use、多模態這幾個評測里，成績還真不賴。

而且 M3 還是開源的。

價格這塊也值得提一嘴。從 M2 到 M3，MiniMax 在定價上一直很克制，同等能力水平下基本是全球旗艦模型里最實惠的那個。對開發者來說，這意味著你可以放心地把它塞進生產環境跑量，不用一邊調 API 一邊心疼賬單。

一邊是大洋彼岸的閉源模型死貴還各種限制，一邊是國內團隊在卷能力卷開源，想辦法讓更多人用上好模型。講真的，AI 不應該是少數人的特權，它應該是所有人的工具。

國產開源模型，是真在卷出花來了。

你跑過 M3 沒？效果咋樣，評論區嘮嘮。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.