這是蒼何的第 548 篇原創!
大家好,我是蒼何。
其實在 MiniMax M3 模型剛發布的時候就看到 Vercel CEO 發過一條帖子,說 M3 在 Next.js 的 AI Coding Agent 評測中僅次于 Opus 和 GPT5,但價格便宜了 10 倍。
![]()
當時就一直想做下測試,但后來出差加一堆的事情就沒來得及,所以這篇文章也拖到現在才發。
我上來就用自己的開源項目 WeSight 里的 Claude Code 快速接入了 MiniMax M3。
![]()
剛好最近 WeSight 積了不少 issue,干脆先讓 M3 試試能不能自主修復。
![]()
說一下背景,WeSight 目前有 954 個工程文件,16 萬多行代碼,是個真實的工程化項目,不是那種 demo 級別的玩具倉庫。
配置好 M3 后,我直接把 issue 鏈接丟給它,開啟 plan 模式,先讓它分析項目代碼,再想辦法修復。
![]()
M3 花了一些時間獲取項目上下文后,開始自行調用技能去拉 GitHub issue 信息。
![]()
這里有個小細節值得單獨說。M3 拿到 Issue 后沒有上來就蠻干,而是先做了任務分解,判斷當前有哪些工具可用,然后定了一套降級策略,gh CLI 優先,失敗走瀏覽器抓取,都不行再向用戶要內容。這其實就是 Agent 領域里的 Plan-then-Execute 范式,先規劃再執行,遇到阻塞還能自己繞路。
![]()
這種能力在簡單任務里看不出差距,但任務鏈一旦拉長,模型會不會主動規劃、能不能自己做容錯,直接決定了最終產出能不能一次跑通。
而且你會發現,M3 最終選擇的是瀏覽器抓取,而不是 gh CLI。因為這個 issue 里有附件,gh issue view 對附件和 Markdown 渲染的支持不如網頁直觀,M3 自己判斷出來并切換了方案。
![]()
耗時 9.5 分鐘后,bug 修復完成,修改 12 個文件及 2 個核心文件。
![]()
修改完代碼 diff 后,完成了 449 測試用例的驗證通過。
![]()
然后我還讓 Codex 的 GPT 5.5 做了下 Code Review。指出了一兩個小問題,我又讓 M3 來修復。
![]()
經過 1 輪的 Code Review 和修改后,重新打包,發現已經修復這個 bug 了。
然后讓 M3 自己推送代碼到 GitHub,然后自動回復和關閉 issure。
![]()
我發現用 M3 來寫代碼,然后用 Claude Opus 和 GPT 5.5 來做對抗式 Code Review,效果很不錯,而且還省 token 啊,性價比拉滿,畢竟后兩玩意太貴。
聊完 Coding Agent,咱換個賽道。
聽說 M3 的 3D 效果挺猛,我順手把它和 DeepSeek-V4-Pro 都接進了 Hermes,丟同一個 Prompt,讓它們用 Three.js 各自渲染一版 3D 城市街道。
Prompt 是這個。
●●●生成一個單文件 HTML 頁面,使用 Three.js(通過 CDN 引入),渲染一個 3D 可交互的城市街道場景。要求:1. 有一條可行駛車輛的瀝青馬路,包含車道線、斑馬線;2. 馬路兩側有多層建筑,建筑窗戶有紋理和燈光效果;3. 人行道上有路燈、樹木、長椅等街道設施;4. 有環境光和定向陽光,并開啟陰影;5. 支持鼠標拖拽旋轉視角(OrbitControls),滾輪縮放;6. 所有幾何體和紋理必須程序化生成,不能使用外部圖片資源;7. 畫面要有科技感,夜晚/白天模式可切換。
先來看 MiniMax M3 的效果。
不瞞你說,M3 第一眼給我的感覺就是,交互做得到位。
晝夜聯動、小車速度交互、時間、車速、霧氣、晝夜四個控制按鈕一個不落。左下角還貼心地放了實時 FPS、建筑數量、光源數量的狀態面板。
更細的地方還在后面。
車頭燈用了 SpotLight + target 做真實投射光,尾燈是 emissive 紅色,建筑天線點綴著紅色閃爍燈。路燈做了點光源加微閃爍,模擬那種真實路燈的不穩定感。樹冠用三層球體堆疊,加了隨機偏移防對稱。
不過建筑細節和陰影比較粗糙,天空和夜晚效果一般,算是個小遺憾。
再來看 DeepSeek-V4-Pro 的效果。
![]()
DeepSeek-V4-Pro 這版完成度也能打。
道路、建筑、燈光、樹木、長椅、霓虹牌和晝夜切換全都搭起來了,視覺氛圍拉滿,程序化紋理讓細節加分不少。
它更偏視覺呈現,交互上相對克制,能調的參數有限。白天光照有點過曝,我翻了下代碼,部分函數參數沒真正用起來。
我看大家都在說 M3 的原生多模態表現不錯,我測試了一個 Sketch-to-UI 的場景。
我隨手畫了一張電商商品詳情頁的草圖,塞了商品圖輪播、價格區、規格選擇、加購按鈕、詳情 Tab 這些常見模塊。
![]()
然后給兩個模型發了同樣的 Prompt。
●●●我畫了一張電商商品詳情頁的草圖,請根據這張圖片生成一個可運行的單文件 HTML 頁面。要求:1. 識別草圖中的所有組件和布局;2. 使用 TailwindCSS 美化,盡量還原草圖結構;3. 商品圖支持輪播切換,規格選擇有選中狀態反饋;4. 加入購物車按鈕需要有交互反饋(例如點擊后數量變化或提示);5. 頁面需要是響應式的;6. 所有資源內聯,單文件即可運行。
MiniMax M3 的輸出。
![]()
M3 對草圖的理解依然在線。
商品圖輪播、價格標題、規格選擇、加購按鈕、詳情 Tab、底部推薦,全都識別到位。輪播切換、規格高亮、加購提示條這些交互也順手補齊了。
最讓我意外的是,它把我畫得很潦草的背包,直接給還原成了實際效果。
這種「看懂線條 + 補全行業默認交互」的能力,做前端原型真的省心。
![]()
最后一個 case,壓一壓極限,超長上下文 + Agent 長任務。
我直接搬來一份 ZF 工作報告,讓兩個模型跑同一個多步驟的政策分析任務。
Prompt 是這個。
●●●你是一名頂級產業分析師。請對我提供的政策文件進行對比分析,重點識別與上一版本相比的新增內容、刪減內容、表述變化和政策升級方向,找出真正的邊際變化。隨后從投資視角推演政策影響路徑:**政策變化 → 行業影響 → 產業鏈傳導 → 細分賽道 → 受益公司**,分析哪些賽道獲得增量支持、哪些機會存在預期差、哪些公司可能受益最大。不要復述文件內容,而要解釋政策變化背后的意圖、市場容易忽略的信號以及未來可能產生的產業影響,并以圖表和HTML方式呈現結論。MiniMax M3 的輸出報告。
可以看到 M3 在這個任務上的表現很不錯,細節處理相當到位。
拿 2026 年和 2025 年兩版報告做了逐條對比,識別出 13 個維度的邊際變化,推演了完整的投資傳導路徑,還附帶 9 張可視化圖表和四層受益標的矩陣,30+ 標的逐一拆解。
從核心判斷到 13 個細分維度的邊際變化,5 個市場容易忽略的隱性信號,再到 12 個賽道的政策紅利強度評分,最后落到風險提示和操作建議。一份能直接給投研團隊參考的報告,它一次就跑出來了。
再看 DeepSeek-V4-Pro。
DeepSeek-V4-Pro 也拆得不錯,速度還更快,政策邊際變化對比表、產業鏈傳導路徑圖、細分賽道受益熱力圖該有的都有。只是維度上沒 M3 鋪得開,一些細分賽道的深度拆解也相對淺一些。
金融長文檔 + Agent 長任務這種場景,M3 在輸出結構和引用規范上更穩,幾百頁文檔多步驟提取一次跑通的概率更高。DeepSeek-V4-Pro 的優勢在速度,響應更跟手。
金融場景天然就是長文檔、多步推理、高頻跑量,模型需要做「邊際變化識別→產業鏈傳導→細分賽道映射」,M3 的細節表現會更好一些。
所以,對于需要高頻處理研報、招股書、政策文件的金融場景來說,M3 更為適合,性價比更高。
幾個 case 跑完,我整體感受是,M3 和 DeepSeek-V4-Pro 各有側重,但 M3 在多模態理解、Agent 長任務穩定性和交互細節上,確實有自己的東西。
瞅一眼官方的 OSWorld,M3 在 Computer Use、多模態這幾個評測里,成績還真不賴。
![]()
而且 M3 還是開源的。
價格這塊也值得提一嘴。從 M2 到 M3,MiniMax 在定價上一直很克制,同等能力水平下基本是全球旗艦模型里最實惠的那個。對開發者來說,這意味著你可以放心地把它塞進生產環境跑量,不用一邊調 API 一邊心疼賬單。
一邊是大洋彼岸的閉源模型死貴還各種限制,一邊是國內團隊在卷能力卷開源,想辦法讓更多人用上好模型。講真的,AI 不應該是少數人的特權,它應該是所有人的工具。
![]()
國產開源模型,是真在卷出花來了。
你跑過 M3 沒?效果咋樣,評論區嘮嘮。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.