網易首頁 > 網易號 > 正文申請入駐

橫評Opus 4.8、GPT-5.5、DeepSeek V4、MiniMax M3，356元測出來的真實排名

2026-06-05 20:20:04　來源: 沃垠AI

四川舉報

分享至

大家好，我是冷逸。

最近，模型圈的節奏又加快了。Opus 4.8、GPT-5.5、Qwen3.7-Plus、MiniMax M3，四款重量級模型幾乎同時登場，想認真跟一遍都很難。

昨天，我注意到一個榜單叫「Browse Code」，專門測LLM在真實瀏覽器環境里完成編程和網頁自動化任務的成功率。

沒想到，MiniMax M3在這個榜上從M2.7時期的倒數第二直接沖到了全球第五，和Claude 4.6 Sonnet、Gemini 3.5 Flash并排。

當然，一個榜單說明不了全部問題。所以我花了356元，把Claude Opus 4.8、GPT-5.5、DeepSeek-V4-Pro和MiniMax M3這四個模型拉到一起，用同一套任務、同一條提示詞、同一個評分標準，全部接API走Claude Code/Codex測了一遍。

覆蓋了3D編程、視覺編程、游戲開發、Agent長程任務四大場景，橫評結果如下。

一手橫評

本次測評的原則是：變量歸一，對比才有意義。

四個模型用同一份視覺素材、同一條提示詞，分別接各家API在Claude Code / Codex里跑，最終從任務完成度和輸出質量兩個維度來評價，場景覆蓋3D編程、視覺編程（網站開發）、游戲開發和Agent長程任務（Office三件套 + Coding）。

1）3D任務

先給模型看一張金門大橋的實景照片，然后讓它根據橋體外觀，用Three.js寫一個3D交互網頁。

這個任務的考驗是三維的：第一，模型要有視覺理解能力，能從圖片里提取出關鍵的結構特征；第二，要能把這些特征準確映射到三維空間的幾何關系上；第三，Three.js代碼質量要過關，別寫出跑起來就崩的東西。

三項能力任缺一項，結果都會差很多。

提示詞：
參考“金門大橋.jpeg”的外觀構造，幫我開發一個舊金山的金門大橋的3D交互網頁，要求如下：
- 使用 Three.js，全部用程序化幾何體生成，不加載外部3D模型。
- 橋體主色為國際橙色()，塔柱為Art Deco風格，橋體結構高度還原“金門大橋.png”的倒弧形外觀結構。
- 準確還原金門大橋標志性的國際橙色橋塔、雙塔懸索結構，包含主纜、吊索、橋面和車道分隔線。
- 環境包括：深藍色波浪海水、天空漸變霧效，遠處綠色山丘和城市群。
- 動態：海水浮動、云影移動、支持鼠標拖拽旋轉/縮放。
- 性能：全屏自適應，使用Three.jsr128，輸出一個可直接運行的HTML文件。
- 支持鼠標拖拽旋轉、縮放、平移，初始視角從西南方向俯瞰大橋。

Claude Opus 4.8：

GPT-5.5：

DeepSeek-V4-Pro：

MiniMax M3：

這個Case里，毋庸置疑表現最好的是Claude Opus 4.8，MiniMax M3緊隨其后。

這兩個模型都準確還原了金門大橋最標志性的一個物理細節：主纜從兩側塔頂向跨中垂下來的倒弧形外觀。這說明它們不只是在描述一座橋，而是真正理解了懸索橋的結構原理，并能把這個理解翻譯成三維幾何。

GPT-5.5和DeepSeek-V4-Pro則沒有還原出這個特征，輸出的橋體五花八門。

尤其是GPT-5.5，它的編程審美怎么描述呢，有種濃眉大眼的感覺，就很粗糙。后面幾個Case，它的這個特征會一直持續。Claude和M3的視覺語言則完全相反，一看就很精致、高級，有明確的設計意識。

另外值得一提的是，DeepSeek的海洋流體動效設計得挺有意思，但天空出現了穿模問題，說明三維空間的碰撞邏輯還是處理得不夠扎實。

這輪實測：Claude Opus 4.8 > MiniMax M3 > GPT-5.5 > DeepSeek-V4-Pro。

2）視覺編程（網站開發）

前幾天給大家分享了“冷同學的院子”這個民宿概念，這次順手讓模型給它開發一個官網。

我的提示詞故意沒有給出具體的設計指令，只丟了民宿信息和素材包，讓模型自己做判斷——哪些素材該用、怎么排版、用什么設計語言。

這其實是在測兩件事：一是視覺理解能力，模型能不能“看懂”圖片、視頻素材的內容和質量；二是設計決策能力，能不能根據品牌調性做出合理的創作取舍。

提示詞：
給這家民宿設計一個官方網站。

 民宿的基本信息：
- 民宿名稱：冷同學的院子
- Slogan：云朵上的院子，冷同學的家
- 地理位置：四川汶川（羌族文化核心區、高山峽谷地帶）
- 品牌調性關鍵詞：溫暖治愈 · 在地羌韻 · 自然松弛 · 外冷內熱 · 有故事感
- 目標客群：追求慢生活的年輕人、親子家庭、文化旅行者、成都周末度假客、川西旅游愛好者

 文件夾【民宿資料包】放著很多民宿的素材，有logo、門店、房間、周邊和宣傳視頻，你自己決定用哪些素材（不是所有素材都用上）。我只需要最終交付的網站頂級審美，讓人看了就想馬上去玩。

Claude Opus 4.8：

（可上下滑動，查看全圖）

GPT-5.5：

（可上下滑動，查看全圖）

DeepSeek-V4-Pro：

（可上下滑動，查看全圖）

MiniMax M3：

這輪表現最好的是MiniMax M3。它確實“看懂”了我的素材和需求，一上來先給我梳理了開發計劃。

然后定義出設計語言：大面積米白留白加克制幾何為"冷"，羌紅/赭金/暖木色為"熱"，再把這兩套視覺語言融在一起，做成"外冷內熱"的調性表達。審美參考了了Aman侘寂、松贊在地文化和虹夕諾雅的克制感。

這就是視覺理解能力和設計品位帶來的差距。只靠讀文字提示詞，是做不到這個程度的。

房型展示那一屏，M3用了左右交錯的錯位布局來呈現房型和價格，節奏感很好，看完真的有預訂的沖動。

Opus 4.8也不賴，幾處書法字體的運用尤其喜歡，素材選用也很克制，沒有全部堆進去。

GPT-5.5繼續它“濃眉大眼”的直男審美：大標題、方方正正的排版，完全沒有靈活性，是真的很丑。

DeepSeek-V4-Pro的審美比GPT-5.5耐看一點，但它缺乏視覺理解能力，所以根本不知道哪些圖該用、用在哪里，索性把所有素材全堆進去，結果圖文錯亂，部分頁面文不對題。這是能力上的硬限制，不是調整提示詞能解決的問題。

這輪測試：MiniMax M3 > Claude Opus 4.8 > GPT-5.5 > DeepSeek-V4-Pro。

3）游戲開發

不知道大家在手機上玩過“抓大鵝”沒？你可能沒玩過，但你的另一半一定玩過。

這次我先跟AI溝通設計了一份PRD，再讓模型根據PRD開發一款web端的抓大鵝游戲。

（可上下滑動，查看全圖）

這個任務的考驗點在于：模型能不能完整、準確地讀懂設計文檔里的功能描述，并把每一條需求準確地轉化成可運行的代碼，同時把游戲體驗和視覺完成度都顧到。

提示詞：
請按PRD“大鵝.png”的要求，幫我創建一個網頁版《抓大鵝》3D堆疊消除游戲。要求：
1、6種不同顏色/形狀的物品，共36個，隨機堆疊在3D空間中。
2、鼠標點擊物品后消失，圖標進入底部7格暫存欄。
3、暫存欄出現3個相同物品時自動消除。
4、暫存欄滿7個不同物品時失敗，場上物品清空時勝利。
5、提供洗牌、移除、回退三個道具按鈕，各3次使用次數。
6、支持鼠標拖拽旋轉視角和滾輪縮放。
7、支持localStorage保存進度和復活功能。
8、輸出一個完整的html文件，可直接在瀏覽器運行。

Claude Opus 4.8：

GPT-5.5：

DeepSeek-V4-Pro：

MiniMax M3：

四個模型都把游戲開發出來了，核心功能都對，說明面對有明確PRD的開發任務，主流模型基本都能過關了。

有意義的差異集中在兩點：一是前端審美，Claude依舊最耐看，DeepSeek和M3也還行，GPT-5.5最丑；二是細節完成度，PRD里有一項要求是“通關后獎勵一只大鵝”，只有M3做到了，其他三個模型都漏掉了這個細節。

這輪測試：Claude Opus 4.8 ≈ MiniMax M3 > DeepSeek-V4-Pro > GPT-5.5。

4）Agent長程任務

最后一個Case也是最復雜的：我們讓各個模型用Claude Code / Codex做一個聯網搜索 + word/PDF生成 + skill調用 + 網站開發的復雜長程任務。

提示詞：
聯網搜索電影《火遮眼》的關鍵信息內容，盡量從權威信源獲取內容。先給我創建一份2000字的word調研報告（含pdf版）。然后調用guizang-ppt skill生成一份12頁的PPT，宣傳一下這部電影。

Claude Opus 4.8：

（可上下滑動，查看全圖）

GPT-5.5：

DeepSeek-V4-Pro：

MiniMax M3：

這個任務的難點在于“長”——不只是單步執行，而是要求模型在跨越多個工具調用節點的情況下，始終保持上下文連貫、指令不漂移。這對模型的長程穩定性和工具協調能力要求很高。

先說PPT的完成度：GPT-5.5、Opus 4.8和M3都交付了質量不錯的PPT，Claude每頁帶微動畫，GPT-5.5有真實配圖（應該是Codex的原因），M3的色彩搭配比較好看。DeepSeek-V4-Pro在這一項差了明顯一截，排版、配色和交互都不在同一個水平線上。

調研報告的內容質量：Opus 4.8、M3和GPT-5.5不相上下，DeepSeek-V4-Pro墊底。

關于DeepSeek-V4-Pro有一個獨立的問題值得單說：它在Claude Code里跑得極慢，而且頻繁中途停擺不再繼續輸出。這個PPT任務它跑了整整36分鐘，期間多次卡頓。

大概率是DeepSeek并未針對Claude Code做更多適配導致的，屬于工程層面的問題，而不只是模型能力本身的問題。但從用戶體驗角度來說，這個差異是實實在在存在的。

這輪測試：GPT-5.5 ≈ Claude Opus 4.8 ≈ MiniMax M3 > DeepSeek-V4-Pro。

實測總結

四輪任務跑下來，先看綜合能力，再看成本。

能力上，Claude Opus 4.8是這次橫評里綜合實力最強的，穩如預期。

M3是最大的驚喜，整體水平大約在Opus 4.7和4.8之間，與Opus 4.8的差距比我預想的要小。

GPT-5.5表現不穩定，有時候在線，有時候掉鏈子，前端審美上的短板在編程場景里是一個貫穿始終的減分項。

DeepSeek-V4-Pro整體能力不如其他三家，Agent長程任務的穩定性和代碼生成質量都有差距。

成本這塊，本期測評費用明細：

Claude Opus 4.8，接API測的，50美刀；
GPT-5.5，在Codex里用的，大約2美刀；
MiniMax M3，我訂的Token Plan極速版，每月有12億額度的M3 Token，這期用了約2000萬token，折下來大約2 塊錢；
DeepSeek-V4-Pro，大量輸入命中緩存，不到2元。

換算下來總計356元，而兩款國產模型加起來不到總費用的零頭。性價比這件事，真的越來越不好意思討論了。

模型到底行不行，很多時候只有真實用過才知道，benchmark數字只是參考，不是結論。

至少從這幾輪Coding任務來看，Claude Opus 4.8的前沿地位還是穩的。MiniMax M3也不差，大概是Opus 4.7的水準，很接近Opus 4.8了。

GPT-5.5可能在辦公類任務上更有優勢，但Coding層面的審美問題不是小問題，對于編程場景來說是一個明顯的硬傷，而且這個問題不是靠調提示詞就能解決的。

DeepSeek-V4-Pro性價比依然很高，但這次測評也暴露了它在Agent適配、長程穩定性和代碼生成質量上與另外三家的真實差距。差距不是追不上，但需要時間。

說實話，這輪測下來最讓我興奮的是前幾天發布的M3。我沒想到它能這么接近Opus 4.8。1M上下文+原生多模態+Coding SOTA，配合Token Plan的定價，真的能做很多事情。

我是冷逸，你們的測評手替。如果你有想測的場景，歡迎在評論區甩出來，咱們互相抄作業。

如果覺得本期內容有用的話，歡迎三連支持，感謝。

我們下期見。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.