大家好,我是冷逸。
最近,模型圈的節奏又加快了。Opus 4.8、GPT-5.5、Qwen3.7-Plus、MiniMax M3,四款重量級模型幾乎同時登場,想認真跟一遍都很難。
昨天,我注意到一個榜單叫「Browse Code」,專門測LLM在真實瀏覽器環境里完成編程和網頁自動化任務的成功率。
![]()
沒想到,MiniMax M3在這個榜上從M2.7時期的倒數第二直接沖到了全球第五,和Claude 4.6 Sonnet、Gemini 3.5 Flash并排。
當然,一個榜單說明不了全部問題。所以我花了356元,把Claude Opus 4.8、GPT-5.5、DeepSeek-V4-Pro和MiniMax M3這四個模型拉到一起,用同一套任務、同一條提示詞、同一個評分標準,全部接API走Claude Code/Codex測了一遍。
覆蓋了3D編程、視覺編程、游戲開發、Agent長程任務四大場景,橫評結果如下。
![]()
一手橫評
本次測評的原則是:變量歸一,對比才有意義。
四個模型用同一份視覺素材、同一條提示詞,分別接各家API在Claude Code / Codex里跑,最終從任務完成度和輸出質量兩個維度來評價,場景覆蓋3D編程、視覺編程(網站開發)、游戲開發和Agent長程任務(Office三件套 + Coding)。
1)3D任務
先給模型看一張金門大橋的實景照片,然后讓它根據橋體外觀,用Three.js寫一個3D交互網頁。
![]()
這個任務的考驗是三維的:第一,模型要有視覺理解能力,能從圖片里提取出關鍵的結構特征;第二,要能把這些特征準確映射到三維空間的幾何關系上;第三,Three.js代碼質量要過關,別寫出跑起來就崩的東西。
三項能力任缺一項,結果都會差很多。
提示詞:
參考“金門大橋.jpeg”的外觀構造,幫我開發一個舊金山的金門大橋的3D交互網頁,要求如下:
- 使用 Three.js,全部用程序化幾何體生成,不加載外部3D模型。
- 橋體主色為國際橙色(),塔柱為Art Deco風格,橋體結構高度還原“金門大橋.png”的倒弧形外觀結構。
- 準確還原金門大橋標志性的國際橙色橋塔、雙塔懸索結構,包含主纜、吊索、橋面和車道分隔線。
- 環境包括:深藍色波浪海水、天空漸變霧效,遠處綠色山丘和城市群。
- 動態:海水浮動、云影移動、支持鼠標拖拽旋轉/縮放。
- 性能:全屏自適應,使用Three.jsr128,輸出一個可直接運行的HTML文件。
- 支持鼠標拖拽旋轉、縮放、平移,初始視角從西南方向俯瞰大橋。Claude Opus 4.8:
![]()
GPT-5.5:
![]()
DeepSeek-V4-Pro:
![]()
MiniMax M3:
![]()
這個Case里,毋庸置疑表現最好的是Claude Opus 4.8,MiniMax M3緊隨其后。
這兩個模型都準確還原了金門大橋最標志性的一個物理細節:主纜從兩側塔頂向跨中垂下來的倒弧形外觀。這說明它們不只是在描述一座橋,而是真正理解了懸索橋的結構原理,并能把這個理解翻譯成三維幾何。
GPT-5.5和DeepSeek-V4-Pro則沒有還原出這個特征,輸出的橋體五花八門。
尤其是GPT-5.5,它的編程審美怎么描述呢,有種濃眉大眼的感覺,就很粗糙。后面幾個Case,它的這個特征會一直持續。Claude和M3的視覺語言則完全相反,一看就很精致、高級,有明確的設計意識。
另外值得一提的是,DeepSeek的海洋流體動效設計得挺有意思,但天空出現了穿模問題,說明三維空間的碰撞邏輯還是處理得不夠扎實。
![]()
這輪實測:Claude Opus 4.8 > MiniMax M3 > GPT-5.5 > DeepSeek-V4-Pro。
2)視覺編程(網站開發)
前幾天給大家分享了“冷同學的院子”這個民宿概念,這次順手讓模型給它開發一個官網。
我的提示詞故意沒有給出具體的設計指令,只丟了民宿信息和素材包,讓模型自己做判斷——哪些素材該用、怎么排版、用什么設計語言。
這其實是在測兩件事:一是視覺理解能力,模型能不能“看懂”圖片、視頻素材的內容和質量;二是設計決策能力,能不能根據品牌調性做出合理的創作取舍。
提示詞:
給這家民宿設計一個官方網站。
民宿的基本信息:
- 民宿名稱:冷同學的院子
- Slogan:云朵上的院子,冷同學的家
- 地理位置:四川汶川(羌族文化核心區、高山峽谷地帶)
- 品牌調性關鍵詞:溫暖治愈 · 在地羌韻 · 自然松弛 · 外冷內熱 · 有故事感
- 目標客群:追求慢生活的年輕人、親子家庭、文化旅行者、成都周末度假客、川西旅游愛好者文件夾【民宿資料包】放著很多民宿的素材,有logo、門店、房間、周邊和宣傳視頻,你自己決定用哪些素材(不是所有素材都用上)。我只需要最終交付的網站頂級審美,讓人看了就想馬上去玩。
Claude Opus 4.8:
(可上下滑動,查看全圖)
GPT-5.5:
(可上下滑動,查看全圖)
DeepSeek-V4-Pro:
(可上下滑動,查看全圖)
MiniMax M3:
這輪表現最好的是MiniMax M3。它確實“看懂”了我的素材和需求,一上來先給我梳理了開發計劃。
![]()
然后定義出設計語言:大面積米白留白加克制幾何為"冷",羌紅/赭金/暖木色為"熱",再把這兩套視覺語言融在一起,做成"外冷內熱"的調性表達。審美參考了了Aman侘寂、松贊在地文化和虹夕諾雅的克制感。
![]()
這就是視覺理解能力和設計品位帶來的差距。只靠讀文字提示詞,是做不到這個程度的。
房型展示那一屏,M3用了左右交錯的錯位布局來呈現房型和價格,節奏感很好,看完真的有預訂的沖動。
![]()
Opus 4.8也不賴,幾處書法字體的運用尤其喜歡,素材選用也很克制,沒有全部堆進去。
![]()
GPT-5.5繼續它“濃眉大眼”的直男審美:大標題、方方正正的排版,完全沒有靈活性,是真的很丑。
DeepSeek-V4-Pro的審美比GPT-5.5耐看一點,但它缺乏視覺理解能力,所以根本不知道哪些圖該用、用在哪里,索性把所有素材全堆進去,結果圖文錯亂,部分頁面文不對題。這是能力上的硬限制,不是調整提示詞能解決的問題。
這輪測試:MiniMax M3 > Claude Opus 4.8 > GPT-5.5 > DeepSeek-V4-Pro。
3)游戲開發
不知道大家在手機上玩過“抓大鵝”沒?你可能沒玩過,但你的另一半一定玩過。
這次我先跟AI溝通設計了一份PRD,再讓模型根據PRD開發一款web端的抓大鵝游戲。
(可上下滑動,查看全圖)
這個任務的考驗點在于:模型能不能完整、準確地讀懂設計文檔里的功能描述,并把每一條需求準確地轉化成可運行的代碼,同時把游戲體驗和視覺完成度都顧到。
提示詞:
請按PRD“大鵝.png”的要求,幫我創建一個網頁版《抓大鵝》3D堆疊消除游戲。要求:
1、6種不同顏色/形狀的物品,共36個,隨機堆疊在3D空間中。
2、鼠標點擊物品后消失,圖標進入底部7格暫存欄。
3、暫存欄出現3個相同物品時自動消除。
4、暫存欄滿7個不同物品時失敗,場上物品清空時勝利。
5、提供洗牌、移除、回退三個道具按鈕,各3次使用次數。
6、支持鼠標拖拽旋轉視角和滾輪縮放。
7、支持localStorage保存進度和復活功能。
8、輸出一個完整的html文件,可直接在瀏覽器運行。
Claude Opus 4.8:
![]()
GPT-5.5:
![]()
DeepSeek-V4-Pro:
![]()
MiniMax M3:
![]()
四個模型都把游戲開發出來了,核心功能都對,說明面對有明確PRD的開發任務,主流模型基本都能過關了。
有意義的差異集中在兩點:一是前端審美,Claude依舊最耐看,DeepSeek和M3也還行,GPT-5.5最丑;二是細節完成度,PRD里有一項要求是“通關后獎勵一只大鵝”,只有M3做到了,其他三個模型都漏掉了這個細節。
這輪測試:Claude Opus 4.8 ≈ MiniMax M3 > DeepSeek-V4-Pro > GPT-5.5。
4)Agent長程任務
最后一個Case也是最復雜的:我們讓各個模型用Claude Code / Codex做一個聯網搜索 + word/PDF生成 + skill調用 + 網站開發的復雜長程任務。
提示詞:
聯網搜索電影《火遮眼》的關鍵信息內容,盡量從權威信源獲取內容。先給我創建一份2000字的word調研報告(含pdf版)。然后調用guizang-ppt skill生成一份12頁的PPT,宣傳一下這部電影。Claude Opus 4.8:
(可上下滑動,查看全圖)
![]()
GPT-5.5:
![]()
![]()
DeepSeek-V4-Pro:
![]()
![]()
MiniMax M3:
![]()
![]()
這個任務的難點在于“長”——不只是單步執行,而是要求模型在跨越多個工具調用節點的情況下,始終保持上下文連貫、指令不漂移。這對模型的長程穩定性和工具協調能力要求很高。
先說PPT的完成度:GPT-5.5、Opus 4.8和M3都交付了質量不錯的PPT,Claude每頁帶微動畫,GPT-5.5有真實配圖(應該是Codex的原因),M3的色彩搭配比較好看。DeepSeek-V4-Pro在這一項差了明顯一截,排版、配色和交互都不在同一個水平線上。
調研報告的內容質量:Opus 4.8、M3和GPT-5.5不相上下,DeepSeek-V4-Pro墊底。
關于DeepSeek-V4-Pro有一個獨立的問題值得單說:它在Claude Code里跑得極慢,而且頻繁中途停擺不再繼續輸出。這個PPT任務它跑了整整36分鐘,期間多次卡頓。
![]()
大概率是DeepSeek并未針對Claude Code做更多適配導致的,屬于工程層面的問題,而不只是模型能力本身的問題。但從用戶體驗角度來說,這個差異是實實在在存在的。
這輪測試:GPT-5.5 ≈ Claude Opus 4.8 ≈ MiniMax M3 > DeepSeek-V4-Pro。
![]()
實測總結
四輪任務跑下來,先看綜合能力,再看成本。
![]()
能力上,Claude Opus 4.8是這次橫評里綜合實力最強的,穩如預期。
M3是最大的驚喜,整體水平大約在Opus 4.7和4.8之間,與Opus 4.8的差距比我預想的要小。
GPT-5.5表現不穩定,有時候在線,有時候掉鏈子,前端審美上的短板在編程場景里是一個貫穿始終的減分項。
DeepSeek-V4-Pro整體能力不如其他三家,Agent長程任務的穩定性和代碼生成質量都有差距。
成本這塊,本期測評費用明細:
![]()
Claude Opus 4.8,接API測的,50美刀;
GPT-5.5,在Codex里用的,大約2美刀;
MiniMax M3,我訂的Token Plan極速版,每月有12億額度的M3 Token,這期用了約2000萬token,折下來大約2 塊錢;
DeepSeek-V4-Pro,大量輸入命中緩存,不到2元。
換算下來總計356元,而兩款國產模型加起來不到總費用的零頭。性價比這件事,真的越來越不好意思討論了。
![]()
模型到底行不行,很多時候只有真實用過才知道,benchmark數字只是參考,不是結論。
至少從這幾輪Coding任務來看,Claude Opus 4.8的前沿地位還是穩的。MiniMax M3也不差,大概是Opus 4.7的水準,很接近Opus 4.8了。
GPT-5.5可能在辦公類任務上更有優勢,但Coding層面的審美問題不是小問題,對于編程場景來說是一個明顯的硬傷,而且這個問題不是靠調提示詞就能解決的。
DeepSeek-V4-Pro性價比依然很高,但這次測評也暴露了它在Agent適配、長程穩定性和代碼生成質量上與另外三家的真實差距。差距不是追不上,但需要時間。
說實話,這輪測下來最讓我興奮的是前幾天發布的M3。我沒想到它能這么接近Opus 4.8。1M上下文+原生多模態+Coding SOTA,配合Token Plan的定價,真的能做很多事情。
我是冷逸,你們的測評手替。如果你有想測的場景,歡迎在評論區甩出來,咱們互相抄作業。
如果覺得本期內容有用的話,歡迎三連支持,感謝。
我們下期見。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.