![]()
超越 GPT-5.5、Gemini 3.5 Flash、DeepSeek V4 Pro,阿里的最新旗艦?zāi)P?Qwen3.7 Max 在編程競技榜拿下第二名,僅次于 Claude Opus 4.7。
![]()
▲5.26 榜單截圖
除了真實(shí)場景的用戶選擇,在傳統(tǒng)的大模型固定評測榜單上,像是終端能力 Terminal Bench、編程能力 SWE Bench 等,Qwen3.7 Max 的表現(xiàn)也是拿下了國產(chǎn)模型的冠軍。
![]()
雖然現(xiàn)在大模型四年,我們已經(jīng)對這些排行榜的刷新屢見不鮮,但還是忍不住想要體驗(yàn)一下,能夠超越 GPT 5.5 的 Qwen 模型,實(shí)際能力到底如何。
要知道,現(xiàn)在最火的 Coding Agent 組合,大概就是搭配了 GPT 5.5 的 Codex。
如果我們把 Codex 里面的默認(rèn)模型修改成 Qwen3.7 Max,再用 Codex 來完成一些日常的任務(wù),會不會比 GPT 5.5 還好用呢。
獲取 Qwen3.7 Max
趁著現(xiàn)在各家都在推出一些 Token 優(yōu)惠活動,阿里云也提供了 100 萬 Token 的免費(fèi)使用,可在阿里云百煉平臺使用。
![]()
Qwen3.7 Max 的定價(jià),在阿里云官網(wǎng),目前是限時(shí)五折,輸入 6 元/每百萬 tokens,輸出 18 元/每百萬 tokens。新用戶還可以 5 折充值節(jié)省計(jì)劃,以 10 元每月的價(jià)格獲得 20 元的 Token 額度,而 Token Plan 標(biāo)準(zhǔn)檔目前是 198 元/月。
![]()
總體來說,根據(jù)大模型聚合平臺 OpenRouter 顯示的數(shù)據(jù),Qwen3.7 Max 的價(jià)格屬于中規(guī)中矩的一檔,對比 DeepSeek 的骨折價(jià)肯定比不上,但和 Opus 4.7、GPT 5.5 相比還是優(yōu)惠不少。
![]()
![]()
我們直接充值了「入門首選」這檔全模型通用抵扣 20 元。但這里需要注意的是,五折優(yōu)惠僅支持一個套餐,即購買了 10 元的,就不能再購買 50、250 的半價(jià)優(yōu)惠計(jì)劃了。
![]()
DeepSeek、Claude、GPT、Gemini、Qwen 一起來測試
拿到了 API Key 和百萬免費(fèi)使用 Token,我們先是在阿里云百煉平臺、以及千問官網(wǎng),使用 Qwen3.7 Max 做了一些常見的前端網(wǎng)頁設(shè)計(jì)來測試它的開發(fā)能力。
像是比較能直觀的看到差別的物理模擬測試,我們就用一段簡單的提示詞「用 HTML+CSS+JS 做一個模擬液體在容器里晃動的動畫,拖動容器可以改變傾斜角度。」
![]()
▲ Qwen3.7-Max,千問官網(wǎng)生成
Qwen3.7 Max 的表現(xiàn)可以說是順利完成了這個模擬挑戰(zhàn),同時(shí)還增加了顏色的自定義、搖晃、液體量調(diào)節(jié)等功能。
DeepSeek 就比較簡單,但是也沒出錯。
![]()
▲ DeepSeek V4,官網(wǎng)生成
GPT-5.5 生成的液體有點(diǎn)奇怪,雖然做到了會隨著角度的切換,流向?qū)?yīng)的方向,但是整個波浪很出戲。
![]()
▲ GPT-5.5 超高,Codex 生成
Gemini 3.5 Flash 生成網(wǎng)頁似乎是有點(diǎn) Bug,那個瓶子一直會被隱藏到控制面板背后,必須得自己拖出來。但是同樣一句提示詞,它給的自定義東西是真的多,不僅提供了瓶子的類型,還有液體的顏色,各種設(shè)置都能自定義。
![]()
▲Gemini 3.5 Flash,官網(wǎng)生成,選擇 Canvas 選項(xiàng)
Claude Opus 4.7 這個瓶子過于簡陋了,而且模擬的液體晃動效果在劇烈狀態(tài)下,很像是音波的跳動。
![]()
▲ Claude Opus 4.7,使用 Claude Code 應(yīng)用生成
接著我們嘗試讓它生成一個小游戲試試,雖然游戲的測試已經(jīng)是去年 Vibe Coding 的常見測試項(xiàng)目了。但這次我們要 AI 做一個六宮格的 2048 游戲,輸入提示詞「做一個可以玩的 2048,但格子是六邊形的。」
Qwen3.7 Max 生成的頁面還是很好看的,能看到它的參考來源 10 條信息里面,大部分都是來自 CSDN 的 2048 游戲生成教程。
最終的游戲也能玩,但還是偶爾有不按常理出牌的時(shí)刻,例如同一方向上,相同數(shù)字疊加,沒有疊加在該有的位置。
![]()
▲ Qwen3.7 Max,官網(wǎng)生成
DeepSeek V4 的表現(xiàn)和上一輪差不多,但是明明是六邊形,給出的鍵盤控制卻只有 WASD 來滑動。
![]()
▲DeepSeek V4,官網(wǎng)生成
這一輪表現(xiàn)最好的大概就是 Claude 的 Opus 4.7,它真的理解了這個游戲應(yīng)該怎么設(shè)置,格子的移動是符合這個蜂巢的規(guī)則,不會讓人感覺找不著北。
![]()
▲ Claude Opus 4.7,使用 Claude Code 應(yīng)用生成
GPT 5.5 依托 Codex 的能力,在生成了游戲之后還能自己打開瀏覽器預(yù)覽是否有問題,抓取控制臺的信息來修復(fù)項(xiàng)目代碼。最后生成的網(wǎng)頁也很優(yōu)秀,不過對于監(jiān)控鼠標(biāo)在屏幕上的移動方向,還是沒有 Opus 4.7 的表現(xiàn)出色。
![]()
▲GPT-5.5 超高,Codex 生成
Gemini 3.5 Flash 則是一如既往地給我加了很多東西。游戲的主題風(fēng)格它就寫了賽博、暗金和馬卡三種背景,甚至還加上了「內(nèi)置高品質(zhì)合音器」。
游玩過程配有原生 Web Audio 生成的復(fù)古 8-bit 太空音效(合并、滑動、過關(guān)、死亡),體驗(yàn)感瞬間拉滿。
![]()
▲Gemini 3.5 Flash,官網(wǎng)生成,選擇 Canvas 選項(xiàng)
再回到一些普通網(wǎng)頁的設(shè)計(jì)上,我們要求它做一個地鐵博物館的網(wǎng)站,輸入的提示詞也只有一句話「設(shè)計(jì)一個名為地鐵博物館的主題網(wǎng)站,要求沉浸感強(qiáng)。」
本意上我們希望這些大模型可以盡可能多地羅列不同城市的地鐵信息,世界地鐵的 Logo,以及整個網(wǎng)站的風(fēng)格應(yīng)該是藝術(shù)性的,有專門的風(fēng)格和充分的特效來呈現(xiàn)。
先看Qwen3.7 Max,說實(shí)話有點(diǎn)難評,把文字豎排放著是很像地鐵列車,但是整個網(wǎng)站給人的感覺是很亂。
![]()
▲ Qwen3.7-Max,千問官網(wǎng)生成
而 Gemini 繼續(xù)做了很多,聲效再次用上,比較有意思的是,它還做了一個地鐵文創(chuàng),定制紀(jì)念票根生成器。我們可以輸入名字、選擇車站,實(shí)時(shí)生成一張高顏值、復(fù)古風(fēng)的地鐵紀(jì)念乘車票。
![]()
▲ Gemini 3.5 Flash,官網(wǎng)生成,選擇 Canvas 選項(xiàng)
DeepSeek 選擇的項(xiàng)目和 Gemini 類似,一樣有票務(wù)紀(jì)念和駕駛體驗(yàn),但是它在最后交付的成果中,似乎并沒有呈現(xiàn)這些功能。
![]()
▲ DeepSeek V4,官網(wǎng)生成
GPT 5.5 現(xiàn)在生成的網(wǎng)頁風(fēng)格很不錯,雖然也有明顯的套用模板,但是整體的設(shè)計(jì)是在線的,遺憾就是信息量太少了。它似乎沒有理解地鐵博物館應(yīng)該是一個介紹地鐵信息的網(wǎng)站。
![]()
▲GPT-5.5 超高,使用 Codex 生成
繼續(xù)用之前的提示詞像是讓它做一個 macOS/Windows 的操作系統(tǒng),這次我們輸入「用 HTML 構(gòu)建一個完整的瀏覽器操作系統(tǒng)。」
DeepSeek V4 的表現(xiàn)很簡單,同樣簡單的是 Qwen3.7 Max,不過這次 Qwen3.7 Max 額外給了一張不錯的桌面風(fēng)景圖片。
![]()
▲ DeepSeek V4,官網(wǎng)生成
![]()
▲ Qwen3.7-Max,千問官網(wǎng)生成
但在這個測試中真正讓我覺得表現(xiàn)不錯的,還是 Gemini 3.5 Flash 和 GPT 5.5。
![]()
▲ Gemini 3.5 Flash,官網(wǎng)生成,選擇 Canvas 選項(xiàng)
和 Gemini 3.5 Flash 一樣,GPT 5.5 也對整個 OS 進(jìn)行了詳細(xì)的設(shè)計(jì),有專門的風(fēng)格。
![]()
▲ GPT-5.5 超高,使用 Codex 生成
在 Codex 里使用 Qwen3.7 Max
一輪測試下來,好像 Qwen3.7 Max 在通過對話生成小網(wǎng)頁項(xiàng)目的測試表現(xiàn)上,很難說每一次都超越 Gemini、GPT 5.5,但對比前代,我相信是已經(jīng)有了很大的提升。
我們在千問官網(wǎng)看到有一些給出的代碼案例,像是 3D 地球,食物鏈排序,可視化,個人博客等內(nèi)容,但是這些網(wǎng)頁項(xiàng)目的提示詞都比較長,而不是像我們所測試的簡單一句話。
![]()
▲在輸入提示詞之后,千問也提供了「優(yōu)化指令」的選項(xiàng)
我們把 3D 地球這個項(xiàng)目的提示詞也扔給了 DeepSeek V4、Gemini 3.5 Flash,得到的效果幾乎和 Qwen3.7 Max 是一樣的。
![]()
![]()
![]()
這意味著提示詞在當(dāng)前階段,對能否發(fā)揮 Qwen3.7 Max 的能力,還是起著相當(dāng)重要的作用。
而減少用戶優(yōu)化提示詞壓力的方式,大概就是接入 Agent 產(chǎn)品,利用他們的 Skills 以及 Agents 協(xié)作等能力,來發(fā)揮模型的真正實(shí)力。
按照阿里云官方的教程,我們把 Qwen3.7 Max 成功接入到了 Codex 終端助手里。
![]()
不過這里容易出現(xiàn) BUG,即 Codex 會不斷提醒你「CODEX Missing environment variable」。
按照官方的教程,我們修改完 ~/.codex/config.toml 配置文件之后,還需要修改電腦的環(huán)境變量。
即模型的 API KEY 信息是保存在電腦的環(huán)境變量(需要查看自己電腦的 Shell 類型,修改對應(yīng)的環(huán)境變量文件,如 .bash_profile 或 .zshrc)中,而不是在 Codex 的 config.toml 配置文件里。
![]()
修改完成之后,在終端輸入 Codex,我們就能看到 Qwen3.7 Max,重新打開 Codex App,主界面的模型也會從之前的 GPT-5.5 切換為自定義的 Custom。
![]()
用同樣的方法,我們可以把 DeepSeek、MiniMax、Kimi、智譜等模型,都接入到 Codex 中。
前段時(shí)間在 GitHub 上有一個前端的 Skill 收獲了兩萬多個 Star,它主打讓 AI 生成的前端界面更好看,這和 Qwen3.7 Max 拿下第二名的榜單任務(wù)類似。
我們先安裝這個 Skill 到 Codex 中,然后嘗試結(jié)合 Skill 看看是否能有更好的效果。
![]()
▲ 地址:https://github.com/Leonxlnx/taste-skill
輸入同樣的提示詞,Codex 會自動調(diào)用前端設(shè)計(jì)、頭腦風(fēng)暴等 Skill 來完成設(shè)計(jì)的定位和構(gòu)思,并且嚴(yán)格按照 Codex 的流程控制來監(jiān)控項(xiàng)目生成。
![]()
最后,同樣一個模型,在 Codex 里面的表現(xiàn)要比直接在千問官網(wǎng)好上不少。
![]()
但是這里還是會容易遇到一個問題「stream disconnected before completion: <400> InternalError.Algo.InvalidParameter: The "function.arguments" parameter of the code model must be in JSON format.」
![]()
當(dāng)模型需要調(diào)用專門的工具時(shí),就無法再和模型取得連接。我們在互聯(lián)網(wǎng)上找到了相關(guān)的問題案例,原因可歸結(jié)為「模型部署廠商針對流式輸出格式有問題,不是標(biāo)準(zhǔn) OpenAI 協(xié)議,所以不支持 API 調(diào)用,出現(xiàn) 400 報(bào)錯。」
要求 Codex 解釋這個問題時(shí),Codex 也是說模型的問題。
不是你配置錯了,而是 Qwen3.7 Max / 百煉 Responses API 對 Codex agent 工具調(diào)用還不夠穩(wěn)。能對話不代表能穩(wěn)定跑 Codex,長任務(wù)、改代碼、頻繁讀文件時(shí),切回 OpenAI 官方模型會穩(wěn)定很多。
所以如果你也遇到了這個問題,大概只有等 Qwen 團(tuán)隊(duì)自己去修復(fù),或者重新開一個會話試試。
![]()
▲ 阿里云官方有出現(xiàn)不同錯誤碼的解決方案指南
去年我們還在說模型即產(chǎn)品,一個足夠好的模型就是一個好產(chǎn)品,現(xiàn)在看來,單靠模型是遠(yuǎn)遠(yuǎn)不夠的。
記憶、Harness、Agents 編排、驗(yàn)證、推理的可持續(xù)性等等,隨著模型能力的增加,這套架構(gòu)也在持續(xù)擴(kuò)充,但只有都做好了,我們或許才愿意說「這是一個好模型」。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.