无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

國產AI編程沖上全球第二!實測五大模型,誰才是Vibe Coding神器

0
分享至


超越 GPT-5.5、Gemini 3.5 Flash、DeepSeek V4 Pro,阿里的最新旗艦模型 Qwen3.7 Max 在編程競技榜拿下第二名,僅次于 Claude Opus 4.7。


▲5.26 榜單截圖

除了真實場景的用戶選擇,在傳統的大模型固定評測榜單上,像是終端能力 Terminal Bench、編程能力 SWE Bench 等,Qwen3.7 Max 的表現也是拿下了國產模型的冠軍。


雖然現在大模型四年,我們已經對這些排行榜的刷新屢見不鮮,但還是忍不住想要體驗一下,能夠超越 GPT 5.5 的 Qwen 模型,實際能力到底如何。

要知道,現在最火的 Coding Agent 組合,大概就是搭配了 GPT 5.5 的 Codex。

如果我們把 Codex 里面的默認模型修改成 Qwen3.7 Max,再用 Codex 來完成一些日常的任務,會不會比 GPT 5.5 還好用呢。

獲取 Qwen3.7 Max

趁著現在各家都在推出一些 Token 優惠活動,阿里云也提供了 100 萬 Token 的免費使用,可在阿里云百煉平臺使用。


Qwen3.7 Max 的定價,在阿里云官網,目前是限時五折,輸入 6 元/每百萬 tokens,輸出 18 元/每百萬 tokens。新用戶還可以 5 折充值節省計劃,以 10 元每月的價格獲得 20 元的 Token 額度,而 Token Plan 標準檔目前是 198 元/月。


總體來說,根據大模型聚合平臺 OpenRouter 顯示的數據,Qwen3.7 Max 的價格屬于中規中矩的一檔,對比 DeepSeek 的骨折價肯定比不上,但和 Opus 4.7、GPT 5.5 相比還是優惠不少。



我們直接充值了「入門首選」這檔全模型通用抵扣 20 元。但這里需要注意的是,五折優惠僅支持一個套餐,即購買了 10 元的,就不能再購買 50、250 的半價優惠計劃了。


DeepSeek、Claude、GPT、Gemini、Qwen 一起來測試

拿到了 API Key 和百萬免費使用 Token,我們先是在阿里云百煉平臺、以及千問官網,使用 Qwen3.7 Max 做了一些常見的前端網頁設計來測試它的開發能力。

像是比較能直觀的看到差別的物理模擬測試,我們就用一段簡單的提示詞「用 HTML+CSS+JS 做一個模擬液體在容器里晃動的動畫,拖動容器可以改變傾斜角度。」


▲ Qwen3.7-Max,千問官網生成

Qwen3.7 Max 的表現可以說是順利完成了這個模擬挑戰,同時還增加了顏色的自定義、搖晃、液體量調節等功能。

DeepSeek 就比較簡單,但是也沒出錯。


▲ DeepSeek V4,官網生成

GPT-5.5 生成的液體有點奇怪,雖然做到了會隨著角度的切換,流向對應的方向,但是整個波浪很出戲。


▲ GPT-5.5 超高,Codex 生成

Gemini 3.5 Flash 生成網頁似乎是有點 Bug,那個瓶子一直會被隱藏到控制面板背后,必須得自己拖出來。但是同樣一句提示詞,它給的自定義東西是真的多,不僅提供了瓶子的類型,還有液體的顏色,各種設置都能自定義。


▲Gemini 3.5 Flash,官網生成,選擇 Canvas 選項

Claude Opus 4.7 這個瓶子過于簡陋了,而且模擬的液體晃動效果在劇烈狀態下,很像是音波的跳動。


▲ Claude Opus 4.7,使用 Claude Code 應用生成

接著我們嘗試讓它生成一個小游戲試試,雖然游戲的測試已經是去年 Vibe Coding 的常見測試項目了。但這次我們要 AI 做一個六宮格的 2048 游戲,輸入提示詞「做一個可以玩的 2048,但格子是六邊形的。」

Qwen3.7 Max 生成的頁面還是很好看的,能看到它的參考來源 10 條信息里面,大部分都是來自 CSDN 的 2048 游戲生成教程。

最終的游戲也能玩,但還是偶爾有不按常理出牌的時刻,例如同一方向上,相同數字疊加,沒有疊加在該有的位置。


▲ Qwen3.7 Max,官網生成

DeepSeek V4 的表現和上一輪差不多,但是明明是六邊形,給出的鍵盤控制卻只有 WASD 來滑動。


▲DeepSeek V4,官網生成

這一輪表現最好的大概就是 Claude 的 Opus 4.7,它真的理解了這個游戲應該怎么設置,格子的移動是符合這個蜂巢的規則,不會讓人感覺找不著北。


▲ Claude Opus 4.7,使用 Claude Code 應用生成

GPT 5.5 依托 Codex 的能力,在生成了游戲之后還能自己打開瀏覽器預覽是否有問題,抓取控制臺的信息來修復項目代碼。最后生成的網頁也很優秀,不過對于監控鼠標在屏幕上的移動方向,還是沒有 Opus 4.7 的表現出色。


▲GPT-5.5 超高,Codex 生成

Gemini 3.5 Flash 則是一如既往地給我加了很多東西。游戲的主題風格它就寫了賽博、暗金和馬卡三種背景,甚至還加上了「內置高品質合音器」。

游玩過程配有原生 Web Audio 生成的復古 8-bit 太空音效(合并、滑動、過關、死亡),體驗感瞬間拉滿。


▲Gemini 3.5 Flash,官網生成,選擇 Canvas 選項

再回到一些普通網頁的設計上,我們要求它做一個地鐵博物館的網站,輸入的提示詞也只有一句話「設計一個名為地鐵博物館的主題網站,要求沉浸感強。」

本意上我們希望這些大模型可以盡可能多地羅列不同城市的地鐵信息,世界地鐵的 Logo,以及整個網站的風格應該是藝術性的,有專門的風格和充分的特效來呈現。

先看Qwen3.7 Max,說實話有點難評,把文字豎排放著是很像地鐵列車,但是整個網站給人的感覺是很亂。


▲ Qwen3.7-Max,千問官網生成

而 Gemini 繼續做了很多,聲效再次用上,比較有意思的是,它還做了一個地鐵文創,定制紀念票根生成器。我們可以輸入名字、選擇車站,實時生成一張高顏值、復古風的地鐵紀念乘車票。


▲ Gemini 3.5 Flash,官網生成,選擇 Canvas 選項

DeepSeek 選擇的項目和 Gemini 類似,一樣有票務紀念和駕駛體驗,但是它在最后交付的成果中,似乎并沒有呈現這些功能。


▲ DeepSeek V4,官網生成

GPT 5.5 現在生成的網頁風格很不錯,雖然也有明顯的套用模板,但是整體的設計是在線的,遺憾就是信息量太少了。它似乎沒有理解地鐵博物館應該是一個介紹地鐵信息的網站。


▲GPT-5.5 超高,使用 Codex 生成

繼續用之前的提示詞像是讓它做一個 macOS/Windows 的操作系統,這次我們輸入「用 HTML 構建一個完整的瀏覽器操作系統?!?/p>

DeepSeek V4 的表現很簡單,同樣簡單的是 Qwen3.7 Max,不過這次 Qwen3.7 Max 額外給了一張不錯的桌面風景圖片。


▲ DeepSeek V4,官網生成


▲ Qwen3.7-Max,千問官網生成

但在這個測試中真正讓我覺得表現不錯的,還是 Gemini 3.5 Flash 和 GPT 5.5。


▲ Gemini 3.5 Flash,官網生成,選擇 Canvas 選項

和 Gemini 3.5 Flash 一樣,GPT 5.5 也對整個 OS 進行了詳細的設計,有專門的風格。


▲ GPT-5.5 超高,使用 Codex 生成

在 Codex 里使用 Qwen3.7 Max

一輪測試下來,好像 Qwen3.7 Max 在通過對話生成小網頁項目的測試表現上,很難說每一次都超越 Gemini、GPT 5.5,但對比前代,我相信是已經有了很大的提升。

我們在千問官網看到有一些給出的代碼案例,像是 3D 地球,食物鏈排序,可視化,個人博客等內容,但是這些網頁項目的提示詞都比較長,而不是像我們所測試的簡單一句話。


▲在輸入提示詞之后,千問也提供了「優化指令」的選項

我們把 3D 地球這個項目的提示詞也扔給了 DeepSeek V4、Gemini 3.5 Flash,得到的效果幾乎和 Qwen3.7 Max 是一樣的。




這意味著提示詞在當前階段,對能否發揮 Qwen3.7 Max 的能力,還是起著相當重要的作用。

而減少用戶優化提示詞壓力的方式,大概就是接入 Agent 產品,利用他們的 Skills 以及 Agents 協作等能力,來發揮模型的真正實力。

按照阿里云官方的教程,我們把 Qwen3.7 Max 成功接入到了 Codex 終端助手里。


不過這里容易出現 BUG,即 Codex 會不斷提醒你「CODEX Missing environment variable」。

按照官方的教程,我們修改完 ~/.codex/config.toml 配置文件之后,還需要修改電腦的環境變量。

即模型的 API KEY 信息是保存在電腦的環境變量(需要查看自己電腦的 Shell 類型,修改對應的環境變量文件,如 .bash_profile 或 .zshrc)中,而不是在 Codex 的 config.toml 配置文件里。


修改完成之后,在終端輸入 Codex,我們就能看到 Qwen3.7 Max,重新打開 Codex App,主界面的模型也會從之前的 GPT-5.5 切換為自定義的 Custom。


用同樣的方法,我們可以把 DeepSeek、MiniMax、Kimi、智譜等模型,都接入到 Codex 中。

前段時間在 GitHub 上有一個前端的 Skill 收獲了兩萬多個 Star,它主打讓 AI 生成的前端界面更好看,這和 Qwen3.7 Max 拿下第二名的榜單任務類似。

我們先安裝這個 Skill 到 Codex 中,然后嘗試結合 Skill 看看是否能有更好的效果。


▲ 地址:https://github.com/Leonxlnx/taste-skill

輸入同樣的提示詞,Codex 會自動調用前端設計、頭腦風暴等 Skill 來完成設計的定位和構思,并且嚴格按照 Codex 的流程控制來監控項目生成。


最后,同樣一個模型,在 Codex 里面的表現要比直接在千問官網好上不少。


但是這里還是會容易遇到一個問題「stream disconnected before completion: <400> InternalError.Algo.InvalidParameter: The "function.arguments" parameter of the code model must be in JSON format.」


當模型需要調用專門的工具時,就無法再和模型取得連接。我們在互聯網上找到了相關的問題案例,原因可歸結為「模型部署廠商針對流式輸出格式有問題,不是標準 OpenAI 協議,所以不支持 API 調用,出現 400 報錯?!?/p>

要求 Codex 解釋這個問題時,Codex 也是說模型的問題。

不是你配置錯了,而是 Qwen3.7 Max / 百煉 Responses API 對 Codex agent 工具調用還不夠穩。能對話不代表能穩定跑 Codex,長任務、改代碼、頻繁讀文件時,切回 OpenAI 官方模型會穩定很多。

所以如果你也遇到了這個問題,大概只有等 Qwen 團隊自己去修復,或者重新開一個會話試試。


▲ 阿里云官方有出現不同錯誤碼的解決方案指南

去年我們還在說模型即產品,一個足夠好的模型就是一個好產品,現在看來,單靠模型是遠遠不夠的。

記憶、Harness、Agents 編排、驗證、推理的可持續性等等,隨著模型能力的增加,這套架構也在持續擴充,但只有都做好了,我們或許才愿意說「這是一個好模型」。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
阿森納歐冠看你了!英超3天后或包攬本賽季歐戰3冠 36年神跡將至

阿森納歐冠看你了!英超3天后或包攬本賽季歐戰3冠 36年神跡將至

我愛英超
2026-05-28 06:32:47
深圳這把火刷屏了,怎么回事?

深圳這把火刷屏了,怎么回事?

靠山屯閑話
2026-05-27 23:04:54
景甜急賣1.5億江景房!疑似為籌錢還富豪男友,難怪突然不爆料了

景甜急賣1.5億江景房!疑似為籌錢還富豪男友,難怪突然不爆料了

萌神木木
2026-05-27 11:42:30
6死7傷!為銷毀貪腐證據炸掉鄉政府,四川涼山6.26爆炸案震驚中央

6死7傷!為銷毀貪腐證據炸掉鄉政府,四川涼山6.26爆炸案震驚中央

易玄
2026-05-28 05:53:57
72歲上海知青重回云南看初戀,得知自己竟兒孫滿堂:是我對不起你

72歲上海知青重回云南看初戀,得知自己竟兒孫滿堂:是我對不起你

紅豆講堂
2024-10-07 10:57:14
亞當·肖華再遭質疑!聯盟公信力崩塌,天王山爭議判罰引眾怒!

亞當·肖華再遭質疑!聯盟公信力崩塌,天王山爭議判罰引眾怒!

田先生籃球
2026-05-27 13:43:41
王欣瑜對手:我不是一個作弊的球員;總不能平白無故把分數讓給她

王欣瑜對手:我不是一個作弊的球員;總不能平白無故把分數讓給她

懂球帝
2026-05-28 01:50:22
以后晚上用電不一定便宜了!全國多地取消執行40多年的固定分時電價:市場說了算

以后晚上用電不一定便宜了!全國多地取消執行40多年的固定分時電價:市場說了算

中國能源網
2026-05-27 10:53:04
震驚!河南一足療店推出“反方向的鐘”,200多給技師洗腳70分鐘

震驚!河南一足療店推出“反方向的鐘”,200多給技師洗腳70分鐘

火山詩話
2026-05-28 05:53:10
為什么往死里掃黃?網友分享太真實了,一次說透

為什么往死里掃黃?網友分享太真實了,一次說透

另子維愛讀史
2026-05-27 20:16:03
決賽2次送禮 U17國足助教:潘朝偉非關系戶 他球商高+像日本球員

決賽2次送禮 U17國足助教:潘朝偉非關系戶 他球商高+像日本球員

我愛英超
2026-05-28 07:25:00
官媒俄烏網用“人渣敗類”回懟中國網民批評

官媒俄烏網用“人渣敗類”回懟中國網民批評

輦轂
2026-05-27 22:11:11
SOD 出品,全是真的

SOD 出品,全是真的

吃瓜黨二號頭目
2026-05-28 09:08:51
全新一代問界M9正式上市!余承東:我不是很謙虛 它是地球上性能最強SUV

全新一代問界M9正式上市!余承東:我不是很謙虛 它是地球上性能最強SUV

快科技
2026-05-27 17:10:27
徐湖平被查后續細節曝光:文物流向各地,行業亂象觸目驚心!

徐湖平被查后續細節曝光:文物流向各地,行業亂象觸目驚心!

麥杰遜
2026-05-27 18:09:29
國內將逐漸停止"腸鏡檢查"?做完對身體有無影響?醫生告訴您真相

國內將逐漸停止"腸鏡檢查"?做完對身體有無影響?醫生告訴您真相

垚垚分享健康
2026-05-27 11:20:11
同事婆婆去世,請假要上傳證明!她把婆婆靈堂、亡身都上傳了...人事半夜審核,魂兒嚇沒了

同事婆婆去世,請假要上傳證明!她把婆婆靈堂、亡身都上傳了...人事半夜審核,魂兒嚇沒了

醫脈圈
2026-05-27 20:42:28
伊朗革命衛隊稱對美空軍基地進行打擊

伊朗革命衛隊稱對美空軍基地進行打擊

新華社
2026-05-28 11:16:19
炸裂!北京榜一大哥狂砸1700萬,女主播美若天仙,聊天記錄辣眼睛

炸裂!北京榜一大哥狂砸1700萬,女主播美若天仙,聊天記錄辣眼睛

小鋭有話說
2026-05-28 08:27:38
湖北大娘硬訛收割機后續!大批車主逃離,小麥爛地里,也沒人敢去

湖北大娘硬訛收割機后續!大批車主逃離,小麥爛地里,也沒人敢去

老貓觀點
2026-05-28 07:26:11
2026-05-28 13:04:49
愛范兒 incentive-icons
愛范兒
消費科技第一媒體
38906文章數 2601772關注度
往期回顧 全部

科技要聞

臺積電3納米下半年漲價15% 明年或再漲10%

頭條要聞

民進黨發言人稱受不了國臺辦 陳斌華回應時戰術性喝水

頭條要聞

民進黨發言人稱受不了國臺辦 陳斌華回應時戰術性喝水

體育要聞

如果雷霆拼圖是這水平 馬刺確實打不過

娛樂要聞

曝大嫂冒充七七同學,林俊杰刪掉合照

財經要聞

長鑫科技IPO過會,市值會到幾萬億?

汽車要聞

限時補貼價9.28-10.98萬 MG 4X正式上市

態度原創

時尚
教育
家居
數碼
本地

丑到離譜的牛馬鞋,新中產搶瘋了

教育要聞

倒計時10天 | 篤行不怠,赴一場華南理工之約

家居要聞

蜂鳥餐椅 線面交錯

數碼要聞

三星Galaxy Watch 9與Ultra 2泄漏匯總 或支持無創血糖監測

本地新聞

用剪紙的方式,打開江蘇揚州

無障礙瀏覽 進入關懷版