網易首頁 > 網易號 > 正文申請入駐

編程榜劇變：Qwen3.7-Max僅差Claude 1分，國產模型逼近榜首

2026-05-31 02:52:29　來源: 近史談

河南舉報

分享至

AI圈的瓜我吃了這么多，這次國產大模型的操作真的給我看呆了。之前AI編程這塊，誰都得承認Claude是說一不二的老大哥，哪怕不少人吐槽它母公司的做派，也架不住人家能力確實能打。誰能想到阿里悄悄放出來的新旗艦千問Qwen3.7-Max，直接沖到了老大跟前，就差1分就追上了。

說出來你可能不信，這次的排名來自全球第三方權威編程榜單Code Arena，榜單結果真的殺瘋了。Qwen3.7-Max口碑一路攀升，往上沖的勢頭根本擋不住，把GPT-5.5、Gemini-3.5-Flash、GLM-5.1、Kimi-K2.6這些耳熟能詳的熱門模型全甩在身后。現在名次就排在Claude系列后面，甚至還超過了Claude-opus-4.6，僅僅落后Claude 4.6-thinking1分，一眾熱門模型都被遠遠拋在身后。

很多人可能好奇，大模型能力方向那么多，為啥偏偏把編程能力拎出來說事兒。說白了，這玩意兒就是大模型智能水平的硬試金石，好不好用一驗就出來。它要搞定需求理解、任務拆解、邏輯推理、工程實現到錯誤修復整套活，一點摻不了假。

不像生成圖片或者寫隨筆，好壞全看個人喜好，公說公有理婆說婆有理，沒個準話。代碼能不能跑，功能齊不齊，用戶打開一運行就知道結果，半點兒水分都擠不出來。也正因為這樣，編程能力才成了大模型能不能落地生產場景最實在的硬指標。

這次出結果的Code Arena，可不是什么不知名小機構做的野榜。它是目前全球最受關注的AI編程能力榜單之一，背后是知名第三方盲測平臺LMArena。它的評測規(guī)則也很公平，都是開發(fā)者出題，要求模型從零開始生成完整可交互的Web應用。

用戶不知道對比的兩個模型分別是什么身份，只需要對著兩個生成結果投票選出更好的那個，最終排名全靠全球開發(fā)者的真實投票堆出來。這種盲測出來的結果，水分真的很少，行業(yè)內外的認可度都很高。

這次千問的表現，說一句有點東西真的太貼切了。直接沖進了榜單全球前四，把Claude霸榜很久的固有格局給打破了。它還是這個榜單里第一個突破1540分大關的國產大模型，這個成績真的夠提氣。

多說點干貨，這個Qwen3.7-Max本來就是主打Agent場景的旗艦模型，最擅長的就是編程、智能體還有長程任務。尤其是長程任務這塊，真的甩出不少同行一條街。官方放出來的實測例子里，千問3.7在一個全新的芯片平臺上自主編程，調用超一千次工具，連續(xù)不間斷跑了35個小時，最終完成了一個關鍵內核的自我進化，推理速度比原版本直接提升了10倍。

不少實際用過的開發(fā)者都給出了好評，都說它的長程自主執(zhí)行能力太讓人驚艷。很多從業(yè)者都覺得，它特別適合拿來做Agent的基座模型。這個定位剛好戳中了當前AI落地生產的核心需求，方向踩得特別準。

還有第三方AI機構把Qwen3.7-Max、Claude 4.7 和GPT-5.5放在一起橫向測評，得出的結論也很有意思。千問3.7相比上一代的提升是幾家里面最大的，推理成本反而是最低的。不管是生成速度還是內容質量，都有肉眼可見的明顯優(yōu)勢，性價比直接拉滿。

其實這些年圍觀國產大模型的發(fā)展，真的像開了二倍速一樣。沒幾年前，不少人還在說國產大模型和海外頭部差距拉開了，追不上了。沒想到這才多久，我們的模型已經追到榜首身邊，就差1分就能登頂了。

能把那么多海內外知名模型甩在身后，這個進步速度真的超出了很多人的預期。不光是榜單排名好看，更關鍵的是它實打實解決了生產場景里的痛點，成本低能力還強，對開發(fā)者來說太友好了。

我作為一個圍觀科技圈變化的普通人，看這個結果真的挺開心的。原來我們都是跟著別人屁股后面追，一步步縮小差距，現在已經能站到全球第一的身邊了。就盼著這天早點來，國產模型徹底把榜首拿下，讓大伙都能用上好用又實惠的國產大模型。

參考資料：央視新聞《國產大模型技術創(chuàng)新取得新突破》

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.