AI圈的瓜我吃了這么多,這次國產大模型的操作真的給我看呆了。之前AI編程這塊,誰都得承認Claude是說一不二的老大哥,哪怕不少人吐槽它母公司的做派,也架不住人家能力確實能打。誰能想到阿里悄悄放出來的新旗艦千問Qwen3.7-Max,直接沖到了老大跟前,就差1分就追上了。
![]()
說出來你可能不信,這次的排名來自全球第三方權威編程榜單Code Arena,榜單結果真的殺瘋了。Qwen3.7-Max口碑一路攀升,往上沖的勢頭根本擋不住,把GPT-5.5、Gemini-3.5-Flash、GLM-5.1、Kimi-K2.6這些耳熟能詳的熱門模型全甩在身后。現在名次就排在Claude系列后面,甚至還超過了Claude-opus-4.6,僅僅落后Claude 4.6-thinking1分,一眾熱門模型都被遠遠拋在身后。
很多人可能好奇,大模型能力方向那么多,為啥偏偏把編程能力拎出來說事兒。說白了,這玩意兒就是大模型智能水平的硬試金石,好不好用一驗就出來。它要搞定需求理解、任務拆解、邏輯推理、工程實現到錯誤修復整套活,一點摻不了假。
![]()
不像生成圖片或者寫隨筆,好壞全看個人喜好,公說公有理婆說婆有理,沒個準話。代碼能不能跑,功能齊不齊,用戶打開一運行就知道結果,半點兒水分都擠不出來。也正因為這樣,編程能力才成了大模型能不能落地生產場景最實在的硬指標。
這次出結果的Code Arena,可不是什么不知名小機構做的野榜。它是目前全球最受關注的AI編程能力榜單之一,背后是知名第三方盲測平臺LMArena。它的評測規(guī)則也很公平,都是開發(fā)者出題,要求模型從零開始生成完整可交互的Web應用。
![]()
用戶不知道對比的兩個模型分別是什么身份,只需要對著兩個生成結果投票選出更好的那個,最終排名全靠全球開發(fā)者的真實投票堆出來。這種盲測出來的結果,水分真的很少,行業(yè)內外的認可度都很高。
這次千問的表現,說一句有點東西真的太貼切了。直接沖進了榜單全球前四,把Claude霸榜很久的固有格局給打破了。它還是這個榜單里第一個突破1540分大關的國產大模型,這個成績真的夠提氣。
多說點干貨,這個Qwen3.7-Max本來就是主打Agent場景的旗艦模型,最擅長的就是編程、智能體還有長程任務。尤其是長程任務這塊,真的甩出不少同行一條街。官方放出來的實測例子里,千問3.7在一個全新的芯片平臺上自主編程,調用超一千次工具,連續(xù)不間斷跑了35個小時,最終完成了一個關鍵內核的自我進化,推理速度比原版本直接提升了10倍。
![]()
不少實際用過的開發(fā)者都給出了好評,都說它的長程自主執(zhí)行能力太讓人驚艷。很多從業(yè)者都覺得,它特別適合拿來做Agent的基座模型。這個定位剛好戳中了當前AI落地生產的核心需求,方向踩得特別準。
還有第三方AI機構把Qwen3.7-Max、Claude 4.7 和GPT-5.5放在一起橫向測評,得出的結論也很有意思。千問3.7相比上一代的提升是幾家里面最大的,推理成本反而是最低的。不管是生成速度還是內容質量,都有肉眼可見的明顯優(yōu)勢,性價比直接拉滿。
其實這些年圍觀國產大模型的發(fā)展,真的像開了二倍速一樣。沒幾年前,不少人還在說國產大模型和海外頭部差距拉開了,追不上了。沒想到這才多久,我們的模型已經追到榜首身邊,就差1分就能登頂了。
![]()
能把那么多海內外知名模型甩在身后,這個進步速度真的超出了很多人的預期。不光是榜單排名好看,更關鍵的是它實打實解決了生產場景里的痛點,成本低能力還強,對開發(fā)者來說太友好了。
![]()
我作為一個圍觀科技圈變化的普通人,看這個結果真的挺開心的。原來我們都是跟著別人屁股后面追,一步步縮小差距,現在已經能站到全球第一的身邊了。就盼著這天早點來,國產模型徹底把榜首拿下,讓大伙都能用上好用又實惠的國產大模型。
參考資料:央視新聞 《國產大模型技術創(chuàng)新取得新突破》
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.