无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

阿里Qwen3.7競技場殺至國產第一!一手實測:分分鐘破解奧賽難題,圖文視覺全都難不倒

0
分享至


智東西
作者 陳駿達
編輯 云鵬

智東西5月19日報道,今天,阿里的Qwen3.7系列預覽版模型已上線,共有Max和Plus兩個版本。大模型競技場也放出了Qwen3.7-Max-Preview的評測結果。在大模型競技場覆蓋主流基座大模型的總榜上,Qwen3.7-Max-Preview排名第13,介于GPT 5.5和Grok 4.2之間,是這一榜單上排名最高的國產模型。


在具體的細分榜單上,Qwen3.7-Max-Preview在數學領域排名第7、在專家任務中排名第9、在軟件與信息技術任務中排名第9、在編程任務中排名第10。


▲Arena.ai公布Qwen3.7-Max-Preview的成績

Qwen3.7-Plus-Preview的總榜排名暫未公布。不過,在競技場的視覺排行榜上,我們能看到Qwen3.7-Plus-Preview的成績。這一模型排名第16,得分介于GPT 5.4和Gemini-3 Flash之間。

阿里暫時并未披露Qwen3.7系列模型的具體技術細節,在明天的阿里云峰會上,這兩款模型的更多信息或許會發布。

目前,在Qwen Studio上,用戶已經可以體驗到Qwen3.7-Max-Preview與Qwen3.7-Plus-Preview,這兩款模型采取了閉源發布的模式。Qwen3.7-Max-Preview目前僅支持推理模式,不支持圖片上傳。


智東西第一時間對這兩款模型進行了體驗。Qwen3.7-Max-Preview的實測涉及數學、編程、推理等多種類型的任務,Qwen3.7-Plus-Preview的實測則以視覺任務為主。

從我們的體驗來看,這一代Qwen模型的響應更為直接、迅速,思考節奏也比此前的Qwen模型更果斷,在編程、視覺方面的能力有可感的提升。

體驗鏈接:chat.qwen.ai/

一、4分鐘做對IMO難題,還給我寫了個能跑的EXE

在多領域的排名中,Qwen3.7-Max-Preview在數學方面的得分較為突出。我們拿2025年IMO的一道難題,考察它的數學能力。

Qwen3.7-Max-Preview拿到題目后,進行了多輪分析和反復核驗,最終得出了正確答案,思考速度也還不錯,大概只花了4分鐘。


Qwen目前只提供思維鏈總結,我們看不到模型的真實思考過程。不過,從思維鏈總結中可以發現,和之前的Qwen模型相比,Qwen3.7-Max-Preview似乎更自信了,反復自我核查的環節減少了一些。

Qwen3.7-Max-Preview在編程任務上的表現也不錯。不過,由于目前這款模型只能在網頁中體驗,我們暫時沒有嘗試較為復雜的開發任務。

首個編程任務是讓Qwen3.7-Max-Preview生成一個番茄鐘的桌面應用,并直接打包成EXE。Qwen3.7-Max-Preview沒有在思考環節花許多時間,而是很快進行了開發,設計了一個具備工作計時、短休息、長休息、自動切換、聲音提醒、任務統計的應用。

Qwen3.7-Max-Preview稱它無法輸出EXE,但向我提供了逐步的指引,最終我自己完成了打包的工作。運行后,這一應用無法正常啟動。


閱讀報錯信息后,Qwen3.7-Max-Preview判斷,報錯是因為Tkinter底層(Tcl/Tk)在打包后,不支持帶透明度的十六進制顏色代碼。


問題修復后,這一桌面應用可以正常運行,核心功能都正常,但應用本身的設計比較粗糙。


用HTML輸出內容成為最近AI圈的一大熱點,我讓Qwen3.7-Max-Preview的設計一個AI社交媒體應用的產品需求文檔,并輸出為HTML樣式的網頁。

拿到任務后,Qwen3.7-Max-Preview沒有輸出文字版的產品需求,再轉為HTML,而是直接用HTML輸出了所有內容。

從最終結果來看,Qwen3.7-Max-Preview的這份產品需求文檔結構完整,還配上了產品原型設計,但在產品定義上似乎有些大而全,顯得沒有焦點。


我們還跑了跑其他類型的任務。SVG圖繪制上,Qwen3.7-Max-Preview能順利生成一張動態的鵜鶘騎自行車圖片,畫面內容基本準確。


通用推理任務中,Qwen3.7-Max-Preview一下看穿了這道“海龜湯”的謎底,判斷出女孩是紅綠色盲,并且應該不是父親親生的孩子。


二、有驚無險攻克視覺版“洗車店難題”,還靠一張圖復刻微信

在接下來的測試中,我們主要考察了Qwen3.7-Plus-Preview在視覺能力上的表現。

首個實測任務是一道進階版的洗車店難題。我們用AI生成了一張衛星地圖風格的圖片,圖中只有兩個地點的距離。

我告訴Qwen3.7-Plus-Preview左側地點是我家,右側是洗車店,并詢問它,如果我去洗車,該走路還是開車呢?


從Qwen3.7-Plus-Preview的思考過程中可以看到,它準確地看到了圖片中的文字和視覺信息,并評估了各種不同的選項,甚至還在某一思考階段得出了走路才是最高效合理的方式,險些陷入險境。

不過,最后它還是給出了正確的回答,方案是開車去洗車,然后走路回家,不用在店里干等。


此前,我們在實測DeepSeek視覺模式過程中發現,如今的多模態大模型在看圖猜地點上做得很不錯,我們也讓Qwen3.7-Plus-Preview試了試一樣的題目。


看到圖片后,Qwen3.7-Plus-Preview先是通過建筑風格判斷這里應該是在中國北方某大型城市,然后在依據山脈形態判斷遠處的山應該屬于燕山余脈。最終它認為遠處的山是軍都山,并據此判斷我所在的地方應該是昌平南邵。


這一判斷其實是錯誤的,但離正確答案也不遠了。圖中的山脈是北京的鳳凰嶺,而我所在的觀察地位于馬池口鎮,Qwen3.7-Plus-Preview的猜測與正確地點相距不到10公里。

視覺能力還可以與編程任務結合。我隨手截取了一張微信的截圖,讓Qwen3.7-Plus-Preview復刻出一個類似的網頁版聊天工具。

執行過程中,即便圖中沒有明顯的微信字樣,Qwen3.7-Plus-Preview也通過UI風格的視覺因素判斷出這是微信,并據此規劃了設計風格。


從最終的復刻效果來看,Qwen3.7-Plus-Preview很好地把握了微信的設計特點,外觀還原度很高,不過圖中的按鈕無法正常使用。


結語:Qwen系列模型加速迭代

今年,阿里的Qwen系列模型迭代速度,相較以往有明顯提升。從2026年2月至今,阿里已經陸續發布了Qwen3.5、Qwen3.6、Qwen3.7三代模型,而2025年全年Qwen只發布了Qwen3和Qwen-Next兩個主要版本。

相比過去以“大版本發布”為核心的節奏,如今的Qwen更像是在沿著技術路線持續快跑,通過高頻預覽版和能力增量更新,讓模型更快進入真實場景接受檢驗。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
袁姍姍整容失敗?坐媽媽電動車一路狂吃,早餐干3種主食,臉僵變大媽

袁姍姍整容失敗?坐媽媽電動車一路狂吃,早餐干3種主食,臉僵變大媽

八卦王者
2026-05-18 14:18:22
99年朱總理訪美,被問中國給克林頓30萬獻金,總理:怎么才30萬?

99年朱總理訪美,被問中國給克林頓30萬獻金,總理:怎么才30萬?

WarOH協虎
2024-12-01 22:10:02
《監獄來的媽媽》撤檔!姚晨刪博,官媒怒批,逝者家屬可起訴片方

《監獄來的媽媽》撤檔!姚晨刪博,官媒怒批,逝者家屬可起訴片方

TVB的四小花
2026-05-19 16:37:10
主角:直到何大錘慘死才知,他是如何被自己“點天燈”給反噬的

主角:直到何大錘慘死才知,他是如何被自己“點天燈”給反噬的

容妃
2026-05-19 17:27:11
西媒:穆帥這次仍會邀請一名皇馬舊將入教練組,最想要勞爾

西媒:穆帥這次仍會邀請一名皇馬舊將入教練組,最想要勞爾

懂球帝
2026-05-19 06:32:14
二審判配200萬,龍哥講電車“含淚”道歉比亞迪

二審判配200萬,龍哥講電車“含淚”道歉比亞迪

新浪財經
2026-05-17 11:28:43
76歲的萬科創始人王石,最近徹底成了全網焦點。

76歲的萬科創始人王石,最近徹底成了全網焦點。

夢錄的西方史話
2026-04-23 14:36:39
今日!CCTV5直播CBA京滬對決+U17國足+NBA,5+中超浙江VS山東泰山

今日!CCTV5直播CBA京滬對決+U17國足+NBA,5+中超浙江VS山東泰山

晚池
2026-05-20 01:00:38
堅持跑步等于“整容”!看完這幾組素人的對比照,你就懂了…

堅持跑步等于“整容”!看完這幾組素人的對比照,你就懂了…

馬拉松跑步健身
2026-05-19 21:36:06
蔚來李斌:螢火蟲沒必要再推第二款車 已占高端小車70%份額

蔚來李斌:螢火蟲沒必要再推第二款車 已占高端小車70%份額

快科技
2026-05-18 12:38:48
俄最大煉油廠梁贊被炸成火海,烏軍開始直接掐俄軍“油管”

俄最大煉油廠梁贊被炸成火海,烏軍開始直接掐俄軍“油管”

桂系007
2026-05-15 21:59:39
這部R18+邪典片居然能4K修復?日本院線又整活了

這部R18+邪典片居然能4K修復?日本院線又整活了

隊友祭天法力無邊
2026-05-19 16:59:54
2999元 聯想AI主機mini發布:僅0.48L巴掌大小 支持養蝦

2999元 聯想AI主機mini發布:僅0.48L巴掌大小 支持養蝦

快科技
2026-05-19 20:01:08
“為什么我的媽媽這么老?”9歲女孩因媽媽年齡情緒崩潰,太唏噓

“為什么我的媽媽這么老?”9歲女孩因媽媽年齡情緒崩潰,太唏噓

妍妍教育日記
2026-04-30 20:05:20
徐威:與袁立同居12年,但凡她接受1次求婚,我不會轉身娶張怡寧

徐威:與袁立同居12年,但凡她接受1次求婚,我不會轉身娶張怡寧

素衣讀史
2026-05-19 21:56:05
18天124件訴求:上海市民家中深夜驚現“泥丘”!小心,“無牙老虎”開始入侵→

18天124件訴求:上海市民家中深夜驚現“泥丘”!小心,“無牙老虎”開始入侵→

新民晚報
2026-05-19 19:20:40
明明效果不佳,雷霆卻給了替補中鋒和先發中鋒差不多的出場時間?

明明效果不佳,雷霆卻給了替補中鋒和先發中鋒差不多的出場時間?

稻谷與小麥
2026-05-20 00:05:28
太揪心!樊振東慘敗不到 24 小時,最擔心的事還是發生了

太揪心!樊振東慘敗不到 24 小時,最擔心的事還是發生了

酷侃體壇
2026-05-19 09:31:20
張本美和代言費預估超百萬 松島:她超嚴格

張本美和代言費預估超百萬 松島:她超嚴格

乒乓網國球匯
2026-05-20 00:05:48
寶馬首次揭曉旗下全新豪華品牌

寶馬首次揭曉旗下全新豪華品牌

大象新聞
2026-05-19 10:34:04
2026-05-20 02:04:49
智東西 incentive-icons
智東西
智東西,AI產業新媒體,專注報道人工智能的前沿技術發展,和技術應用帶來的千行百業產業變革。
11846文章數 117078關注度
往期回顧 全部

科技要聞

馬斯克敗訴,法院判他起訴OpenAI太晚了

頭條要聞

媒體:特朗普為何拋涉臺"四不"說法 魯比奧解釋清楚了

頭條要聞

媒體:特朗普為何拋涉臺"四不"說法 魯比奧解釋清楚了

體育要聞

文班亞馬:沒拿到MVP,就證明自己是MVP

娛樂要聞

姚晨刪博難平眾怒,為什么她還能蹦噠

財經要聞

潔麗雅硬剛豪門內斗傳言

汽車要聞

煥新極氪009上市41.38萬起 齊家版讓MPV回歸家庭

態度原創

手機
健康
本地
游戲
軍事航空

手機要聞

澎湃OS 26謠言破滅,小米MIX Fold 5也已現身,下半年穩了!

專家揭秘干細胞回輸的安全風險

本地新聞

別搜晉江小說了,去看真的晉江

外媒滿分盛贊任天堂新作!老少咸宜 想象力爆棚

軍事要聞

特朗普暫緩打擊伊朗 稱系應中東三國請求

無障礙瀏覽 進入關懷版