一項測試時擴(kuò)展技術(shù),讓中國大模型在深夜的科技圈投下震撼彈,全球AI性能紀(jì)錄被一夜刷新。
![]()
深夜的科技圈,被一則重磅消息點(diǎn)燃。1月26日晚,阿里巴巴正式發(fā)布了其預(yù)告已久的千問旗艦推理模型——Qwen3-Max-Thinking。
這不僅是阿里迄今為止規(guī)模最大、能力最強(qiáng)的千問推理模型,更在多項關(guān)鍵性能基準(zhǔn)測試中,直接超越了GPT-5.2、Claude Opus 4.5和Gemini 3 Pro等國際頂尖對手。
01 深夜王炸
![]()
就在昨晚,阿里巴巴通義千問團(tuán)隊扔出了一枚“深夜王炸”。Qwen3-Max-Thinking的正式發(fā)布,標(biāo)志著中國大模型技術(shù)邁上了一個全新的臺階。
這個模型的總參數(shù)超過萬億(1T),預(yù)訓(xùn)練數(shù)據(jù)量高達(dá)36T Tokens。它經(jīng)過了更大規(guī)模的強(qiáng)化學(xué)習(xí)后訓(xùn)練,并通過一系列推理技術(shù)的創(chuàng)新,最終實(shí)現(xiàn)了模型性能的飛躍式突破。
此前,預(yù)覽版Qwen3-Max-Thinking已經(jīng)展示了驚人的潛力,斬獲了數(shù)學(xué)推理AIME 25和HMMT 25的國內(nèi)首個雙滿分。而正式版在此基礎(chǔ)上,性能得到了全面增強(qiáng)。
通義團(tuán)隊為這個模型引入了兩項核心創(chuàng)新:自適應(yīng)工具調(diào)用能力和測試時擴(kuò)展技術(shù)。這兩項技術(shù),特別是測試時擴(kuò)展技術(shù),可能是它能夠在多項基準(zhǔn)測試中脫穎而出的關(guān)鍵。
02 性能狂飆
在多項關(guān)鍵性能基準(zhǔn)測試中,Qwen3-Max-Thinking的表現(xiàn)令人震撼。它刷新了科學(xué)知識、數(shù)學(xué)推理、代碼編程等多項關(guān)鍵性能基準(zhǔn)測試的全球紀(jì)錄。
在科學(xué)知識測試中,它超越了GPT-5.2;在數(shù)學(xué)推理領(lǐng)域,它擊敗了Claude Opus 4.5;在代碼編程方面,它的表現(xiàn)也優(yōu)于Gemini 3 Pro。
這些成績的背后,是通義團(tuán)隊在模型推理能力上的重大突破。傳統(tǒng)的推理計算往往只是簡單增加并行推理路徑,重復(fù)推導(dǎo)已知結(jié)論,造成了冗余和效率低下。
而Qwen3-Max-Thinking采用的測試時擴(kuò)展新機(jī)制,能夠?qū)χ暗耐评斫Y(jié)果進(jìn)行“經(jīng)驗提取”式的提煉,并據(jù)此進(jìn)行多輪自我迭代。這意味著在相同的上下文中,它能夠?qū)崿F(xiàn)更高效的推理計算,獲得更智能的推理結(jié)果。
03 突破創(chuàng)新
除了測試時擴(kuò)展機(jī)制外,Qwen3-Max-Thinking還大幅增強(qiáng)了自主調(diào)用工具的原生Agent能力。
通義團(tuán)隊對模型進(jìn)行了基于規(guī)則獎勵與模型獎勵的聯(lián)合強(qiáng)化學(xué)習(xí)訓(xùn)練,讓模型能夠自主選用搜索、個性化記憶和代碼解釋器等三個核心的Agent工具功能。
這意味著,當(dāng)你向它提出問題時,它不僅能給出答案,還能像專業(yè)人士一樣,知道什么時候需要搜索最新信息,什么時候需要調(diào)取相關(guān)知識儲備,什么時候需要用代碼解釋器來驗證解決方案。
同時,模型的幻覺現(xiàn)象也大為降低。這是AI領(lǐng)域長期面臨的難題——模型有時會“自信地”給出錯誤答案。Qwen3-Max-Thinking在這方面取得的進(jìn)展,使它的回答更加可靠和準(zhǔn)確。
04 全面開放
最令人振奮的是,這個強(qiáng)大的模型并非只供少數(shù)人使用。普通用戶現(xiàn)在就可以通過千問PC端和網(wǎng)頁端試用模型,開發(fā)者可以在QwenChat上免費(fèi)體驗Qwen3-Max-Thinking模型。
對于企業(yè)用戶,可以通過阿里云百煉獲取新模型API服務(wù)。而據(jù)了解,千問APP也即將接入新模型,所有用戶都可免費(fèi)體驗。
這意味著,中國企業(yè)和開發(fā)者將能夠第一時間接觸并使用到與世界頂尖水平媲美的大模型技術(shù)。這種開放和普惠的策略,無疑將加速AI技術(shù)在各行各業(yè)的應(yīng)用和創(chuàng)新。
自2022年開始研發(fā)以來,阿里Qwen大模型已經(jīng)成為全球排名第一的開源大模型。而Qwen3-Max-Thinking的發(fā)布,無疑是在這一成功基礎(chǔ)上的又一次飛躍。
阿里美股在模型發(fā)布當(dāng)天微跌1.07%,但港股27日盤前卻漲超2%。資本市場似乎已經(jīng)開始對這個技術(shù)突破作出反應(yīng)。
當(dāng)國際巨頭還在為模型參數(shù)的微小提升而沾沾自喜時,中國團(tuán)隊已經(jīng)通過架構(gòu)和機(jī)制的創(chuàng)新,實(shí)現(xiàn)了質(zhì)的飛躍。一個能夠在測試時自我迭代、自我完善的AI大腦,正在從實(shí)驗室走向千家萬戶的電腦和手機(jī)屏幕。
這不僅是技術(shù)的勝利,更是創(chuàng)新思維的勝利。
AI眼鏡處于爆發(fā)前夜,有很多值得體驗的好產(chǎn)品
歡迎大家進(jìn)群一起交流使用心得!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.