說(shuō)是放假,更勝上班,敢在大年初一之前,阿里終于把新一代大模型千問(wèn)3.5給發(fā)了出來(lái)??
阿里出新模型是這樣的,在開(kāi)源陣營(yíng)里基本上「發(fā)布即登頂」,要是哪次沒(méi)有摘得榜一,那才是大新聞。
真正的看點(diǎn)早就已經(jīng)是Qwen系列模型在架構(gòu)上還有怎樣的突破,在所有開(kāi)源大模型里,它是前沿含量最高的一個(gè),沒(méi)有之一,歷次更新都在推翻和重建。
這其實(shí)也正是開(kāi)源的價(jià)值,不要為了開(kāi)源而開(kāi)源,所有的折騰不休,都為行業(yè)的整體進(jìn)步提供養(yǎng)分。
這次的Qwen3.5-Plus也不例外,3970億的總參數(shù),相比上一代旗艦?zāi)P蚎wen3-Max的萬(wàn)億參數(shù)不增反降,這很反直覺(jué)。
雖然大家對(duì)于堆參數(shù)這件事已經(jīng)有了邊際收益遞減的預(yù)期,但Qwen3.5-Plus以不到前代模型40%的參數(shù)量,把性能做到了Gemini 3 Pro的級(jí)別,還是讓人感到匪夷所思。
更離譜的是,Qwen3.5-Plus每次響應(yīng)的激活參數(shù)只有170億,相當(dāng)于只用5%的算力資源,就可以調(diào)動(dòng)滿血智能,最后交付給給用戶的token成本只有Gemini 3 Pro的1/18??
如果互聯(lián)網(wǎng)還有記憶,就不會(huì)忘記千問(wèn)大模型死磕MoE架構(gòu)的過(guò)程,從Qwen1.5啟動(dòng)細(xì)粒度專(zhuān)家模式開(kāi)始,到Qwen3摒棄已經(jīng)沿用3代的共享專(zhuān)家改用路由專(zhuān)家,再到這次Qwen3.5引入了混合注意力模式學(xué)會(huì)「有詳有略的讀」,每一次都在革自己和行業(yè)的命。
而且阿里并沒(méi)有藏私,這次推動(dòng)Qwen3.5重大突破的門(mén)控技術(shù),出自阿里在全球AI頂會(huì)2025 NeurIPS上斬獲最佳的論文,所有科技公司都可以吸收成果。
至此,Qwen、GLM、Kimi、DeepSeek??中國(guó)廠商已經(jīng)徹底領(lǐng)跑開(kāi)源模型隊(duì)列,并以無(wú)死角的交叉線路完成對(duì)閉源模型的全面包圍,都說(shuō)2026年大的要來(lái),所以由開(kāi)源模型斬獲無(wú)定語(yǔ)的SOTA,會(huì)不會(huì)是其中一個(gè)大的?
準(zhǔn)備好開(kāi)香檳吧。
以前我們說(shuō)阿里是中國(guó)最接近谷歌的AI大廠,更多的是在談四位一體的業(yè)務(wù)組織,也就是同時(shí)具有芯片、云計(jì)算、大模型和應(yīng)用的公司標(biāo)準(zhǔn),全球除了谷歌,好像也就只有阿里了。
但從今天起,阿里也是一個(gè)在全模態(tài)上100%對(duì)標(biāo)谷歌的公司了,從預(yù)訓(xùn)練第一天起,Qwen3.5就在文本和視覺(jué)的混合數(shù)據(jù)上聯(lián)合學(xué)習(xí),讓視覺(jué)與語(yǔ)言在統(tǒng)一的參數(shù)空間內(nèi)深度融合,這就是Gemini 3 Pro和Nano Banana、Notebooklm跨模態(tài)同步的
還是那句話,不再是6個(gè)月了,就只有3個(gè)月,這就是國(guó)產(chǎn)大模型和地表最強(qiáng)SOTA之間的距離,按照這個(gè)速度,超車(chē)的身位已經(jīng)可以看到了。
辭舊迎新,除夕快樂(lè)!
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.