![]()
大模型領域里,騰訊要怎么追趕?Hy 3 只是一個起點而非答案。
「We are just getting started.」
Hy3 preview 發布當天,姚順雨在 X 上說,當下的目標是做超越公開榜單的、全面能力的實用模型,而做到這件事的唯一方法是和多種產品共同設計(co-design),同時穩健地擴規模(scaling solidly)。
這位起跑剛三個月的騰訊 AI 主將,將 4 月 23 號發布的混元 3(Hy3)preview 版作為一個初試之作。
此前,外界對這款模型的高預期來自兩個方面。
年初,馬化騰和劉熾平都承認騰訊在 AI 領域慢了,劉熾平甚至直言不諱,說以前騰訊的模型是高中生背題應考,成績單好看,但真上考場就完蛋。反思的同時,騰訊已經在醞釀改變,外界也格外期待騰訊的自研大模型接下來怎么走。
另一個期待來自姚順雨本人。
姚順雨頂著從姚班到硅谷的系列光環,去年 9 月離開 OpenAI 加入騰訊,12 月正式出任首席 AI 科學家,成為騰訊 AI 真正的領路人。在近些年的 AI 發展歷程上,人才密度往往決定 AI 的戰局。
![]()
第一個作品正是 Hy3 Preview,1 月底啟動訓練,4 月發布上線,從訓練到開源不到三個月——即便在加速內卷的大模型領域,這個速度依然很快。
MoE 架構,295B 總參數,21B 激活參數,最大支持 256K 上下文長度,快慢思考融合。Hy3 preview 已在元寶、ima、CodeBuddy、WorkBuddy、QQ、騰訊文檔等多個主線產品首發上線。
Hy3 preview 的參數規模并沒有沖到頭,傳統跑分上沒有全面刷榜,而它強調的能力——真多輪對話、長記憶、工具調用、Agent——也不在大家熟悉的「炸裂」或「變天」的話語體系里。
姚順雨自己也沒把它看做一個集大成的作品,他說這是「重建的開始」,而非外界期待的終點。
![]()
確實,姚順雨加入騰訊時候,騰訊的 AI 建設在國內乃至全球一線大廠梯隊中情況并不樂觀。
騰訊 2023 年就開始做混元,但內部定位并不清晰。初期內部給到的關注相對有限,也不是各業務線的默認選項,甚至在自家業務上,混元都坐不上主桌,一些騰訊的核心業務甚至繞開混元,自己找方案。
2025 年 2 月,元寶接入 DeepSeek R1,用戶量爆發式增長,一度登上 App Store 免費榜第二。對于騰訊的產品,這當然是好事,但從另一個角度看,騰訊內部可能也敲響了警鐘——自己的模型不夠用,用戶會直接找別人的模型。
借別人的能力可以過一陣,但微信、企業服務、游戲 AI、廣告智能投放這些核心場景需要深度定制、可控可調的能力,通用 API 解決不了。
混元必須自己站起來,但問題是怎么站。這是姚順雨需要解決的問題。
姚順雨個性張揚,從不掩飾自己的野心。從 Open AI 加入騰訊之后,姚的目標無疑是做出國內乃至全球最頂尖的模型。
但要實現野心,他要解的首先不是算法題或者工程題,而是組織題。
有熟悉姚順雨的人說,過去騰訊在混元上的經驗,對姚順雨而言局面是「又破又立」——團隊亟需重組,基建需要重建,組織需要重新梳理,更重要是要明確騰訊做大模型的核心原則。
![]()
糾正錯誤動作,有時候比從頭學習新動作還要難上許多,因為錯誤動作已經成了肌肉記憶了。
接下來的幾個月,他做了一連串調整。重構組織,從業界吸引人才、重建數據和基建……這幾乎是重建騰訊 AI 的鏈路。
在 2026 年 3 月 20 日,成立十年的騰訊 AI Lab 正式撤銷,核心研發人員全部并入大語言模型部,統一向姚順雨匯報。所有 AI 研究力量收攏,聚焦混元單一主線,姚順雨終于成了騰訊 AI 真正的核心。
新組建的團隊里,很多核心研究員是 2025 年底才陸續到位的。
對一個新團隊的第一個公開版本來說,合理目標不是 SOTA,是把鏈路跑通,把幾個關鍵能力做出來。
Hy3 preview 的定位正是如此。它顯然承載不了姚順雨全部野心,而只是通往他野心的第一步。
不過,這個用來練兵探路的產品,很多方面也很姚順雨,體現了他的判斷,或者說 Bet。
AI 行業的人喜歡說「Bet」,押注。押注一個判斷,押注一條工程路線。當初,Google 押注了 Transformer 的左邊,OpenAI 押注右邊——最終有了如今的 AI 局面。
現在每家頭部公司都在下不同的賭注——字節押豆包入口,阿里押千問的 API 和 C 端雙軌,DeepSeek 押技術極限。
騰訊呢?騰訊押的是什么?
![]()
要回答騰訊押的是什么,先看 Hy3 preview 具體做了什么取舍。
如前所說,在規模上,騰訊選了平衡。Hy3 preview 是 295B 總參數,21B 激活參數——放在頭部 MoE 里屬于中等偏下。但相比此前的 Hy2,本次的預覽版已經實現了三個月內的巨大的跨越:近乎重構模型的底座。
這種選擇背后大概有幾層考慮。一層是新團隊第一次跑完整流程,不會直接上極端參數,這應該是 Hy3 正式版會做的事情;一層是大模型時代的 Scaling 在拉平,多花十倍成本換來 5% 的領先,用戶感受不到。
Hy3 Preview 選擇的 MoE 路線,是目前大模型的主流選擇。騰訊的 AI 不僅是獨立產品,更是嵌在分發場景里,而分發入口(微信、元寶、企業微信)每天產生的調用量是天文數字。
如果用密集的幾百億參數模型,單次推理成本是 MoE 的十幾倍,這個差距乘以日調用量,是任何業務模型都算不過來的賬。
這不僅是騰訊的選擇,也是行業的共識。剛剛發布的 DeepSeek V4,也是稀疏 MoE,激活率 2.3%。這當然是個比 HY3 Preview 規模大得多的模型,但在稀疏方面,甚至要更加激進。
![]()
在架構上,騰訊選了融合。
Hy3 preview 把快慢思考做成一個端點,模型內部根據輸入的復雜度自己判斷走哪條路徑。
DeepSeek 之前把快慢思考做成兩個端點——V3 一個,R1 一個,開發者調用時自己選。兩種做法對應兩種不同的用戶假設。DeepSeek 假設用戶知道自己要什么——一個調用 API 的開發者,他清楚這次請求復雜還是簡單。
Hy3 preview 假設用戶不用知道。一個在元寶里問「周末帶孩子去哪玩」的人,他不會先想「這個問題需要快回答還是慢回答」再發出來。
在這個場景里,融合架構幾乎是唯一的合理選擇。
這個選擇也很姚順雨。他 2022 年提出過一個框架叫 ReAct——讓模型在「推理」和「行動」之間自己決定切換的時機。后來的 Tree of Thoughts、SWE-agent 都是沿著這條路往前走。
讓模型自主決定下一步做什么,是 Agent 作為一種產品形態成立的前提。Hy3 preview 的快慢融合是這條線索在推理路徑上的具體實現。模型不只決定「做什么」,也決定「怎么做」。
在評估和能力上,騰訊選了場景化。
![]()
在復雜推理上,Hy3 preview 并不弱。它在清華大學求真書院數學博士資格考試(26 春)取得國內最高分,在 FrontierScience-Olympiad、IMOAnswerBench 等高難度理工科推理任務上表現突出。
能力本身是有的,但顯然,混元這次不把重心放在容易被刷的公開榜單上,而是通過自建題目、真實任務和產品眾測來評估「真實戰斗力」——騰訊為此新建了 CL-bench、CL-bench-Life 等內部評測集來評估上下文學習能力。
可以說這是騰訊的揚長避短,但這個選擇背后,也是評估方式本身在變。
學術評測有一個基本假設——每道題獨立打分,最后平均得分。這個假設在數學題、代碼題上是合理的,但在真實工作里事情不是這樣發生的。
一個工程師在同一個代碼庫里干活,第十個 bug 一定比第一個解得快——前面的工作改變了他解決后面問題的方式。但現在的 Agent 評測里,模型解決了 99 個任務并不會讓它在第 100 個任務上更熟練,因為每個任務都是從頭開始。
姚順雨在《The Second Half》里指出過,學術評測的獨立假設在真實 Agent 場景里不成立。Hy3 preview 強調的真多輪、長記憶、Context learning——本質上都要求「上下文是累積的」。
DeepSeek 在 V4 上也給了類似的信號——它主打 SWE-bench Verified 這種真實編程任務的成績,而不是傳統的學術知識測試。兩家都在把評估尺度從「考試題」往「真實工作」上挪。
![]()
姚順雨在推特上說到了做出新一代大模型的方法:和多種產品共同設計(co-design),同時穩健地擴規模(scaling solidly)。
后者容易理解,擴規模也是每個模型廠都在做的事情,那么 Co-design 是什么?
簡單來說,就是不要孤立造輪子,也不是訓練出模型之后,再去做產品和業務適配,而是模型和產品從設計階段就同步推進,讓產品反饋來倒逼模型迭代。
這背后是騰訊的優勢——分發入口。
想象一下 2026 年的騰訊用戶可能怎么接觸到混元。你在微信里收到一條消息,下面可能有個按鈕幫你總結;你打開元寶問一個問題,答案來自 Hy3;你在企業微信里讓 AI 幫你訂會議室、寫周報。
當然,分發入口未必是必勝牌,像百度也有最大的搜索入口,可文心一言并沒有把入口轉化成 AI 時代的優勢。分發優勢要真的變成勝勢,需要模型本身能做出「嵌入業務之后才有的價值」。
![]()
騰訊押的就是這個假設,而且 2026 年的 AI 行業恰好給了這種押注一些空間。
參數規模的邊際收益在遞減,技術差異化越來越難,幾家國產模型用的是同一套配方。上半場靠更大的參數、更多的榜單;下半場關心的是場景,是嵌入。騰訊押的恰好是下半場的牌。
Hy3 preview 完成了它作為練兵版本的使命——把方法論跑通了,把新組織驗證了,把同向印證的信號也拿到了,更重要的是為后續更多的版本打了下了第一塊基石。
但這只是第一步,真正要讓野心成立,還有幾件事必須在接下來的版本上兌現。
preview 是 295B 的練兵版。真正的主力版本——混元 3——將在更大的參數量級上證明方法論依然成立。
有些問題只能等主力版本來回答,比如稀疏 MoE 的 Co-design 能不能擴展、快慢融合能不能在更大規模上保持效率、場景化評估能不能應對更多業務的復雜度。姚順雨自己說的 「scaling solidly」 就是在這一層上兌現的。
這里有一個最關鍵的跨越——從產品級閉環到模型級閉環。
過去互聯網時代的數據閉環是產品閉環,用戶反饋改進產品、產品改進再反饋,這件事騰訊做了十幾年,輕車熟路。AI 時代的數據閉環是模型閉環——要求模型本身能消化反饋、改進自己。
![]()
這是一個開放的研究問題,沒有任何公司證明已經完全跑通。preview 在 Co-design 上拿到了產品級的初步反饋,主力版本能不能跨越到模型級的閉環,是整個野心能不能成立的最關鍵技術驗證。
騰訊的組織能力也會繼續經受考驗。
姚順雨的手術做完了——三個部門獨立建制、AI Lab 并入、基建重建。但一次性的重建不是組織能力,是組織事件。迭代節奏能不能持續?業務線和模型線能不能長期協同?Co-design 能不能在騰訊的業務復雜度里真正扎下根?這些都要靠時間驗證。
組織這一層最大的風險不在技術,在文化。Co-design 需要模型團隊和業務團隊深度磨合,騰訊有名的是業務線的獨立性——業務線能不能長期耐心接受和模型團隊同步推進,是一個開放的問題。
劉熾平說 AI 投入至少翻倍,這體現了決心;但決心在一年后、兩年后還在不在,取決于混元 3 及后續版本能不能拿出讓業務線信服的東西。
按照目前的節奏,在 Hy3 正式版上,我們會看到規模會繼續擴大,姚順雨的方法論會在更大參數量級上接受驗證,也會與其他頂尖大模型正面較量也會正面展開。
到那一天,恐怕才是檢驗今天這套模型、產品以及組織方法論更大的有效性的時刻,姚順雨和混元團隊將繼續沖刺。
還可以看這些
歡迎來我的群里聊天
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.