網易首頁 > 網易號 > 正文申請入駐

姚順雨的 Bet

2026-04-25 09:24:21　來源: 灑家君澤

上海舉報

分享至

大模型領域里，騰訊要怎么追趕？Hy 3 只是一個起點而非答案。

「We are just getting started.」

Hy3 preview 發布當天，姚順雨在 X 上說，當下的目標是做超越公開榜單的、全面能力的實用模型，而做到這件事的唯一方法是和多種產品共同設計（co-design），同時穩健地擴規模（scaling solidly）。

這位起跑剛三個月的騰訊 AI 主將，將 4 月 23 號發布的混元 3（Hy3）preview 版作為一個初試之作。

此前，外界對這款模型的高預期來自兩個方面。

年初，馬化騰和劉熾平都承認騰訊在 AI 領域慢了，劉熾平甚至直言不諱，說以前騰訊的模型是高中生背題應考，成績單好看，但真上考場就完蛋。反思的同時，騰訊已經在醞釀改變，外界也格外期待騰訊的自研大模型接下來怎么走。

另一個期待來自姚順雨本人。

姚順雨頂著從姚班到硅谷的系列光環，去年 9 月離開 OpenAI 加入騰訊，12 月正式出任首席 AI 科學家，成為騰訊 AI 真正的領路人。在近些年的 AI 發展歷程上，人才密度往往決定 AI 的戰局。

第一個作品正是 Hy3 Preview，1 月底啟動訓練，4 月發布上線，從訓練到開源不到三個月——即便在加速內卷的大模型領域，這個速度依然很快。

MoE 架構，295B 總參數，21B 激活參數，最大支持 256K 上下文長度，快慢思考融合。Hy3 preview 已在元寶、ima、CodeBuddy、WorkBuddy、QQ、騰訊文檔等多個主線產品首發上線。

Hy3 preview 的參數規模并沒有沖到頭，傳統跑分上沒有全面刷榜，而它強調的能力——真多輪對話、長記憶、工具調用、Agent——也不在大家熟悉的「炸裂」或「變天」的話語體系里。

姚順雨自己也沒把它看做一個集大成的作品，他說這是「重建的開始」，而非外界期待的終點。

確實，姚順雨加入騰訊時候，騰訊的 AI 建設在國內乃至全球一線大廠梯隊中情況并不樂觀。

騰訊 2023 年就開始做混元，但內部定位并不清晰。初期內部給到的關注相對有限，也不是各業務線的默認選項，甚至在自家業務上，混元都坐不上主桌，一些騰訊的核心業務甚至繞開混元，自己找方案。

2025 年 2 月，元寶接入 DeepSeek R1，用戶量爆發式增長，一度登上 App Store 免費榜第二。對于騰訊的產品，這當然是好事，但從另一個角度看，騰訊內部可能也敲響了警鐘——自己的模型不夠用，用戶會直接找別人的模型。

借別人的能力可以過一陣，但微信、企業服務、游戲 AI、廣告智能投放這些核心場景需要深度定制、可控可調的能力，通用 API 解決不了。

混元必須自己站起來，但問題是怎么站。這是姚順雨需要解決的問題。

姚順雨個性張揚，從不掩飾自己的野心。從 Open AI 加入騰訊之后，姚的目標無疑是做出國內乃至全球最頂尖的模型。

但要實現野心，他要解的首先不是算法題或者工程題，而是組織題。

有熟悉姚順雨的人說，過去騰訊在混元上的經驗，對姚順雨而言局面是「又破又立」——團隊亟需重組，基建需要重建，組織需要重新梳理，更重要是要明確騰訊做大模型的核心原則。

糾正錯誤動作，有時候比從頭學習新動作還要難上許多，因為錯誤動作已經成了肌肉記憶了。

接下來的幾個月，他做了一連串調整。重構組織，從業界吸引人才、重建數據和基建……這幾乎是重建騰訊 AI 的鏈路。

在 2026 年 3 月 20 日，成立十年的騰訊 AI Lab 正式撤銷，核心研發人員全部并入大語言模型部，統一向姚順雨匯報。所有 AI 研究力量收攏，聚焦混元單一主線，姚順雨終于成了騰訊 AI 真正的核心。

新組建的團隊里，很多核心研究員是 2025 年底才陸續到位的。

對一個新團隊的第一個公開版本來說，合理目標不是 SOTA，是把鏈路跑通，把幾個關鍵能力做出來。

Hy3 preview 的定位正是如此。它顯然承載不了姚順雨全部野心，而只是通往他野心的第一步。

不過，這個用來練兵探路的產品，很多方面也很姚順雨，體現了他的判斷，或者說 Bet。

AI 行業的人喜歡說「Bet」，押注。押注一個判斷，押注一條工程路線。當初，Google 押注了 Transformer 的左邊，OpenAI 押注右邊——最終有了如今的 AI 局面。

現在每家頭部公司都在下不同的賭注——字節押豆包入口，阿里押千問的 API 和 C 端雙軌，DeepSeek 押技術極限。

騰訊呢？騰訊押的是什么？

要回答騰訊押的是什么，先看 Hy3 preview 具體做了什么取舍。

如前所說，在規模上，騰訊選了平衡。Hy3 preview 是 295B 總參數，21B 激活參數——放在頭部 MoE 里屬于中等偏下。但相比此前的 Hy2，本次的預覽版已經實現了三個月內的巨大的跨越：近乎重構模型的底座。

這種選擇背后大概有幾層考慮。一層是新團隊第一次跑完整流程，不會直接上極端參數，這應該是 Hy3 正式版會做的事情；一層是大模型時代的 Scaling 在拉平，多花十倍成本換來 5% 的領先，用戶感受不到。

Hy3 Preview 選擇的 MoE 路線，是目前大模型的主流選擇。騰訊的 AI 不僅是獨立產品，更是嵌在分發場景里，而分發入口（微信、元寶、企業微信）每天產生的調用量是天文數字。

如果用密集的幾百億參數模型，單次推理成本是 MoE 的十幾倍，這個差距乘以日調用量，是任何業務模型都算不過來的賬。

這不僅是騰訊的選擇，也是行業的共識。剛剛發布的 DeepSeek V4，也是稀疏 MoE，激活率 2.3%。這當然是個比 HY3 Preview 規模大得多的模型，但在稀疏方面，甚至要更加激進。

在架構上，騰訊選了融合。

Hy3 preview 把快慢思考做成一個端點，模型內部根據輸入的復雜度自己判斷走哪條路徑。

DeepSeek 之前把快慢思考做成兩個端點——V3 一個，R1 一個，開發者調用時自己選。兩種做法對應兩種不同的用戶假設。DeepSeek 假設用戶知道自己要什么——一個調用 API 的開發者，他清楚這次請求復雜還是簡單。

Hy3 preview 假設用戶不用知道。一個在元寶里問「周末帶孩子去哪玩」的人，他不會先想「這個問題需要快回答還是慢回答」再發出來。

在這個場景里，融合架構幾乎是唯一的合理選擇。

這個選擇也很姚順雨。他 2022 年提出過一個框架叫 ReAct——讓模型在「推理」和「行動」之間自己決定切換的時機。后來的 Tree of Thoughts、SWE-agent 都是沿著這條路往前走。

讓模型自主決定下一步做什么，是 Agent 作為一種產品形態成立的前提。Hy3 preview 的快慢融合是這條線索在推理路徑上的具體實現。模型不只決定「做什么」，也決定「怎么做」。

在評估和能力上，騰訊選了場景化。

在復雜推理上，Hy3 preview 并不弱。它在清華大學求真書院數學博士資格考試（26 春）取得國內最高分，在 FrontierScience-Olympiad、IMOAnswerBench 等高難度理工科推理任務上表現突出。

能力本身是有的，但顯然，混元這次不把重心放在容易被刷的公開榜單上，而是通過自建題目、真實任務和產品眾測來評估「真實戰斗力」——騰訊為此新建了 CL-bench、CL-bench-Life 等內部評測集來評估上下文學習能力。

可以說這是騰訊的揚長避短，但這個選擇背后，也是評估方式本身在變。

學術評測有一個基本假設——每道題獨立打分，最后平均得分。這個假設在數學題、代碼題上是合理的，但在真實工作里事情不是這樣發生的。

一個工程師在同一個代碼庫里干活，第十個 bug 一定比第一個解得快——前面的工作改變了他解決后面問題的方式。但現在的 Agent 評測里，模型解決了 99 個任務并不會讓它在第 100 個任務上更熟練，因為每個任務都是從頭開始。

姚順雨在《The Second Half》里指出過，學術評測的獨立假設在真實 Agent 場景里不成立。Hy3 preview 強調的真多輪、長記憶、Context learning——本質上都要求「上下文是累積的」。

DeepSeek 在 V4 上也給了類似的信號——它主打 SWE-bench Verified 這種真實編程任務的成績，而不是傳統的學術知識測試。兩家都在把評估尺度從「考試題」往「真實工作」上挪。

姚順雨在推特上說到了做出新一代大模型的方法：和多種產品共同設計（co-design），同時穩健地擴規模（scaling solidly）。

后者容易理解，擴規模也是每個模型廠都在做的事情，那么 Co-design 是什么？

簡單來說，就是不要孤立造輪子，也不是訓練出模型之后，再去做產品和業務適配，而是模型和產品從設計階段就同步推進，讓產品反饋來倒逼模型迭代。

這背后是騰訊的優勢——分發入口。

想象一下 2026 年的騰訊用戶可能怎么接觸到混元。你在微信里收到一條消息，下面可能有個按鈕幫你總結；你打開元寶問一個問題，答案來自 Hy3；你在企業微信里讓 AI 幫你訂會議室、寫周報。

當然，分發入口未必是必勝牌，像百度也有最大的搜索入口，可文心一言并沒有把入口轉化成 AI 時代的優勢。分發優勢要真的變成勝勢，需要模型本身能做出「嵌入業務之后才有的價值」。

騰訊押的就是這個假設，而且 2026 年的 AI 行業恰好給了這種押注一些空間。

參數規模的邊際收益在遞減，技術差異化越來越難，幾家國產模型用的是同一套配方。上半場靠更大的參數、更多的榜單；下半場關心的是場景，是嵌入。騰訊押的恰好是下半場的牌。

Hy3 preview 完成了它作為練兵版本的使命——把方法論跑通了，把新組織驗證了，把同向印證的信號也拿到了，更重要的是為后續更多的版本打了下了第一塊基石。

但這只是第一步，真正要讓野心成立，還有幾件事必須在接下來的版本上兌現。

preview 是 295B 的練兵版。真正的主力版本——混元 3——將在更大的參數量級上證明方法論依然成立。

有些問題只能等主力版本來回答，比如稀疏 MoE 的 Co-design 能不能擴展、快慢融合能不能在更大規模上保持效率、場景化評估能不能應對更多業務的復雜度。姚順雨自己說的「scaling solidly」就是在這一層上兌現的。

這里有一個最關鍵的跨越——從產品級閉環到模型級閉環。

過去互聯網時代的數據閉環是產品閉環，用戶反饋改進產品、產品改進再反饋，這件事騰訊做了十幾年，輕車熟路。AI 時代的數據閉環是模型閉環——要求模型本身能消化反饋、改進自己。

這是一個開放的研究問題，沒有任何公司證明已經完全跑通。preview 在 Co-design 上拿到了產品級的初步反饋，主力版本能不能跨越到模型級的閉環，是整個野心能不能成立的最關鍵技術驗證。

騰訊的組織能力也會繼續經受考驗。

姚順雨的手術做完了——三個部門獨立建制、AI Lab 并入、基建重建。但一次性的重建不是組織能力，是組織事件。迭代節奏能不能持續？業務線和模型線能不能長期協同？Co-design 能不能在騰訊的業務復雜度里真正扎下根？這些都要靠時間驗證。

組織這一層最大的風險不在技術，在文化。Co-design 需要模型團隊和業務團隊深度磨合，騰訊有名的是業務線的獨立性——業務線能不能長期耐心接受和模型團隊同步推進，是一個開放的問題。

劉熾平說 AI 投入至少翻倍，這體現了決心；但決心在一年后、兩年后還在不在，取決于混元 3 及后續版本能不能拿出讓業務線信服的東西。

按照目前的節奏，在 Hy3 正式版上，我們會看到規模會繼續擴大，姚順雨的方法論會在更大參數量級上接受驗證，也會與其他頂尖大模型正面較量也會正面展開。

到那一天，恐怕才是檢驗今天這套模型、產品以及組織方法論更大的有效性的時刻，姚順雨和混元團隊將繼續沖刺。

還可以看這些

歡迎來我的群里聊天

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

灑家君澤

我所知道的過去，我所期待的未來

50文章數 11關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術

教育

時尚

本地

旅游

手機 / 數碼

房產 / 家居

姚順雨的 Bet

利潤跌27%：快手只剩“可靈”這張牌？

20萬飛天茅臺搭售40萬黔茅酒 老板參加"峰會"后稱被耍

20萬飛天茅臺搭售40萬黔茅酒 老板參加"峰會"后稱被耍

如果雷霆拼圖是這水平 馬刺確實打不過

林俊杰七七與大哥嫂子的瓜剪不斷理還亂

長鑫科技IPO過會，市值會到幾萬億？

新款吉利星愿6.18萬起售 一鏡到底尋找爆款密碼

態度原創

螞蟻新總部封頂了！大圓環到底有啥魔力

滿老師把"壓箱底"的升學數據公開了！近萬份報告隨便查，騰訊ima內測

穿真絲的女人，挺時髦！

用剪紙的方式，打開江蘇揚州

20萬飛天茅臺搭售40萬黔茅酒老板參加"峰會"后稱被耍

20萬飛天茅臺搭售40萬黔茅酒老板參加"峰會"后稱被耍

如果雷霆拼圖是這水平馬刺確實打不過

新款吉利星愿6.18萬起售一鏡到底尋找爆款密碼