網易首頁 > 網易號 > 正文申請入駐

剛剛，姚順雨騰訊首秀來了！三個月重建混元新模型，實測到底什么水平

2026-04-23 17:13:11　來源: AppSo

廣東舉報

分享至

這周，中國大模型的更新讓人窒息。前腳阿里最強旗艦 Qwen 3.6 Max剛發布，月之暗面的 Kimi 2.6 就馬上登場，DeepSeek V4 也箭在弦上。

剛剛，混元的 Hy3 Preview 也正式亮相，這是騰訊首席 AI 科學家姚順雨主導的一個模型。

姚順雨表示，Hy3 preview是混元大模型重建的第一步。他希望通過這次開源和發布，不斷提升 Hy3 正式版的實用性，以及模型在真實場景中的綜合表現，并開始探索特色模型能力。

從去年年底姚順雨加入騰訊，入職首席 AI 科學家，并負責 AI Infra 及大語言模型，1 月底開始啟動模型訓練，三個月的時間完成了從訓練到上線。

這個大版本升級的混元模型，在短時間內，不僅對底層基礎設施進行了系統性重建，還包括預訓練和強化學習在內的底層框架，全部推倒重來。

最后的答卷是一個快慢思考融合的 MoE（混合專家）語言模型，總參數 295B，激活參數 21B，最大支持 256K 上下文長度。

在這個行業動輒吹噓萬億（1T+）參數的時代，Hy3 preview 的數據顯得有些克制。但這個參數很明顯是兼顧了性能和成本之間的平衡，讓模型能更好落地在不同場景。

而 300B 這個量級，復雜的數理推理、長上下文理解和指令遵循能力都已經被充分激活；如果繼續強行擴大規模到萬億參數，一邊是訓練時間加倍，在實際的表現上，也容易出現通信延遲、吞吐瓶頸和推理成本翻倍等問題。

不過，姚順雨也提到，他們在繼續擴大預訓練和強化學習的規模，提升模型的智能上限。

在多個真實生產和生活場景 benchmark，以及騰訊混元的上表現對比前代，提升幅度明顯。

因此，Hy3 preview 這次的定位非常明確，要到真實世界去解決復雜工程問題。

為了驗證 Hy3 preview 是否能在真實世界去解決各種問題，具體的模型表現如何，APPSO 也提前拿到了內測資格，在元寶 App 和 WorkBuddy 桌面端應用了實測了一段時間。

編程和 Agent，混元開始接住真實的工程需要

編程能力目前還是各家大模型發力的重點，前幾天還有外媒報道，谷歌正在成立一個新的團隊，專攻 AI Coding。

這次的騰訊混元新一代大模型 Hy3 preview 同樣在通用能力的提升基礎上，能夠適用于編程和現在熱門的智能體場景。

在公開的編程和智能體 benchmark 上，Hy3 preview 的表現較 Hy2 提升顯著

例如我們用之前 GPT 5.4 模型發布時使用的編程測試案例，來看看 Hy3 preview 的具體表現。

提示詞：創建一個超寫實的舊金山金門大橋交互式 3D 體驗，允許我自由飛翔環繞。環境需包含真實的照明、水體、霧氣、大氣效果、懸索、車流、周邊海岸線及城市背景，并具備電影級的尺度感和細節。讓我能通過直覺式的飛行控制和多視角（包括近距離結構穿梭和大場景俯瞰）平滑地進行場景導航。核心要求是真實感、沉浸感和視覺忠實度。在測試運行時，務必從多個距離和角度環繞大橋飛行，驗證導航的平穩性與穩定性，并確保場景無論遠近都極具說服力。你可以利用 imagegen 技能生成建模所需的初始資產。視覺效果絕不能有任何“方塊感”或“廉價感”，必須達到高保真、極度平滑、近乎照片的質感。橋面上應有真實的車輛通行。不必急于求成，如果需要，即使耗時一小時也可以。請不斷迭代，直至完美。

雖然最后的結果并不是非常寫實，主要差距還是在于所使用的工具限制。但整個體驗還是非常流暢和絲滑，我們能使用 WASD 鍵來控制自己第一人稱視角的飛行，同時 Hy3 preview 也自動寫了一些默認視角。

而在讓它寫一些簡單的小游戲時，像是同樣來自 GPT-5.4 的提示詞，做一個游樂場的經營類小游戲。

提示詞：創建一個可以在瀏覽器中構建并導航的交互式等軸測 (isometric ) 主題公園模擬游戲。利用 imagegen 確立整體視覺風格，并生成全套游戲資產，包括游樂設施、路徑、地形、樹木、水體、食品攤位、裝飾物、建筑、圖標以及 UI 插畫。游戲世界必須具備高度的統一感、精致度以及豐富的視覺表現，藝術風格需高端且適配等軸測視角。允許平滑地鋪設或拆除路徑、添加景點、布置景觀并環繞公園移動，同時能夠監控游客活動、設施狀態以及公園的發展情況。系統需包含可信的游客移動算法，以及簡單的公園管理系統（如資金、清潔度、排隊和滿意度）。確保整體體驗充滿趣味、邏輯清晰且完整，而非粗糙的原型。在優先級上，趣味性、易讀性以及出色的游戲手感高于寫實度。在進行玩法測試時，務必通過多輪操作來構建并擴張公園。驗證設施放置與導航是否順暢，確認游客對公園布局及景點的反應，并確保視覺效果、UI 以及交互體驗穩定且統一。

還是不可免俗的使用了「漸變紫」的套裝，只能說界面審美這一塊，除了編程能力的提升，還是需要額外的一些微調。

好在整個游戲是能玩的，我們可以真實的經營這個游樂場，通過鋪路、放置新的游樂設施以及服務設施等場地，來賺取收入，控制人流。

而經典的「騎自行車的鵜鶘」測試，我們把它換成了更難一點的，開著汽車的長頸鹿。生成的 SVG 畫面是動態的，太陽、云朵和車子都在移動，基礎的 SVG 元素都能做到。

這些關于編程能力的測試，我們都是在騰訊前段時間推出的智能體應用 WorkBuddy 內完成。

而除了代碼開發的任務，我們還可以使用 WorkBuddy 進行文檔處理、數據分析可視化、深度研究等方面的日常辦公。

由于 WorkBuddy 也是一個本地 Agent 產品，和 Claude Code、Codex 之類的應用一樣，我們可以讓它直接訪問本地文件夾的文件。

要求它訪問電腦上 Hy3 文件夾里面的全部文件，并根據文件的內容，創建一個類似于 Wiki 的網頁，能夠直接索引到不同的文件。

WorkBuddy 讀到了我們創建的不同項目，例如要求它完成的落地頁、3D 金門大橋、個人博客、運營游戲等項目，并分類總結好。

再要求它把其中一個香港國際電影節的 PDF 文件轉成 HTML，要求它 1:1 復刻精美的雜志效果，顯然太為難它，但是 Hy3 preview還是能在非常規排版的 PDF 文件里，準確定位到信息，并整理成網頁。

而在深度研究的調研任務上，我們要求他寫一份關于內存市場洞察報告，給出的文檔內容詳細，使用的數據來源也全是權威機構。

繼續用 WorkBuddy 內的數據分析及可視化任務來測試時，要求 Hy3 preview 基于聯合國人口司的數據，做一次全球人口結構變遷的可視化分析，Hy3 preview 花了非常長的時間進行調研，最后給出的研究報告，可以說能直接拿過來用。

部分可視化圖表截圖

這些編程和智能體的能力，配合 WorkBuddy 能發揮到最大。在元寶 App 內，現在我們也可以讓它生成一些小型的網頁游戲，在對話框里就能預覽打開。

閑聊，要做到「活人感」不容易

前段時間，一個短視頻在網上傳播，視頻內容是一位乘客看到前排的司機，在手機上和 AI 助手聊天，他告訴 AI 自己一天收入，AI 會給他一些反饋。

有網友在下面留言，說以前這些聊天都是 200 塊一小時的心理咨詢，現在手機發條消息就能做到。

無論模型在代碼開發、解數學題、科學研究上取得了多少成功，大多數人用 AI 的場景，占比較多的還是各種類型的角色扮演。

我們也測試了騰訊混元新一代大模型 Hy3 preview 在日常聊天以及創意寫作上的表現。

沒有「不躲不逃不藏的只用最直接」的方式跟我說，有的是真實地能解決問題的文字。打開元寶 App，點擊深度/快速思考，選擇模型 Hy3 Preview，問它「為什么我在廣州找不到愛情」。

它的回復是客觀和主觀兩方面并行的，會分析除我之外的原因，也會告訴我應該要怎么做。

在聊到一些可能找到明顯原因的困惑時，Hy3 preview 還會自動生成對應的表格，來解釋 AI 并不是只會順從。

創意寫作的任務上，Hy3 preview 模型的表現，也要比前代更有文采和個性化風格，即便是簡單的生活文案，人情味也更明顯了。

我們找了一些基礎的風格模仿任務、敘事節奏的續寫、語言的創作力和情緒張力等題目，來測試它。

生成的寫作結果，在獨特性、執行精確度，以及風格穩定性上的表現，確實要更符合我們人類寫作的特點，沒有 AI 那種明顯的套話。

那道經典的走路去還是開車去洗車問題，Hy3 preview 也答上來了。

當所有人在做一套卷子，混元開始出卷

過去兩年多，中國 AI 行業有一種集體焦慮：所有人都在做同一件事。同樣的架構，同樣的訓練范式，同樣的榜單，同樣的新聞稿模板。模型發布會的 PPT 換個 logo 就能通用，「全球領先」「性能登頂」這些詞被用到通貨膨脹。

騰訊曾經也在這個隊列里。別人打榜它也打榜，別人堆參數它也堆參數，別人做什么功能它追什么功能。結果是混元的技術投入不少，但市場感知始終模糊。你問用戶「混元跟別家有什么區別」，大概率答不上來。

Hy3 preview 的意義，可能恰恰在于騰訊終于不追求打榜了。這也是姚順雨帶給混元最大的變化。

此前晚點一篇報道就轉述了姚順雨在騰訊內部會上的判斷：模型過度追逐榜單成績，將打榜語料放入訓練集，數據被污染了。模型很會答題，到了真實場景卻不穩定。

榜單衡量的是能力上限，用戶感知的是能力下限。MMLU 上領先兩個百分點，用戶在實際使用中幾乎感知不到；反過來，指令遵循稍差、格式不穩定、幻覺率偏高，用戶體驗會斷崖式下降。

所以在 Hy3 preview 上，就能看到混元開始把這個邏輯翻了過來：不追榜單，追場景。

去年一份報告就曾指出， AI 在各類基準測試上的分數一路飆升，benchmark 過于飽和，這些成績往往并不能真實反映它對現實世界的實際影響。

295B 的參數量說明它不打算在模型尺寸上硬碰硬。Co-design 的研發模式說明它開始把注意力從「別人做了什么」轉向「我的用戶需要什么」。

這里就不得不來看看騰訊這家公司的核心業務場景，社交、游戲、廣告、企業服務，每一個都有極強的領域特殊性。微信的對話流是碎片化的、高密度的；游戲需要模型根據實時局勢做即時反應；企業微信和騰訊會議需要基于私有文檔的精準分析。

Hy3 preview 已在騰訊云、元寶、ima、CodeBuddy、WorkBuddy、QQ、QQ瀏覽器、騰訊文檔、騰訊樂享等首發上線，微信公眾號、和平精英、騰訊新聞、騰訊自選股、騰訊客服、微信讀書等多個主線產品也在陸續上線。

這些場景對模型的要求，跟通用智能榜單上考核的那些指標并不完全匹配。一個在 MMLU 上排名前三但在微信群聊里讀不懂語境的模型，對騰訊來說毫無意義。

換句話說，騰訊可能是中國大廠里最不應該去追通用榜單的那一個。它手里攥著的場景足夠獨特、足夠復雜、足夠有商業價值，完全可以走出一條自己的路。

Co-design 就是這條路的起點。模型在真實業務里跑，業務用真實數據反哺模型，騰訊對 AI 的巨額投入能得到場景的快速驗證，同時獲得商業上的閉環。這個飛輪一旦轉起來，產生的壁壘比榜單上的排名堅固得多。

當所有人都在比誰的模型更「全能」的時候，誰的模型在自己的場景里最「好用」，可能才是真正的勝負手。

當然，「找到節奏」和「贏下比賽」之間還隔著相當的距離。

Hy3 preview 是混元重整后的第一個模型，三個月的研發周期說明執行力在線，但也意味著大量的優化空間。55% 到 56% 的盲評勝率說明它夠用，距離拉開差距還早。更大尺寸的模型在路上，正式版還在根據 Preview 階段的用戶反饋持續打磨。

但至少有一件事變了：混元不再追著別人的地圖跑了。它開始畫自己的地圖，標自己的路。

大模型競爭走到今天，同質化才是最大的風險。當所有人都在用同一把尺子量身高的時候，有人開始造自己的尺子，量自己真正需要的維度。

這件事本身，比任何一榜單參數都值得關注。

我們正在招募伙伴

簡歷投遞郵箱hr@ifanr.com

?? 郵件標題「姓名+崗位名稱」（請隨簡歷附上項目/作品或相關鏈接）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.