網易首頁 > 網易號 > 正文申請入駐

騰訊 Hy3 preview來了！姚順雨印跡明顯，混元重回牌桌｜附實測

2026-04-23 17:16:31　來源: 硅星GenAI

上海舉報

分享至

作者｜董道力

郵箱｜dongdaoli@pingwest.com

4 月 23 日，騰訊正式發布 Hy3 preview。這是混元經歷團隊重組、架構重構，以及明星科學家姚順雨接手關鍵團隊后，交出的第一份成績單。

官方口徑稱：Hy3 preview 有295B 總參數、21B 激活參數、256K 上下文，快慢思考融合的 MoE 架構，定位"解決真實世界復雜工程問題"。

我們在第一時間測試后發現，Hy3 preview 并不是當前最強的模型，但此前騰訊真正的問題是沒有一個夠用的基座，能撐起自己的產品線，同時在模型能力上回到牌桌上。

從這個標準看，Hy3 preview 給出了一個肯定的答案。

我們的測試圍繞這個定位設計：真實世界的復雜工程問題，這也是姚順雨加入騰訊后一直在強調的方向。

他到騰訊參與的第一篇論文叫CL-bench，全稱Context Learning Benchmark，在這個研究里它沒有考察模型推理能力或代碼生成，而是在追問一件更基礎的事：對于上下文，模型真的讀進去了嗎？這對真實世界至關重要。

當時的研究結論很難看，十個前沿模型平均任務解決率只有 17.2%。

在模型發布后，騰訊首席AI科學家姚順雨表示，Hy3 preview是混元大模型重建的第一步。“我們希望通過這次開源和發布，獲得來自開源社區和用戶的真實反饋，幫助我們提升 Hy3 正式版的實用性。與此同時，我們也在繼續擴大預訓練和強化學習的規模，提升模型的智能上限，并通過與騰訊眾多產品的深度Co-Design，持續提升模型在真實場景中的綜合表現，并開始探索特色模型能力。”

我們在這次第一時間的測試里，就用了姚順雨“辣評”其他模型的方法，來看看Hy3 preview的表現。

實測 Hy3 preview

測試 1：做個人展示頁

網站開發對模型來說并不稀奇，但可以看出一個模型的審美能力。

在 workbuddy 中，選擇 Hy3 preview，模型。讓其幫我設計一個個人展示頁，UI 設計要有現代藝術感，要有炫酷的動效。

可以看到，Hy3 preview 首選的是比較科幻的風格，開頭文字的報錯設計，以及后續滾動彈出效果，以及鼠標交互效果都有，并不是常見的 AI 味很重的網頁。

測試 2：核實內容，打敗幻覺

AI 時代，流言滿天飛，DeepSeek V4 鴿了又鴿，永遠在"下周發布"；家族群每隔幾天就冒出一條 AI 生成的假新聞，真假混在一起，比以前更難分辨。

我們決定換個思路，既然 AI 會制造噪音，那讓 AI 來核實噪音呢？

我們嘗試讓 Hy3 preview，核實一下最近比較火的“魚油到底有沒有用的爭議”

任務不是簡單的"查一查"，而是需要其提供完整的信源分析，搜集不同背景的來源，識別矛盾點，給出信度評分。

Hy3 preview 同時調取了央視、騰訊新聞、澎湃、FTC 執法記錄、Nature/Scientific Reports 以及 PubMed/Cochrane，共 7 個信源。此外，它沒有給出模糊的"存在爭議"式結論，而是把問題拆開，針對健康人群給出 35 分低信度，針對心血管疾病患者給出 65 分，有效性高度依賴人群、劑量和產品純度等。

它還識別出市場層面的信息污染，央視調查發現有直播間銷售的"高純度魚油"實際未檢出任何 EPA、DHA；FTC 執法記錄顯示 BASF 自己贊助的臨床試驗中產品效果不優于安慰劑。

當然，報告也有局限，信度評分有偽精確感，對小鼠實驗的篇幅略重，對人體意義并不大。但重點是 Hy3 preview 引用信源的能力，知道什是官媒、什么是專業作者，什么是學術論文。

測試 3：針對權限虛假文檔答題

為了驗證 Hy3 preview 的 context learning 能力，我們參照 CL-Bench 的核心設計原則，測試材料必須是模型預訓練階段從未見過的內容，正確答案只能從當下提供的文檔中推導，設計了道工業操作手冊題。

我們虛構了一份參數密集的《Helios-7 壓縮機組操作手冊》，將關鍵判斷條件藏在第 4.3 節的注意事項中：振動超限期間，若同時出現主軸承溫度超過 82°C，須立即停機，不得嘗試降速運行。

Hy3 preview 回答正確。它找到了第 4.3 節的禁止條款，判斷操作員做法不正確，理由準確指向軸承溫度 84°C 已超過 82°C 閾值這一關鍵事實，沒有用"降速是保守操作"的工程常識覆蓋文檔規則。

但有一個細節值得注意。Hy3 preview 的回答開頭出現了一段思維鏈獨白，其中寫道"I need to check what those steps are to determine if reducing speed is the correct response"，緊接著卻直接給出了結論。

這個到底是真實推理軌跡還是一種“偽裝”，在解決這種搭建出來的環境里的問題時，模型的推理過程是否真實反映了它讀取文檔的路徑，值得更多研究。

單題答對不足以定論。CL-Bench 的測試結論是，當前前沿模型的平均任務解決率只有 17.2%，最強模型也不過 23.7%，失敗的主要原因是"讀到了但用錯了"。Hy3 preview 在這道題上沒有犯這個錯誤。

根據騰訊的數據，Hy3 preview在CL-Bench的表現也較上一代模型有明顯提升。

測試 4：Agent 能力

說實話，當前模型能力正在趨同，真正拉開差距的反而是 Harness 構建的水平。那么模型能不能用好 Skill，能不能更好適配 Harness，有時比跑分更能說明問題。

我們以 Hy3 Preview 為例，調用瀏覽器 Skill（要配置 Chrome 遠程調試）和騰訊在線文檔 Skill，完成了一個世界杯賽程網頁的制作任務，任務中既涵蓋表格、PDF 等多模態輸出，也將直接檢驗 Hy3 Preview 的 Skill 調用能力。

可以看到，Hy3 Preview 在 workbuddy 環境下，為這個任務調用了 32 個工具，也不知道為啥能那么多。

第一步搜索階段，Hy3 Preview 先完成了瀏覽器環境檢查，然后檢索并整理出了基本賽事信息：48 支參賽隊、16 個舉辦城市、12 個小組的分組結果，以及賽制和獎金方案。值得注意的是，在啟動瀏覽器之前，它識別出了環境未就緒的問題，主動停下來提示完成 Node.js 版本檢查和遠程調試端口配置。

第二步內容生成階段，任務切換后模型明顯提速：其直接生成了賽程網頁并完成預覽。相比第一步的大量工具調用，面對結構清晰、輸出目標明確的任務，模型能夠收斂調用鏈路。

過程中有一個細節，當我打斷環境安裝步驟后，Hy3 Preview 會識別并選擇新的方式。在經歷瀏覽器自動化和辦公 Skill調用后，Hy3 preview也成功生成了網頁和對應的多模態內容。

補齊短板之后？

四項測試測下來，Hy3 preview 的表現不輸當前主流模型的日常使用水準。代碼生成有審美判斷，信息核實能區分信源權威度，context learning 的測試里沒有用常識覆蓋規則，Agent 任務里能識別環境變化并調整路徑。

但也有值得持續觀察的地方。思維鏈的"表演感"是當前推理模型的通病，Hy3 preview 也沒有跳出來。信度評分的偽精確、對小鼠實驗的過度展開，說明信息篩選的權重判斷還有空間。32 步工具調用完成任務，效率層面不算極致。

這些問題都還在。但它們不是這次評測的主角。

沒人懷疑在AI競爭里，騰訊強大的c端產品能起到的作用。但它有天花板——當用戶開始用 AI 做多步推理、長文檔分析、復雜 Agent 任務，底層模型的能力終究會直接影響留存。產品層能彌補的差距是有限的。

騰訊在 AI 這場仗里，產品腿和模型腿的長度一直不一樣。

Hy3 preview 的出現是一次基模補齊，而不是在模型能力上的超越。

騰訊從來不是靠最強技術贏的公司。微信贏的時候，技術并不比米聊強多少。但技術弱到一定程度，是會拖死產品。

Hy3 preview 在此刻的“任務”也許就在這里：不是要做最強的模型，而是讓騰訊的 AI 產品終于有底氣只用自家的基座。

據透露，該系列更大尺寸的模型接下來也會發布，競爭會變得更加有趣了。

點擊關注我哦

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.