![]()
作者|董道力
郵箱|dongdaoli@pingwest.com
4 月 23 日,騰訊正式發布 Hy3 preview。這是混元經歷團隊重組、架構重構,以及明星科學家姚順雨接手關鍵團隊后,交出的第一份成績單。
官方口徑稱:Hy3 preview 有295B 總參數、21B 激活參數、256K 上下文,快慢思考融合的 MoE 架構,定位"解決真實世界復雜工程問題"。
![]()
我們在第一時間測試后發現,Hy3 preview 并不是當前最強的模型,但此前騰訊真正的問題是沒有一個夠用的基座,能撐起自己的產品線,同時在模型能力上回到牌桌上。
![]()
從這個標準看,Hy3 preview 給出了一個肯定的答案。
我們的測試圍繞這個定位設計:真實世界的復雜工程問題,這也是姚順雨加入騰訊后一直在強調的方向。
他到騰訊參與的第一篇論文叫CL-bench,全稱Context Learning Benchmark,在這個研究里它沒有考察模型推理能力或代碼生成,而是在追問一件更基礎的事:對于上下文,模型真的讀進去了嗎?這對真實世界至關重要。
![]()
當時的研究結論很難看,十個前沿模型平均任務解決率只有 17.2%。
在模型發布后,騰訊首席AI科學家姚順雨表示,Hy3 preview是混元大模型重建的第一步。“我們希望通過這次開源和發布,獲得來自開源社區和用戶的真實反饋,幫助我們提升 Hy3 正式版的實用性。與此同時,我們也在繼續擴大預訓練和強化學習的規模,提升模型的智能上限,并通過與騰訊眾多產品的深度Co-Design,持續提升模型在真實場景中的綜合表現,并開始探索特色模型能力。”
我們在這次第一時間的測試里,就用了姚順雨“辣評”其他模型的方法,來看看Hy3 preview的表現。
實測 Hy3 preview
測試 1:做個人展示頁
網站開發對模型來說并不稀奇,但可以看出一個模型的審美能力。
在 workbuddy 中,選擇 Hy3 preview,模型。讓其幫我設計一個個人展示頁,UI 設計要有現代藝術感,要有炫酷的動效。
可以看到,Hy3 preview 首選的是比較科幻的風格,開頭文字的報錯設計,以及后續滾動彈出效果,以及鼠標交互效果都有,并不是常見的 AI 味很重的網頁。
測試 2:核實內容,打敗幻覺
AI 時代,流言滿天飛,DeepSeek V4 鴿了又鴿,永遠在"下周發布";家族群每隔幾天就冒出一條 AI 生成的假新聞,真假混在一起,比以前更難分辨。
我們決定換個思路,既然 AI 會制造噪音,那讓 AI 來核實噪音呢?
我們嘗試讓 Hy3 preview,核實一下最近比較火的“魚油到底有沒有用的爭議”
任務不是簡單的"查一查",而是需要其提供完整的信源分析,搜集不同背景的來源,識別矛盾點,給出信度評分。
Hy3 preview 同時調取了央視、騰訊新聞、澎湃、FTC 執法記錄、Nature/Scientific Reports 以及 PubMed/Cochrane,共 7 個信源。此外,它沒有給出模糊的"存在爭議"式結論,而是把問題拆開,針對健康人群給出 35 分低信度,針對心血管疾病患者給出 65 分,有效性高度依賴人群、劑量和產品純度等。
它還識別出市場層面的信息污染,央視調查發現有直播間銷售的"高純度魚油"實際未檢出任何 EPA、DHA;FTC 執法記錄顯示 BASF 自己贊助的臨床試驗中產品效果不優于安慰劑。
![]()
當然,報告也有局限,信度評分有偽精確感,對小鼠實驗的篇幅略重,對人體意義并不大。但重點是 Hy3 preview 引用信源的能力,知道什是官媒、什么是專業作者,什么是學術論文。
測試 3:針對權限虛假文檔答題
為了驗證 Hy3 preview 的 context learning 能力,我們參照 CL-Bench 的核心設計原則,測試材料必須是模型預訓練階段從未見過的內容,正確答案只能從當下提供的文檔中推導,設計了道工業操作手冊題。
我們虛構了一份參數密集的《Helios-7 壓縮機組操作手冊》,將關鍵判斷條件藏在第 4.3 節的注意事項中:振動超限期間,若同時出現主軸承溫度超過 82°C,須立即停機,不得嘗試降速運行。
Hy3 preview 回答正確。它找到了第 4.3 節的禁止條款,判斷操作員做法不正確,理由準確指向軸承溫度 84°C 已超過 82°C 閾值這一關鍵事實,沒有用"降速是保守操作"的工程常識覆蓋文檔規則。
![]()
但有一個細節值得注意。Hy3 preview 的回答開頭出現了一段思維鏈獨白,其中寫道"I need to check what those steps are to determine if reducing speed is the correct response",緊接著卻直接給出了結論。
這個到底是真實推理軌跡還是一種“偽裝”,在解決這種搭建出來的環境里的問題時,模型的推理過程是否真實反映了它讀取文檔的路徑,值得更多研究。
單題答對不足以定論。CL-Bench 的測試結論是,當前前沿模型的平均任務解決率只有 17.2%,最強模型也不過 23.7%,失敗的主要原因是"讀到了但用錯了"。Hy3 preview 在這道題上沒有犯這個錯誤。
根據騰訊的數據,Hy3 preview在CL-Bench的表現也較上一代模型有明顯提升。
![]()
測試 4:Agent 能力
說實話,當前模型能力正在趨同,真正拉開差距的反而是 Harness 構建的水平。那么模型能不能用好 Skill,能不能更好適配 Harness,有時比跑分更能說明問題。
我們以 Hy3 Preview 為例,調用瀏覽器 Skill(要配置 Chrome 遠程調試)和騰訊在線文檔 Skill,完成了一個世界杯賽程網頁的制作任務,任務中既涵蓋表格、PDF 等多模態輸出,也將直接檢驗 Hy3 Preview 的 Skill 調用能力。
![]()
可以看到,Hy3 Preview 在 workbuddy 環境下,為這個任務調用了 32 個工具,也不知道為啥能那么多。
![]()
![]()
第一步搜索階段,Hy3 Preview 先完成了瀏覽器環境檢查,然后檢索并整理出了基本賽事信息:48 支參賽隊、16 個舉辦城市、12 個小組的分組結果,以及賽制和獎金方案。值得注意的是,在啟動瀏覽器之前,它識別出了環境未就緒的問題,主動停下來提示完成 Node.js 版本檢查和遠程調試端口配置。
第二步內容生成階段,任務切換后模型明顯提速:其直接生成了賽程網頁并完成預覽。相比第一步的大量工具調用,面對結構清晰、輸出目標明確的任務,模型能夠收斂調用鏈路。
![]()
過程中有一個細節,當我打斷環境安裝步驟后,Hy3 Preview 會識別并選擇新的方式。在經歷瀏覽器自動化和辦公 Skill調用后,Hy3 preview也成功生成了網頁和對應的多模態內容。
補齊短板之后?
1
四項測試測下來,Hy3 preview 的表現不輸當前主流模型的日常使用水準。代碼生成有審美判斷,信息核實能區分信源權威度,context learning 的測試里沒有用常識覆蓋規則,Agent 任務里能識別環境變化并調整路徑。
但也有值得持續觀察的地方。思維鏈的"表演感"是當前推理模型的通病,Hy3 preview 也沒有跳出來。信度評分的偽精確、對小鼠實驗的過度展開,說明信息篩選的權重判斷還有空間。32 步工具調用完成任務,效率層面不算極致。
這些問題都還在。但它們不是這次評測的主角。
沒人懷疑在AI競爭里,騰訊強大的c端產品能起到的作用。但它有天花板——當用戶開始用 AI 做多步推理、長文檔分析、復雜 Agent 任務,底層模型的能力終究會直接影響留存。產品層能彌補的差距是有限的。
騰訊在 AI 這場仗里,產品腿和模型腿的長度一直不一樣。
Hy3 preview 的出現是一次基模補齊,而不是在模型能力上的超越。
騰訊從來不是靠最強技術贏的公司。微信贏的時候,技術并不比米聊強多少。但技術弱到一定程度,是會拖死產品。
Hy3 preview 在此刻的“任務”也許就在這里:不是要做最強的模型,而是讓騰訊的 AI 產品終于有底氣只用自家的基座。
據透露,該系列更大尺寸的模型接下來也會發布,競爭會變得更加有趣了。
點擊關注我哦
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.