網易首頁 > 網易號 > 正文 申請入駐

騰訊 Hy3 preview來了!姚順雨印跡明顯,混元重回牌桌|附實測

0
分享至


作者|董道力

郵箱|dongdaoli@pingwest.com

4 月 23 日,騰訊正式發布 Hy3 preview。這是混元經歷團隊重組、架構重構,以及明星科學家姚順雨接手關鍵團隊后,交出的第一份成績單。

官方口徑稱:Hy3 preview 有295B 總參數、21B 激活參數、256K 上下文,快慢思考融合的 MoE 架構,定位"解決真實世界復雜工程問題"。


我們在第一時間測試后發現,Hy3 preview 并不是當前最強的模型,但此前騰訊真正的問題是沒有一個夠用的基座,能撐起自己的產品線,同時在模型能力上回到牌桌上。


從這個標準看,Hy3 preview 給出了一個肯定的答案。

我們的測試圍繞這個定位設計:真實世界的復雜工程問題,這也是姚順雨加入騰訊后一直在強調的方向。

他到騰訊參與的第一篇論文叫CL-bench,全稱Context Learning Benchmark,在這個研究里它沒有考察模型推理能力或代碼生成,而是在追問一件更基礎的事:對于上下文,模型真的讀進去了嗎?這對真實世界至關重要。


當時的研究結論很難看,十個前沿模型平均任務解決率只有 17.2%。

在模型發布后,騰訊首席AI科學家姚順雨表示,Hy3 preview是混元大模型重建的第一步。“我們希望通過這次開源和發布,獲得來自開源社區和用戶的真實反饋,幫助我們提升 Hy3 正式版的實用性。與此同時,我們也在繼續擴大預訓練和強化學習的規模,提升模型的智能上限,并通過與騰訊眾多產品的深度Co-Design,持續提升模型在真實場景中的綜合表現,并開始探索特色模型能力。”

我們在這次第一時間的測試里,就用了姚順雨“辣評”其他模型的方法,來看看Hy3 preview的表現。

實測 Hy3 preview

測試 1:做個人展示頁

網站開發對模型來說并不稀奇,但可以看出一個模型的審美能力。

在 workbuddy 中,選擇 Hy3 preview,模型。讓其幫我設計一個個人展示頁,UI 設計要有現代藝術感,要有炫酷的動效。

可以看到,Hy3 preview 首選的是比較科幻的風格,開頭文字的報錯設計,以及后續滾動彈出效果,以及鼠標交互效果都有,并不是常見的 AI 味很重的網頁。

測試 2:核實內容,打敗幻覺

AI 時代,流言滿天飛,DeepSeek V4 鴿了又鴿,永遠在"下周發布";家族群每隔幾天就冒出一條 AI 生成的假新聞,真假混在一起,比以前更難分辨。

我們決定換個思路,既然 AI 會制造噪音,那讓 AI 來核實噪音呢?

我們嘗試讓 Hy3 preview,核實一下最近比較火的“魚油到底有沒有用的爭議”

任務不是簡單的"查一查",而是需要其提供完整的信源分析,搜集不同背景的來源,識別矛盾點,給出信度評分。

Hy3 preview 同時調取了央視、騰訊新聞、澎湃、FTC 執法記錄、Nature/Scientific Reports 以及 PubMed/Cochrane,共 7 個信源。此外,它沒有給出模糊的"存在爭議"式結論,而是把問題拆開,針對健康人群給出 35 分低信度,針對心血管疾病患者給出 65 分,有效性高度依賴人群、劑量和產品純度等。

它還識別出市場層面的信息污染,央視調查發現有直播間銷售的"高純度魚油"實際未檢出任何 EPA、DHA;FTC 執法記錄顯示 BASF 自己贊助的臨床試驗中產品效果不優于安慰劑。


當然,報告也有局限,信度評分有偽精確感,對小鼠實驗的篇幅略重,對人體意義并不大。但重點是 Hy3 preview 引用信源的能力,知道什是官媒、什么是專業作者,什么是學術論文。

測試 3:針對權限虛假文檔答題

為了驗證 Hy3 preview 的 context learning 能力,我們參照 CL-Bench 的核心設計原則,測試材料必須是模型預訓練階段從未見過的內容,正確答案只能從當下提供的文檔中推導,設計了道工業操作手冊題。

我們虛構了一份參數密集的《Helios-7 壓縮機組操作手冊》,將關鍵判斷條件藏在第 4.3 節的注意事項中:振動超限期間,若同時出現主軸承溫度超過 82°C,須立即停機,不得嘗試降速運行。

Hy3 preview 回答正確。它找到了第 4.3 節的禁止條款,判斷操作員做法不正確,理由準確指向軸承溫度 84°C 已超過 82°C 閾值這一關鍵事實,沒有用"降速是保守操作"的工程常識覆蓋文檔規則。


但有一個細節值得注意。Hy3 preview 的回答開頭出現了一段思維鏈獨白,其中寫道"I need to check what those steps are to determine if reducing speed is the correct response",緊接著卻直接給出了結論。

這個到底是真實推理軌跡還是一種“偽裝”,在解決這種搭建出來的環境里的問題時,模型的推理過程是否真實反映了它讀取文檔的路徑,值得更多研究。

單題答對不足以定論。CL-Bench 的測試結論是,當前前沿模型的平均任務解決率只有 17.2%,最強模型也不過 23.7%,失敗的主要原因是"讀到了但用錯了"。Hy3 preview 在這道題上沒有犯這個錯誤。

根據騰訊的數據,Hy3 preview在CL-Bench的表現也較上一代模型有明顯提升。


測試 4:Agent 能力

說實話,當前模型能力正在趨同,真正拉開差距的反而是 Harness 構建的水平。那么模型能不能用好 Skill,能不能更好適配 Harness,有時比跑分更能說明問題。

我們以 Hy3 Preview 為例,調用瀏覽器 Skill(要配置 Chrome 遠程調試)和騰訊在線文檔 Skill,完成了一個世界杯賽程網頁的制作任務,任務中既涵蓋表格、PDF 等多模態輸出,也將直接檢驗 Hy3 Preview 的 Skill 調用能力。


可以看到,Hy3 Preview 在 workbuddy 環境下,為這個任務調用了 32 個工具,也不知道為啥能那么多。



第一步搜索階段,Hy3 Preview 先完成了瀏覽器環境檢查,然后檢索并整理出了基本賽事信息:48 支參賽隊、16 個舉辦城市、12 個小組的分組結果,以及賽制和獎金方案。值得注意的是,在啟動瀏覽器之前,它識別出了環境未就緒的問題,主動停下來提示完成 Node.js 版本檢查和遠程調試端口配置。

第二步內容生成階段,任務切換后模型明顯提速:其直接生成了賽程網頁并完成預覽。相比第一步的大量工具調用,面對結構清晰、輸出目標明確的任務,模型能夠收斂調用鏈路。


過程中有一個細節,當我打斷環境安裝步驟后,Hy3 Preview 會識別并選擇新的方式。在經歷瀏覽器自動化和辦公 Skill調用后,Hy3 preview也成功生成了網頁和對應的多模態內容。

補齊短板之后?

1

四項測試測下來,Hy3 preview 的表現不輸當前主流模型的日常使用水準。代碼生成有審美判斷,信息核實能區分信源權威度,context learning 的測試里沒有用常識覆蓋規則,Agent 任務里能識別環境變化并調整路徑。

但也有值得持續觀察的地方。思維鏈的"表演感"是當前推理模型的通病,Hy3 preview 也沒有跳出來。信度評分的偽精確、對小鼠實驗的過度展開,說明信息篩選的權重判斷還有空間。32 步工具調用完成任務,效率層面不算極致。

這些問題都還在。但它們不是這次評測的主角。

沒人懷疑在AI競爭里,騰訊強大的c端產品能起到的作用。但它有天花板——當用戶開始用 AI 做多步推理、長文檔分析、復雜 Agent 任務,底層模型的能力終究會直接影響留存。產品層能彌補的差距是有限的。

騰訊在 AI 這場仗里,產品腿和模型腿的長度一直不一樣。

Hy3 preview 的出現是一次基模補齊,而不是在模型能力上的超越。

騰訊從來不是靠最強技術贏的公司。微信贏的時候,技術并不比米聊強多少。但技術弱到一定程度,是會拖死產品。

Hy3 preview 在此刻的“任務”也許就在這里:不是要做最強的模型,而是讓騰訊的 AI 產品終于有底氣只用自家的基座。

據透露,該系列更大尺寸的模型接下來也會發布,競爭會變得更加有趣了。

點擊關注我哦

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
0-3命懸一線!火箭G3輸球4大元兇曝光,罪魁禍首無可辯駁!

0-3命懸一線!火箭G3輸球4大元兇曝光,罪魁禍首無可辯駁!

田先生籃球
2026-04-25 11:49:29
劉曉慶 75 歲聚餐照曝光!耳垂垂到嘴角,網友吵翻

劉曉慶 75 歲聚餐照曝光!耳垂垂到嘴角,網友吵翻

南萬說娛26
2026-04-26 10:26:45
清朝一個很特殊的官職,叫“道臺”,幾乎沒人能說清他是干啥的

清朝一個很特殊的官職,叫“道臺”,幾乎沒人能說清他是干啥的

抽象派大師
2026-04-24 12:23:42
兩性關系,四五十歲的女人,半推半就的時候,其實已經動情了

兩性關系,四五十歲的女人,半推半就的時候,其實已經動情了

荷蘭豆愛健康
2026-04-26 10:51:51
馬未都現身山東,身家上億卻在路邊攤喝羊湯,71歲還對瓶喝56°酒

馬未都現身山東,身家上億卻在路邊攤喝羊湯,71歲還對瓶喝56°酒

攬星河的筆記
2026-04-25 19:20:03
亨德利:艾倫這種打法拿不了冠軍!艾倫回懟:他的固執付出了代價

亨德利:艾倫這種打法拿不了冠軍!艾倫回懟:他的固執付出了代價

楊仔述
2026-04-26 11:14:19
5月1日起,抽煙、曬煙、買煙全變了!這些紅線碰了就罰

5月1日起,抽煙、曬煙、買煙全變了!這些紅線碰了就罰

李博世財經
2026-04-26 09:43:04
4月前進一小步,5月升官發大財的3生肖,未雨綢繆可堪大任!

4月前進一小步,5月升官發大財的3生肖,未雨綢繆可堪大任!

毅談生肖
2026-04-26 10:11:25
熱刺球迷:看球隊保級大戰讓我產生生理性厭惡,降級也是解脫

熱刺球迷:看球隊保級大戰讓我產生生理性厭惡,降級也是解脫

懂球帝
2026-04-26 11:20:11
又一總裁走上張雪峰老路,白天開會晚上去世,但二人結局大不相同

又一總裁走上張雪峰老路,白天開會晚上去世,但二人結局大不相同

瓦倫西亞月亮
2026-04-26 04:01:59
至今無解的3大災難:一次在印度,一次在俄國,中國的最“詭異”

至今無解的3大災難:一次在印度,一次在俄國,中國的最“詭異”

搜史君
2026-04-26 11:40:30
國乒男團名單敲定!關鍵二號位確定,王皓布陣高明球迷直呼穩了

國乒男團名單敲定!關鍵二號位確定,王皓布陣高明球迷直呼穩了

軍武英雄
2026-04-26 00:59:42
美菲軍演正酣,055直接亮劍!YJ-20試射,美軍航母這回真慌了

美菲軍演正酣,055直接亮劍!YJ-20試射,美軍航母這回真慌了

萬象森羅plus
2026-04-26 10:43:05
腿斷了、臉燒了、全家沒了,最高領袖出奇招,美以徹底傻眼

腿斷了、臉燒了、全家沒了,最高領袖出奇招,美以徹底傻眼

秋楓凋零
2026-04-26 04:30:38
國家防汛抗旱總指揮部通報2026年全國防汛抗旱責任人名單

國家防汛抗旱總指揮部通報2026年全國防汛抗旱責任人名單

界面新聞
2026-04-26 09:23:22
楊絳:當你的孩子主動給你買衣服、買吃的,或者主動給你發紅包時,不管你缺不缺錢,有多心疼孩子賺錢辛苦,你都要欣然的收下。因為..

楊絳:當你的孩子主動給你買衣服、買吃的,或者主動給你發紅包時,不管你缺不缺錢,有多心疼孩子賺錢辛苦,你都要欣然的收下。因為..

二胡的歲月如歌
2026-04-26 08:37:16
18歲康克清嫁43歲朱德,沒生半個親骨肉,晚年究竟憑啥讓十幾個子孫承歡膝下?

18歲康克清嫁43歲朱德,沒生半個親骨肉,晚年究竟憑啥讓十幾個子孫承歡膝下?

歷史回憶室
2026-04-23 22:43:15
5月1日起廣州早茶正式立法!去茶樓飲茶,這幾件事一定要留心

5月1日起廣州早茶正式立法!去茶樓飲茶,這幾件事一定要留心

房產衫哥
2026-04-26 03:13:51
球迷與勒布朗·詹姆斯在湖人隊的尷尬瞬間:球迷意外“撞臉”

球迷與勒布朗·詹姆斯在湖人隊的尷尬瞬間:球迷意外“撞臉”

好火子
2026-04-26 00:47:02
特朗普遭背刺,向全球宣布一件與中國有關大事,中方:日本沒資格

特朗普遭背刺,向全球宣布一件與中國有關大事,中方:日本沒資格

說宇宙
2026-04-26 11:15:03
2026-04-26 12:12:49
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先進入GenAl。
274文章數 38關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

白宮突發槍擊案 250名記者聯名要求將晚宴變維權現場

頭條要聞

白宮突發槍擊案 250名記者聯名要求將晚宴變維權現場

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《八千里路云和月》大結局意難平

財經要聞

DeepSeek V4背后,梁文鋒的轉身

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

教育
本地
親子
健康
軍事航空

教育要聞

壓軸出場的題目,很多小朋友都失分了

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

親子要聞

媽媽記錄下寶寶的第一次擁抱,最幸福的瞬間

干細胞如何讓燒燙傷皮膚"再生"?

軍事要聞

伊朗總統:不會在壓力、威脅下進行談判

無障礙瀏覽 進入關懷版