網易首頁 > 網易號 > 正文 申請入駐

實測混元Hy3 preview:混元再出發,中型模型的務實之戰

0
分享至

編者按:本文為 Hy3 preview 評測,評測環境為WorkBuddy,評測內容基于真實任務執行結果。本次共測試三個場景:事實審計員、文檔可視化、深度研究。

Hy3 preview終于來了。

剛剛,騰訊混元宣布發布 Hy3 preview ,Hy3 preview 發布前的幾個小時,混元還悄悄換了一個新Logo。對于一個強調“重新出發”的團隊來說,這個細節也不算意外。


“幫我查一下最近三個月AI領域的高管變動,對比5個不同背景的信源,列出已知事實和矛盾點,給出信度評分。”

根據騰訊內部對Hy3 preview 的功能定位——多步驟、多信源、需自主規劃,筆者自設了這樣一句測試指令。模型在約7分鐘內完成了多輪搜索、信息交叉驗證和結構化輸出。

這只是其中一個典型場景。筆者本次共測試了三個場景,分別是多信源核驗、文檔可視化、深度研究三個維度,從不同切面評估這款產品在知識工作場景中的實用性和邊界。

背景與產品解析

2025年以來,中國大模型廠商的敘事出現了一次集體轉向。頭部廠商相繼從“對標GPT-4”“刷新基準測試榜單”的軍備競賽,轉向“在真實業務場景中跑通”“降低單位任務成本”的務實路徑。

騰訊混元團隊在這一背景下,選擇了一個明確的產品定位:不追參數第一,聚焦實用性和性價比

混元團隊近期多次提及“下半場”概念,首席AI科學家姚順雨曾表示:“AI發展的上半場,核心是訓練大于評估;下半場,評估大于訓練。”姚順雨認為,上半場的競爭在于誰能把模型訓練得更大、更強,成為頂級的“做題家”;而下半場的競爭在于誰能讓模型在真實業務場景、真實系統中經得起檢驗,成為真正的“上下文學習者”——即使用戶給足了信息,模型依然需要具備從中學習并應用的能力。

在Hy3 preview發布時,姚順雨進一步表示:“Hy3 preview是混元大模型重建的第一步。我們希望通過這次開源和發布,獲得來自開源社區和用戶的真實反饋,幫助我們提升Hy3正式版的實用性。”

這一理念直接指向了當前大模型落地的核心痛點:不是模型不夠強,而是強在“記憶”、弱在“應用”。

本次騰訊發布的 Hy3 preview,正是混元團隊在這一理念下推出的第一個版本——騰訊混元在團隊、架構、基礎設施重新整合后的產物

根據官方披露,2026年2月,騰訊混元重建了預訓練和強化學習的基礎設施,并確立了模型追求實用性的三個原則:其一,能力體系化,不推崇"偏科",即使是代碼智能體的單一應用,也涉及推理、長文、指令、對話、代碼、工具等多種能力的深度協同;其二,評測真實性,主動跳出易被"刷榜"的公開榜單,通過自建題目、最新考試、人工評測、產品眾測等多種方式評估模型的"真實戰斗力";其三,性價比追求,深度協同模型架構和推理框架的設計,大幅降低任務成本,讓智能"用得起、用得好"。

根據官方披露的信息,Hy3 preview 的核心參數如下:


295B總參/21B激活參數的組合,意味著 Hy3 preview 處于“中型模型”區間。相比千億參數以上的超大模型,這一尺寸在部署成本和推理效率上具備明顯優勢。

MoE(Mixture of Experts)的核心邏輯是“按需激活”——每次推理只調用部分專家網絡。這一設計可以實現“參數量大但推理成本可控”的效果,符合“實用性”和“性價比”的定位。

Hy3 preview 聲稱實現了快慢思考的融合,即在簡單任務上快速響應,在復雜任務上啟動深度推理。256K(約25萬Token)的上下文窗口,在同尺寸模型中處于較高水平。官方將其定位為"混元迄今最智能的模型",Hy3 preview 于4月23日正式發布并同步開源,在復雜推理、指令遵循、上下文學習、代碼、智能體等能力及推理性能上實現了大幅提升。

實測驗證

本次評測選取三個典型場景,事實審計員、文檔可視化和深度研究。

事實審計員

任務類型:多信源交叉核驗

測試指令

調研關于“最近三個月AI領域高管變動”的傳聞,對比至少5個不同背景的權威信源,列出已知事實和邏輯沖突點,并給出信度評分。

執行結果

執行耗時:約7分鐘 信源覆蓋:CNBC(權威財經)、WIRED(科技深度)、The Verge(科技媒體)、鈦媒體等(中文科技財經)、Mint(國際科技)

評測維度評分


實測發現的主要事件

1. OpenAI高管離職潮(高信度):Kevin Weil、Bill Peebles、Srinivas Narayanan三人于4月中旬同日離職,Sora關停,Prism項目終止并入Codex

2. xAI創始人集體離職(中等信度):2026年2-3月,11位聯合創始人全部離職

3. 理想汽車高管變動(中等信度):郎咸朋于2026年2月14日離職

4. 蘋果CEO更替(待驗證):約翰·特納斯接替庫克,英文主流媒體未廣泛報道,信源可靠性存疑

結論:模型在多信源檢索和結構化輸出方面表現穩定,但在信息交叉驗證時存在“收得多、核得少”的傾向——對可疑信息(如"蘋果CEO更替"缺乏英文信源佐證)未能主動標注風險。但同時也未能識別蘋果CEO更替這一信息實際上可信度較高,該信息蘋果官網已經進行了官宣。這一能力短板在嚴肅的事實核查場景中需要關注。

文檔可視化

任務類型:財報PDF轉動態儀表盤

測試指令

將附件的騰訊2025年年度財務報告PDF轉化為一個深色主題HTML動態儀表盤,具體要求如下:

核心約束: 嚴格基于年報原文數據,禁止引入任何外部信息 如年報中未提及某項數據,明確標注"年報未披露"而非虛構 所有數字以年報為準,不進行二次計算 數據分析要求: 提取近三年核心財務數據(營收/凈利潤/毛利率),做三年對比 分析主要業務板塊的收入結構(按業務線拆分) 標注關鍵財務指標的變化趨勢(增長/下降/持平) 視覺要求: 深色主題,專業金融風格(參考彭博終端配色) 數字入場動畫:關鍵數據從0滾動增長至實際值(數字脈動效果) 交互效果:鼠標懸停關鍵指標時顯示詳細數據(決策艙掃描效果) 包含數據來源標注:每項數據標注對應年報頁碼 輸出要求: 單HTML文件,內嵌CSS和JavaScript 響應式設計,適配PC端展示 代碼結構清晰,便于后續修改

執行結果

執行耗時:約20分鐘 輸出成果:騰訊2025年年報HTML動態儀表盤 成果截圖(部分):

評測維度評分


結論:AI輔助財經內容生產正從“文本生成”向“數據可視化自動化”進階。該工具在數據處理、視覺呈現、交互設計三個層面的完成度已達到可發布至財經媒體報道的合格線。推薦指數4.5/5.0。

可優化方向

三年對比數據可視化不足,缺乏長期趨勢折線圖; 業務分部占比缺乏餅圖或堆疊柱狀圖; 移動端適配有待完善。
深度研究

任務類型:產業研究報告生成

測試指令

以“AI訓練成本下降趨勢及其對產業格局的影響”為主題,進行深度研究分析,輸出結構化報告,要求覆蓋成本驅動因素、數據支撐、產業格局影響,投資機會與風險、未來趨勢判斷,區分事實陳述和觀點分析,對關鍵數據注明來源。

執行結果

執行耗時:約5分鐘 信源覆蓋:共引用6個一手信源,包括Stanford HAI 2025報告、Epoch AI研究論文(arXiv:2405.21015)、央視新聞報道、中國信通院報告等 報告規模:約4500字,包含3張數據表格、6個主要章節、20+個細分論點 報告地址:Tencent Cloud CodeBuddy

評測維度評分


結論:模型在深度研究的框架搭建、信源檢索與標注、結構化輸出上表現優秀,能夠生成符合專業標準的研究報告。但在產業洞察的深度(如對中國AI芯片廠商的具體分析)、風險提示的全面性上仍有提升空間。

適用場景建議

? 快速搭建研究報告框架 ? 檢索和整理公開信源 ? 生成結構化分析報告 ?? 需謹慎:具體投資標的推薦、未公開數據的推測、前瞻性判斷(需人工復核)
產品組合拳:模型+Agent框架

根據騰訊內部測試的公開反饋,Hy3 preview 在以下四個緯度獲得了相對積極的評價:


在國內大模型競爭格局中,混元本次的定位可以概括為:“不做第一,但求好用”。從參數規模看,295B總參/21B激活參數定位于中等尺寸區間,與“大杯”產品存在差異,但規模控制帶來了更好的推理效率。

從場景定位看,Coding和Agent場景是明確的主打方向。這一選擇與Agent經濟的崛起趨勢相吻合——當模型的價值越來越多地體現在“作為Agent的大腦”而非“直接回答用戶問題”時,響應速度、任務完成率、多步驟穩定性,比單純的基準測試分數更重要。

從生態角度看,混元與WorkBuddy的結合構成了“模型+Agent框架”的組合,模型能力可以在真實業務場景中持續錘煉,場景反饋可以持續反哺模型優化。

官方數據顯示,在CodeBuddy與WorkBuddy產品上,Hy3 preview首token延遲降低54%、端到端時長降低47%、成功率提升至99.99%+。實際用戶環境中,已穩定驅動最長495步的復雜Agent工作流,覆蓋文檔處理、數據分析、知識檢索、MCP工具鏈編排等多樣化辦公場景。整體推理效率提升40%,成本相比上一代模型大幅下降。

在商業化定價上,騰訊云TokenHub平臺顯示,Hy3 preview輸入價格最低1.2元/百萬tokens,輸出價格最低4元/百萬tokens,并推出個人版最低28元/月的Token Plan套餐——這為評測稿此前提及的"性價比優勢"提供了可量化的基準參照。

目前,Hy3 preview已在騰訊云、元寶、ima、CodeBuddy、WorkBuddy、QQ、QQ瀏覽器、騰訊文檔、騰訊樂享等產品首發上線,微信公眾號、和平精英、騰訊新聞等多個主線產品也在陸續接入。

Hy3 preview 的發布,更像是一個信號,而非一個結論。它標志著騰訊混元在經歷團隊重組、架構重構后,選擇了一條更務實的路徑——不再追逐榜單上的“第一”,而是追求實際場景中的“好用”。

在本文測試未涉及到的性價比中,官方公布的內部測試可作為參考:騰訊內部測試顯示,騰訊文檔AI PPT生成成功率提升20%、耗時縮短20%;和平精英AI NPC角色扮演穩定性獲得業務團隊高度評價;QQ AI助手數學推理表現提升尤為明顯;元寶深度Co-Design后用戶意圖理解與內容質量全面提升。

上述數據為混元“性價比優勢”提供了一定的內部佐證,但跨廠商的橫向對比仍需在后續評測中進一步驗證。

結語

從更宏觀的視角看,Hy3 preview 的出現,是整個大模型行業轉向的一個縮影。

過去兩年,國內外的大模型競爭本質上是一場基礎設施競賽——誰能訓得更大、算得更快、數據更多,誰就站在了排行榜的前列。但這場競賽正在迎來邊際效益遞減的節點:當GPT-4級別的能力已經"白菜化",當推理成本以每年數倍的速度下降,純粹的參數軍備競賽開始失去意義

下一個競爭維度,正在轉向任務完成率、工具調用穩定性、長程推理的可靠性——換句話說,是“能不能真正干活”,而不是“能不能在考卷上拿高分”。這恰好是 Hy3 preview 所押注的方向。

對于騰訊混元來說,這次重新出發面臨的挑戰不只是技術層面的。在競爭對手已積累大量真實用戶反饋的背景下,如何快速積累高質量的任務數據、如何在騰訊龐大的業務生態中找到“模型錘煉”的最佳路徑,將直接決定混元能否在下半場建立真正的差異化。

WorkBuddy 作為面向知識工作者的 Agent 框架,理論上是一個理想的“練兵場”——用戶的真實任務場景足夠復雜、反饋足夠直接。但換個角度來看,“模型在框架中不斷進化”這一愿景的實現,還取決于數據閉環的質量、人工反饋的密度,以及騰訊是否愿意在這條路上保持足夠的耐心。

Hy3 preview 是第一步,能否兌現“務實主義”的承諾,要看后續正式版本的真實表現——以及它在更大規模用戶場景中經受檢驗之后的樣子。(本文首發鈦媒體APP,作者 | AGI Signal,編輯 | 秦聰慧)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
天才股神坦言:新一輪牛市來臨,如果本金30W內,建議死磕520戰法

天才股神坦言:新一輪牛市來臨,如果本金30W內,建議死磕520戰法

股經縱橫談
2026-04-23 20:37:06
最新:烏克蘭收復扎波羅熱要塞并構建立足點!再推進15公里

最新:烏克蘭收復扎波羅熱要塞并構建立足點!再推進15公里

項鵬飛
2026-04-25 22:56:08
奔馳快養不起北京汽車了

奔馳快養不起北京汽車了

汽車K線
2026-04-24 07:30:06
美國如今徹底沒希望了,因為已經遇到了,世界上最強大的大國崛起

美國如今徹底沒希望了,因為已經遇到了,世界上最強大的大國崛起

夢史
2026-04-26 06:48:11
舍伍德:薩拉赫大概率已完成利物浦最后一次出場,太令人惋惜

舍伍德:薩拉赫大概率已完成利物浦最后一次出場,太令人惋惜

懂球帝
2026-04-26 10:17:08
現代級魔改,估計俄羅斯娘家也看傻眼了吧

現代級魔改,估計俄羅斯娘家也看傻眼了吧

三叔的裝備空間
2026-04-24 23:53:16
今天才知道,為啥鵝蛋很少有人吃?為啥賣鵝蛋的人很少?漲知識

今天才知道,為啥鵝蛋很少有人吃?為啥賣鵝蛋的人很少?漲知識

阿龍美食記
2026-04-12 15:01:18
身價暴漲!季后賽這5位球員打出了價值

身價暴漲!季后賽這5位球員打出了價值

舟望停云
2026-04-25 21:09:48
DeepSeek V4背后,梁文鋒的轉身

DeepSeek V4背后,梁文鋒的轉身

豹變
2026-04-26 09:13:15
蔣萬安發出強硬警告,"中國臺灣省"走向國際,10國選擇明智應對

蔣萬安發出強硬警告,"中國臺灣省"走向國際,10國選擇明智應對

福建睿平
2026-04-25 11:54:44
馬正勇,已從廣東赴四川履新!畢紹剛,任昆明市委常委、市政府黨組副書記!

馬正勇,已從廣東赴四川履新!畢紹剛,任昆明市委常委、市政府黨組副書記!

蘭妮搞笑分享
2026-04-26 11:01:21
不甘心的羅玉鳳,令人敬佩

不甘心的羅玉鳳,令人敬佩

廖保平
2026-03-22 10:49:24
深圳那位用飲料澆滅煙頭的女生,到底經歷了什么

深圳那位用飲料澆滅煙頭的女生,到底經歷了什么

大張的自留地
2026-04-26 08:52:35
美方曾提醒:如果雙方談不攏,中國的武器裝備可能會去美國大門口

美方曾提醒:如果雙方談不攏,中國的武器裝備可能會去美國大門口

混沌錄
2026-04-25 16:42:06
耳朵長有佛耳,是前世在佛門修行的證明?不是所有人都具備

耳朵長有佛耳,是前世在佛門修行的證明?不是所有人都具備

老紅點評社
2025-08-21 15:16:36
10年麻將館老板囗述:凡是愛打麻將的,沒有一個人日子是過得好的

10年麻將館老板囗述:凡是愛打麻將的,沒有一個人日子是過得好的

小噎論事
2026-04-24 17:15:21
嗜賭成性只是冰山一角,婚內出軌、睡有婦之夫,體壇丑聞毀三觀

嗜賭成性只是冰山一角,婚內出軌、睡有婦之夫,體壇丑聞毀三觀

阿訊說天下
2026-04-25 11:15:04
殘陣森林狼112-96掘金3-1奪賽點,多森姆替補43分,約基奇24+15+9遭驅逐

殘陣森林狼112-96掘金3-1奪賽點,多森姆替補43分,約基奇24+15+9遭驅逐

懂球帝
2026-04-26 11:31:13
閆闖 被問買問界M6和Model Y哪個好? 被旁邊大哥一句話干沉默了

閆闖 被問買問界M6和Model Y哪個好? 被旁邊大哥一句話干沉默了

周哥一影視
2026-04-11 03:19:35
1-0 登頂英超!阿森納險翻車,頭號核心全場災難拖后腿

1-0 登頂英超!阿森納險翻車,頭號核心全場災難拖后腿

瀾歸序
2026-04-26 05:51:40
2026-04-26 12:15:00
鈦媒體APP incentive-icons
鈦媒體APP
獨立財經科技媒體
132791文章數 862118關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

白宮突發槍擊案 250名記者聯名要求將晚宴變維權現場

頭條要聞

白宮突發槍擊案 250名記者聯名要求將晚宴變維權現場

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《八千里路云和月》大結局意難平

財經要聞

DeepSeek V4背后,梁文鋒的轉身

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

教育
健康
時尚
家居
軍事航空

教育要聞

壓軸出場的題目,很多小朋友都失分了

干細胞如何讓燒燙傷皮膚"再生"?

伊姐周六熱推:電視劇《方圓八百米》;電視劇《金關》......

家居要聞

自然肌理 溫潤美學

軍事要聞

伊朗總統:不會在壓力、威脅下進行談判

無障礙瀏覽 進入關懷版