无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Hy3 preview發(fā)布并開源:混元重建后首個模型,Agent能力大幅提升 | 前沿在線

0
分享至



編輯:騰訊混元

4月23日,騰訊混元 Hy3 preview 語言模型發(fā)布并開源。這是一個快慢思考融合的混合專家模型,總參數(shù) 295B,激活參數(shù) 21B,最大支持 256K 上下文長度。

今年 2 月,我們重建了預(yù)訓(xùn)練和強化學(xué)習(xí)的基礎(chǔ)設(shè)施,以及模型追求實用性的三個原則:

能力體系化:我們不推崇“偏科”,因為即使是代碼智能體的單一應(yīng)用,也涉及推理、長文、指令、對話、代碼、工具等多種能力的深度協(xié)同。

評測真實性:我們主動跳出易被“刷榜”的公開榜單,通過自建題目、最新考試、人工評測、產(chǎn)品眾測等多種方式評估和改進模型的“真實戰(zhàn)斗力”。

性價比追求:實用性離不開商業(yè)合理性,我們深度協(xié)同模型架構(gòu)和推理框架的設(shè)計,大幅降低任務(wù)成本,讓智能用得起、用得好。

Hy3 preview 是我們重建后訓(xùn)練的第一個模型,也是混元迄今最智能的模型,在復(fù)雜推理、指令遵循、上下文學(xué)習(xí)、代碼、智能體等能力及推理性能上實現(xiàn)了大幅的提升。

·詳細Bench數(shù)據(jù)和Case可訪問混元博客(https://hy.tencent.com/hy3-preview)了解更多。

復(fù)雜推理

推理能力是模型解決各種問題的基礎(chǔ)。Hy3 preview 在FrontierScience Olympiad、IMO Answer Bench 等高難度理工科推理任務(wù)中表現(xiàn)突出,并在最新的清華大學(xué)求真書院數(shù)學(xué)博資考(26春)和全國中學(xué)生生物學(xué)聯(lián)賽(CHSBO 2025)中取得優(yōu)異成績,展現(xiàn)出可泛化的強推理能力。


上下文學(xué)習(xí)和指令遵循

在各種真實的生產(chǎn)與生活場景,理解雜亂冗長的上下文并遵從復(fù)雜多變的規(guī)則是模型的首要挑戰(zhàn)?;谖覀兌喾N業(yè)務(wù)場景的靈感,我們提出了 CL-bench 和 CL-bench-Life 來創(chuàng)新性地評估模型的上下文學(xué)習(xí)能力,并在 Hy3 preview 顯著地提升了模型上下文學(xué)習(xí)和指令遵循能力。


· 更多Case可訪問混元博客(https://hy.tencent.com/hy3-preview)了解。

代碼和智能體

代碼和智能體是 Hy3 preview 提升最為顯著的方向。得益于預(yù)訓(xùn)練及強化學(xué)習(xí)框架的重建和強化學(xué)習(xí)任務(wù)規(guī)模的提升,我們以較快的速度在 SWE-Bench Verified、Terminal-Bench 2.0 等主流代碼智能體基準以及 BrowseComp、WideSearch 等主流搜索智能體基準中取得了強競爭力的結(jié)果。


在數(shù)字世界中,代碼關(guān)注的是模型在開發(fā)環(huán)境中的執(zhí)行能力,搜索則聚焦于開放信息空間中的檢索、篩選與整合能力,兩者共同決定了模型在復(fù)雜智能體場景(例如OpenClaw)中是否真正具備可用性。Hy3 preview 在 ClawEval 和 WildClawBench 等評測中表現(xiàn)突出,進一步表明我們的智能體能力的全面與實用性。


除了公開榜單,我們進一步構(gòu)建了多個內(nèi)部的評測集,對模型在真實開發(fā)場景中的表現(xiàn)進行評估。結(jié)果表明,無論是在后端工程任務(wù)集 Hy-Backend,貼近真實用戶開發(fā)交互的 Hy-Vibe Bench,還是高難度軟件工程開發(fā)任務(wù)集 Hy-SWE Max上,Hy3 preview 均體現(xiàn)出了強競爭力。


比較各個開源模型的大小與智能體綜合表現(xiàn),Hy3 preview 展現(xiàn)出高性價比。


Case

prompt:請幫我使用微信小程序原生框架(或指定框架)開發(fā)一個完整、可直接編譯運行的徒步路線與旅游計劃推薦小程序,請一次性輸出包含 app.json 等全局配置、所有頁面(WXML/WXSS/JS/JSON)以及完整的 Mock數(shù)據(jù),核心需求包括:一個帶有精美圖片輪播、‘當(dāng)季推薦’及‘路線難度’分類導(dǎo)航的首頁;一個包含行程時間軸、精美沿途圖庫、適宜季節(jié)與裝備建議的路線詳情頁;以及一個支持本地緩存收藏功能的個人中心頁,UI設(shè)計需清新自然、圖文并茂,請確保代碼邏輯閉環(huán)、無缺失文件或引用錯誤,生成后我可以直接導(dǎo)入微信開發(fā)者工具成功預(yù)覽并體驗完整交互。

模型輸出


自然對話和用戶理解

在探索智能上限的同時,我們始終關(guān)注模型與人的交互和對人的理解。為此,我們與元寶團隊進行了深度的合作,使用 URM (User-Feedback RM) 對用戶的真實反饋進行建模,并結(jié)合 RLHF 技術(shù)進行了細粒度的優(yōu)化。結(jié)合推理、長文、指令、智能體等能力的優(yōu)化,這帶來了用戶體驗的大幅提升:Hy3 preview 的事實性錯誤顯著降低,能更精準理解用戶的模糊意圖和碎片化的輸入,回復(fù)風(fēng)格更加共情,內(nèi)容更具深度。在元寶的灰度測試上,我們看到 Hy3 preview 在元寶用戶活躍度上較之前模型實現(xiàn)了大幅增長。

· 更多Case可訪問混元博客(https://hy.tencent.com/hy3-preview)了解。

產(chǎn)品的上線和初步反饋

Hy3 preview 已在元寶、CodeBuddy、WorkBuddy、QQ、ima、QQ瀏覽器、騰訊文檔、騰訊樂享上線,并在微信公眾號、騰訊新聞、騰訊自選股、和平精英、騰訊客服等多個產(chǎn)品陸續(xù)上線中。另外,Hy3 preview 已支持流行的開源智能體產(chǎn)品,如 OpenClaw、OpenCode、KiloCode 等。


元寶產(chǎn)品經(jīng)理 Logan 表示,Hy3 preview 研發(fā)過程中,混元與元寶進行了深度Co-Design。一方面針對性地提升了模型在意圖理解精準度、文本創(chuàng)作質(zhì)量、深度搜索等硬核指標上的表現(xiàn);另一方面對文風(fēng)、文筆、情商、內(nèi)容組織和內(nèi)容專業(yè)度上進行了精細化調(diào)優(yōu)。模型與產(chǎn)品的深度協(xié)同,為用戶帶來了更智能且更具“活人感”的交互體驗。


ima 產(chǎn)品經(jīng)理 kaycee 表示,目前 ima 已經(jīng)接入Hy3 Preview,在 ima 知識庫問答和通用問答兩個場景下,測試結(jié)果顯示,Hy3 preview 處理長文的能力出色,特別是檢索類任務(wù),在回答信息的準確性、覆蓋度和全面性上表現(xiàn)較好。


在CodeBuddy、WorkBuddy 產(chǎn)品上,Hy3 preview 首 token 延遲降低 54%、端到端時長降低 47%、成功率提升至 99.99%+。實際用戶環(huán)境中,Hy3 preview 已穩(wěn)定驅(qū)動最長 495 步的復(fù)雜 Agent 工作流,覆蓋文檔處理、數(shù)據(jù)分析、知識檢索、MCP 工具鏈編排等多樣化辦公場景。


微信公眾號產(chǎn)品經(jīng)理 Astrid 表示,在公眾號AI 分身和 AI 客服的場景專項評測中,Hy3 preview 展現(xiàn)出相比 Hy2更全面的能力升級。新模型在用戶意圖理解、復(fù)雜上下文承接和知識信息組織方面表現(xiàn)更成熟,面對模糊提問、短句追問和多輪對話時,能夠更準確地把握用戶訴求,并輸出更清晰、更穩(wěn)定的回復(fù)。結(jié)合知識庫、用戶記憶與上下文生成回答時更貼合AI 分身和 AI 客服的角色,過度腦補、主觀代入和情緒化表達顯著減少,使整體交互體驗更貼近“可信、自然、高效”的回復(fù)目標。


和平精英AI玩法負責(zé)人jessexue表示,Hy3 preview 模型上線后,和平精英第一時間在 AI NPC 場景中完成接入并開展評測,整體表現(xiàn)令人印象深刻。在游戲局外的人設(shè)扮演場景中,Hy3 preview 不僅能夠精準理解角色設(shè)定,還能針對開放性問題輸出高度關(guān)聯(lián)、富有增量價值的內(nèi)容,帶來了更加真實、自然、沉浸的對話體驗。而在游戲局內(nèi)的復(fù)雜對戰(zhàn)場景中,模型回復(fù)節(jié)奏貼近真實玩家聊天體驗,展現(xiàn)出優(yōu)秀的穩(wěn)定性與出色的擬人化扮演能力,整體效果表現(xiàn)亮眼。


騰訊文檔AI Agent 研發(fā)負責(zé)人 Johnny 表示,Hy3 preview 模型上線后,騰訊文檔 Agent 團隊圍繞核心場景開展綜合評測,以 AI PPT 場景為例,Hy3 preview模型較上一版本(Hy2)取得了顯著進步:生成成功率提升 20%,評測得分提升 10%,同時生成耗時縮短 20%。整體而言,新模型在評測場景中表現(xiàn)優(yōu)異,在模版選擇,色彩匹配,生成大綱,補充內(nèi)容多個階段,均體現(xiàn)出優(yōu)秀的表現(xiàn),無幻覺,契合主題,視覺效果好,展現(xiàn)了明顯的技術(shù)突破,后續(xù)應(yīng)用值得期待。


QQ AI助手 小Q產(chǎn)品負責(zé)人Tea表示,Hy3 preview 相較上一代Hy2,在小Q助手場景上,新模型在長文本首字節(jié)時延、整體響應(yīng)速度與流式輸出效率方面顯著優(yōu)化;核心能力上,數(shù)學(xué)推理表現(xiàn)提升尤為明顯,多場景指令遵循與泛化能力進一步增強;在工具調(diào)用推理及多輪指代消解方面表現(xiàn)更穩(wěn)定高效,在 OpenClaw官方 PinchBench QQ智能體場景測試中取得突出效果,綜合體驗實現(xiàn)明顯躍升。

開源、API、Token Plan

Hy3 preview 的模型權(quán)重、代碼已在 GitHub、HuggingFace、ModelScope、GitCode 等平臺開源,支持 vLLM、SGLang 等主流推理框架,開發(fā)者可以直接下載使用。(詳細鏈接見文末)

得益于模型架構(gòu)和推理框架的深度協(xié)同,以及我們在推理框架、算子性能、量化算法等方面的優(yōu)化,Hy3 preview 的成本相比上一代模型大幅下降。在騰訊云上,我們推出了有競爭力的 API 價格以及定制化的 Token Plan,個人版定價最低28元/月。



Hy3 preview 是我們重建的第一步。雖然模型效果已經(jīng)取得了巨大進步,但仍存在一些已知問題,我們希望通過這次開源和發(fā)布,獲得來自開源社區(qū)和用戶的真實反饋,幫助我們提升 Hy3 正式版的實用性。與此同時,我們也在繼續(xù)擴大預(yù)訓(xùn)練和強化學(xué)習(xí)的規(guī)模,提升模型的智能上限,并通過與騰訊更多產(chǎn)品的深入?yún)f(xié)同,持續(xù)改進模型在真實場景中的實用性并探索差異化能力。

歡迎大家體驗并給我們反饋。

附:開源和 API & Token Plan 鏈接

  • Github:https://github.com/Tencent-Hunyuan/Hy3-preview

  • Hugging Face:https://huggingface.co/tencent/Hy3-preview

  • ModelScope:https://modelscope.cn/models/Tencent-Hunyuan/Hy3-preview

  • GitCode:https://ai.gitcode.com/tencent_hunyuan/Hy3-preview

  • 騰訊云TokenPlan接入地址:https://console.cloud.tencent.com/tokenhub/tokenplan/hy?regionId=1

  • 騰訊云API接入地址:

    https://console.cloud.tencent.com/tokenhub/models/detail?modelId=hy3-preview&regionId=1

前沿動態(tài)前沿大會
前沿人物

「在看」,給前前加雞腿

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
特殊島:希望加入中國大陸或與臺灣省合并,但絕不會承諾日本!

特殊島:希望加入中國大陸或與臺灣省合并,但絕不會承諾日本!

星星會墜落
2026-06-23 02:56:13
天后夏奇拉帶兒子看世界杯,13歲長子因長相成熟被誤認為新男友

天后夏奇拉帶兒子看世界杯,13歲長子因長相成熟被誤認為新男友

洲洲影視娛評
2026-06-23 18:18:53
《人世間》:永遠不要操心你的孩子,也不要操心你的父母,你所有的操心基本上是白費,每個人都有自己的三生因果,都要在自己的因果中輪回

《人世間》:永遠不要操心你的孩子,也不要操心你的父母,你所有的操心基本上是白費,每個人都有自己的三生因果,都要在自己的因果中輪回

心理觀察局
2026-06-22 06:55:14
世界杯首次雨延遲:球迷通道踢球、600美元門票花700喝龍舌蘭

世界杯首次雨延遲:球迷通道踢球、600美元門票花700喝龍舌蘭

體壇觀察猿
2026-06-24 00:05:10
戰(zhàn)術(shù)錯配:貝爾薩與烏拉圭的世界杯注定走向失敗

戰(zhàn)術(shù)錯配:貝爾薩與烏拉圭的世界杯注定走向失敗

慢享生活集
2026-06-24 01:23:30
歐盟已介入,中國大使館撤了,立陶宛主動往后縮,瑙塞達下死命令

歐盟已介入,中國大使館撤了,立陶宛主動往后縮,瑙塞達下死命令

讓我的世界更加精彩
2026-06-22 21:34:19
事情迎來反轉(zhuǎn)!官方公開點名全紅嬋,陳若琳當(dāng)初的話果然應(yīng)驗

事情迎來反轉(zhuǎn)!官方公開點名全紅嬋,陳若琳當(dāng)初的話果然應(yīng)驗

涵豆說娛
2026-06-24 02:11:21
馬云預(yù)言又應(yīng)驗!若無意外,2026年起,中國房地產(chǎn)或迎來3大轉(zhuǎn)變

馬云預(yù)言又應(yīng)驗!若無意外,2026年起,中國房地產(chǎn)或迎來3大轉(zhuǎn)變

科技故事聚焦
2026-06-23 09:37:13
3-2!哈蘭德雙響,對飚梅西姆巴佩,挪威2連勝出線,下輪死磕法國

3-2!哈蘭德雙響,對飚梅西姆巴佩,挪威2連勝出線,下輪死磕法國

我的護球最獨特
2026-06-23 10:00:03
中方呼吁烏克蘭危機當(dāng)事方努力推動局勢降溫

中方呼吁烏克蘭危機當(dāng)事方努力推動局勢降溫

新華社
2026-06-23 09:18:03
馬云被網(wǎng)暴!帶核心領(lǐng)導(dǎo)層插秧,一上午才種半畝,被罵第二個雷軍

馬云被網(wǎng)暴!帶核心領(lǐng)導(dǎo)層插秧,一上午才種半畝,被罵第二個雷軍

譚談社會
2026-06-22 23:37:32
哈蘭德:我認為晉級淘汰賽是生涯巨大成就,但說奪冠這幾乎不可能

哈蘭德:我認為晉級淘汰賽是生涯巨大成就,但說奪冠這幾乎不可能

蘭亭墨未干
2026-06-23 17:58:16
卷巨額遺產(chǎn)出逃英國,給楊振寧戴綠帽子,翁帆身上的謠言有多離譜

卷巨額遺產(chǎn)出逃英國,給楊振寧戴綠帽子,翁帆身上的謠言有多離譜

叨嘮
2026-05-27 04:13:37
再上熱搜!“小馬云”坐百萬豪車現(xiàn)身義烏,流量生意徹底玩明白了

再上熱搜!“小馬云”坐百萬豪車現(xiàn)身義烏,流量生意徹底玩明白了

雷科技
2026-06-23 18:15:11
G奶天后演唱會出現(xiàn)“多人運動”?竇驍宋慧喬的瓜!

G奶天后演唱會出現(xiàn)“多人運動”?竇驍宋慧喬的瓜!

八卦瘋叔
2026-06-21 09:09:18
央視暗訪曝光!直播間27個“茶農(nóng)”,20個是演員,月入千萬全靠演

央視暗訪曝光!直播間27個“茶農(nóng)”,20個是演員,月入千萬全靠演

寒士之言本尊
2026-06-22 17:30:26
寶媽帶娃避雨后續(xù):老顧客發(fā)聲,不信保安會攆人,寶媽言論被審視

寶媽帶娃避雨后續(xù):老顧客發(fā)聲,不信保安會攆人,寶媽言論被審視

以茶帶書
2026-06-22 13:47:59
被罵了十年的48隊世界杯,突然變香了

被罵了十年的48隊世界杯,突然變香了

澎湃新聞
2026-06-23 19:38:29
布澤爾帶女友度假,19歲狀元熱門,比他爹天賦好,女友很性感

布澤爾帶女友度假,19歲狀元熱門,比他爹天賦好,女友很性感

大西體育
2026-06-23 10:40:14
坎塞洛:C羅無需向任何人證明什么;我們清楚首戰(zhàn)中的不足

坎塞洛:C羅無需向任何人證明什么;我們清楚首戰(zhàn)中的不足

懂球帝
2026-06-23 10:45:38
2026-06-24 03:11:00
前沿在線 incentive-icons
前沿在線
前沿在線官方賬號,關(guān)注AI、機器人、智能車等前沿領(lǐng)域;
267文章數(shù) 1235關(guān)注度
往期回顧 全部

科技要聞

48名中國開發(fā)者聯(lián)名舉報蘋果

頭條要聞

"紙尿褲風(fēng)波"第一爆料人:如果我錯了 坐牢都接受

頭條要聞

"紙尿褲風(fēng)波"第一爆料人:如果我錯了 坐牢都接受

體育要聞

揚尼斯去了邁阿密:凱爾特人怎么辦?

娛樂要聞

內(nèi)娛95后頂流格局發(fā)生潛移默化的變化

財經(jīng)要聞

AI“算力稀缺”信仰開始動搖?

汽車要聞

施鵬澤:為什么奧迪E7X強調(diào)座艙氣味安全?

態(tài)度原創(chuàng)

時尚
游戲
本地
家居
親子

被40萬人追更的火焰魔術(shù)師,重塑古老燈工玻璃

收藏黨必沖!PS5藍色限量手柄官宣 經(jīng)典配色實在驚艷

本地新聞

吃一次廣東龍舟飯,才懂什么是豪華盛宴

家居要聞

綠意盎然 自然之境

親子要聞

炮哥的媳婦懷二胎長胖了20斤,炮哥卻擔(dān)心沒人帶,聽聽他怎么說

無障礙瀏覽 進入關(guān)懷版