這周,中國大模型的更新讓人窒息。前腳阿里最強旗艦 Qwen 3.6 Max剛發布,月之暗面的 Kimi 2.6 就馬上登場,DeepSeek V4 也箭在弦上。
剛剛,混元的 Hy3 Preview 也正式亮相,這是 騰訊首席 AI 科學家 姚順雨主導的一個模型。
姚順雨表示,Hy3 preview是混元大模型重建的第一步。他希望通過這次開源和發布,不斷提升 Hy3 正式版的實用性,以及模型在真實場景中的綜合表現,并開始探索特色模型能力。
![]()
從去年年底姚順雨加入騰訊,入職首席 AI 科學家,并負責 AI Infra 及大語言模型,1 月底開始啟動模型訓練,三個月的時間完成了從訓練到上線。
這個大版本升級的混元模型,在短時間內,不僅對底層基礎設施進行了系統性重建,還包括預訓練和強化學習在內的底層框架,全部推倒重來。
最后的答卷是一個快慢思考融合的 MoE(混合專家)語言模型,總參數 295B,激活參數 21B,最大支持 256K 上下文長度。
在這個行業動輒吹噓萬億(1T+)參數的時代,Hy3 preview 的數據顯得有些克制。但這個參數很明顯是兼顧了性能和成本之間的平衡,讓模型能更好落地在不同場景。
![]()
而 300B 這個量級,復雜的數理推理、長上下文理解和指令遵循能力都已經被充分激活;如果繼續強行擴大規模到萬億參數,一邊是訓練時間加倍,在實際的表現上,也容易出現通信延遲、吞吐瓶頸和推理成本翻倍等問題。
不過,姚順雨也提到,他們在 繼續擴大預訓練和強化學習的規模,提升模型的智能上限。
![]()
在多個真實生產和生活場景 benchmark,以及騰訊混元的 上表現對比前代,提升幅度明顯。
因此,Hy3 preview 這次的定位非常明確,要到真實世界去解決復雜工程問題。
為了驗證 Hy3 preview 是否能在真實世界去解決各種問題,具體的模型表現如何,APPSO 也提前拿到了內測資格,在元寶 App 和 WorkBuddy 桌面端應用了實測了一段時間。
編程和 Agent,混元開始接住真實的工程需要
編程能力目前還是各家大模型發力的重點,前幾天還有外媒報道,谷歌正在成立一個新的團隊,專攻 AI Coding。
這次的騰訊混元新一代大模型 Hy3 preview 同樣在通用能力的提升基礎上,能夠適用于編程和現在熱門的智能體場景。
![]()
在公開的編程和智能體 benchmark 上,Hy3 preview 的表現較 Hy2 提升顯著
例如我們用之前 GPT 5.4 模型發布時使用的編程測試案例,來看看 Hy3 preview 的具體表現。
![]()
提示詞:創建一個超寫實的舊金山金門大橋交互式 3D 體驗,允許我自由飛翔環繞。環境需包含真實的照明、水體、霧氣、大氣效果、懸索、車流、周邊海岸線及城市背景,并具備電影級的尺度感和細節。讓我能通過直覺式的飛行控制和多視角(包括近距離結構穿梭和大場景俯瞰)平滑地進行場景導航。核心要求是真實感、沉浸感和視覺忠實度。在測試運行時,務必從多個距離和角度環繞大橋飛行,驗證導航的平穩性與穩定性,并確保場景無論遠近都極具說服力。你可以利用 imagegen 技能生成建模所需的初始資產。視覺效果絕不能有任何“方塊感”或“廉價感”,必須達到高保真、極度平滑、近乎照片的質感。橋面上應有真實的車輛通行。不必急于求成,如果需要,即使耗時一小時也可以。請不斷迭代,直至完美。
雖然最后的結果并不是非常寫實,主要差距還是在于所使用的工具限制。但整個體驗還是非常流暢和絲滑,我們能使用 WASD 鍵來控制自己第一人稱視角的飛行,同時 Hy3 preview 也自動寫了一些默認視角。
而在讓它寫一些簡單的小游戲時,像是同樣來自 GPT-5.4 的提示詞,做一個游樂場的經營類小游戲。
![]()
提示詞:創建一個可以在瀏覽器中構建并導航的交互式等軸測 (isometric ) 主題公園模擬游戲。利用 imagegen 確立整體視覺風格,并生成全套游戲資產,包括游樂設施、路徑、地形、樹木、水體、食品攤位、裝飾物、建筑、圖標以及 UI 插畫。游戲世界必須具備高度的統一感、精致度以及豐富的視覺表現,藝術風格需高端且適配等軸測視角。允許平滑地鋪設或拆除路徑、添加景點、布置景觀并環繞公園移動,同時能夠監控游客活動、設施狀態以及公園的發展情況。系統需包含可信的游客移動算法,以及簡單的公園管理系統(如資金、清潔度、排隊和滿意度)。確保整體體驗充滿趣味、邏輯清晰且完整,而非粗糙的原型。在優先級上,趣味性、易讀性以及出色的游戲手感高于寫實度。在進行玩法測試時,務必通過多輪操作來構建并擴張公園。驗證設施放置與導航是否順暢,確認游客對公園布局及景點的反應,并確保視覺效果、UI 以及交互體驗穩定且統一。
還是不可免俗的使用了「漸變紫」的套裝,只能說界面審美這一塊,除了編程能力的提升,還是需要額外的一些微調。
好在整個游戲是能玩的,我們可以真實的經營這個游樂場,通過鋪路、放置新的游樂設施以及服務設施等場地,來賺取收入,控制人流。
而經典的「騎自行車的鵜鶘」測試,我們把它換成了更難一點的,開著汽車的長頸鹿。生成的 SVG 畫面是動態的,太陽、云朵和車子都在移動,基礎的 SVG 元素都能做到。
![]()
這些關于編程能力的測試,我們都是在騰訊前段時間推出的智能體應用 WorkBuddy 內完成。
![]()
而除了代碼開發的任務,我們還可以使用 WorkBuddy 進行文檔處理、數據分析可視化、深度研究等方面的日常辦公。
由于 WorkBuddy 也是一個本地 Agent 產品,和 Claude Code、Codex 之類的應用一樣,我們可以讓它直接訪問本地文件夾的文件。
要求它訪問電腦上 Hy3 文件夾里面的全部文件,并根據文件的內容,創建一個類似于 Wiki 的網頁,能夠直接索引到不同的文件。
![]()
WorkBuddy 讀到了我們創建的不同項目,例如要求它完成的落地頁、3D 金門大橋、個人博客、運營游戲等項目,并分類總結好。
再要求它把其中一個香港國際電影節的 PDF 文件轉成 HTML,要求它 1:1 復刻精美的雜志效果,顯然太為難它,但是 Hy3 preview還是能在非常規排版的 PDF 文件里,準確定位到信息,并整理成網頁。
![]()
而在深度研究的調研任務上,我們要求他寫一份關于內存市場洞察報告,給出的文檔內容詳細,使用的數據來源也全是權威機構。
![]()
繼續用 WorkBuddy 內的數據分析及可視化任務來測試時,要求 Hy3 preview 基于聯合國人口司的數據,做一次全球人口結構變遷的可視化分析,Hy3 preview 花了非常長的時間進行調研,最后給出的研究報告,可以說能直接拿過來用。
![]()
部分可視化圖表截圖
這些編程和智能體的能力,配合 WorkBuddy 能發揮到最大。在元寶 App 內,現在我們也可以讓它生成一些小型的網頁游戲,在對話框里就能預覽打開。
閑聊,要做到「活人感」不容易
前段時間,一個短視頻在網上傳播,視頻內容是一位乘客看到前排的司機,在手機上和 AI 助手聊天,他告訴 AI 自己一天收入,AI 會給他一些反饋。
有網友在下面留言,說以前這些聊天都是 200 塊一小時的心理咨詢,現在手機發條消息就能做到。
![]()
無論模型在代碼開發、解數學題、科學研究上取得了多少成功,大多數人用 AI 的場景,占比較多的還是各種類型的角色扮演。
我們也測試了騰訊混元新一代大模型 Hy3 preview 在日常聊天以及創意寫作上的表現。
沒有「不躲不逃不藏的只用最直接」的方式跟我說,有的是真實地能解決問題的文字。打開元寶 App,點擊深度/快速思考,選擇模型 Hy3 Preview,問它「為什么我在廣州找不到愛情」。
它的回復是客觀和主觀兩方面并行的,會分析除我之外的原因,也會告訴我應該要怎么做。
![]()
在聊到一些可能找到明顯原因的困惑時,Hy3 preview 還會自動生成對應的表格,來解釋 AI 并不是只會順從。
創意寫作的任務上,Hy3 preview 模型的表現,也要比前代更有文采和個性化風格,即便是簡單的生活文案,人情味也更明顯了。
我們找了一些基礎的風格模仿任務、敘事節奏的續寫、語言的創作力和情緒張力等題目,來測試它。
![]()
生成的寫作結果,在獨特性、執行精確度,以及風格穩定性上的表現,確實要更符合我們人類寫作的特點,沒有 AI 那種明顯的套話。
那道經典的走路去還是開車去洗車問題,Hy3 preview 也答上來了。
![]()
當所有人在做一套卷子,混元開始出卷
過去兩年多,中國 AI 行業有一種集體焦慮:所有人都在做同一件事。同樣的架構,同樣的訓練范式,同樣的榜單,同樣的新聞稿模板。模型發布會的 PPT 換個 logo 就能通用,「全球領先」「性能登頂」這些詞被用到通貨膨脹。
騰訊曾經也在這個隊列里。別人打榜它也打榜,別人堆參數它也堆參數,別人做什么功能它追什么功能。結果是混元的技術投入不少,但市場感知始終模糊。你問用戶「混元跟別家有什么區別」,大概率答不上來。
Hy3 preview 的意義,可能恰恰在于騰訊終于不追求打榜了。這也是姚順雨帶給混元最大的變化。
![]()
此前晚點一篇報道就轉述了姚順雨在騰訊內部會上的判斷:模型過度追逐榜單成績,將打榜語料放入訓練集,數據被污染了。模型很會答題,到了真實場景卻不穩定。
榜單衡量的是能力上限,用戶感知的是能力下限。MMLU 上領先兩個百分點,用戶在實際使用中幾乎感知不到;反過來,指令遵循稍差、格式不穩定、幻覺率偏高,用戶體驗會斷崖式下降。
所以在 Hy3 preview 上, 就能看到混元開始把這個邏輯翻了過來:不追榜單,追場景。
![]()
去年一份報告就曾指出, AI 在各類基準測試上的分數一路飆升,benchmark 過于飽和,這些成績往往并不能真實反映它對現實世界的實際影響。
295B 的參數量說明它不打算在模型尺寸上硬碰硬。Co-design 的研發模式說明它開始把注意力從「別人做了什么」轉向「我的用戶需要什么」。
這里就不得不來看看騰訊這家公司的核心業務場景,社交、游戲、廣告、企業服務,每一個都有極強的領域特殊性。微信的對話流是碎片化的、高密度的;游戲需要模型根據實時局勢做即時反應;企業微信和騰訊會議需要基于私有文檔的精準分析。
![]()
Hy3 preview 已在騰訊云、元寶、ima、CodeBuddy、WorkBuddy、QQ、QQ瀏覽器、騰訊文檔、騰訊樂享等首發上線,微信公眾號、和平精英、騰訊新聞、騰訊自選股、騰訊客服、微信讀書等多個主線產品也在陸續上線。
這些場景對模型的要求,跟通用智能榜單上考核的那些指標并不完全匹配。一個在 MMLU 上排名前三但在微信群聊里讀不懂語境的模型,對騰訊來說毫無意義。
換句話說,騰訊可能是中國大廠里最不應該去追通用榜單的那一個。它手里攥著的場景足夠獨特、足夠復雜、足夠有商業價值,完全可以走出一條自己的路。
Co-design 就是這條路的起點。模型在真實業務里跑,業務用真實數據反哺模型,騰訊對 AI 的巨額投入能得到場景的快速驗證,同時獲得商業上的閉環。這個飛輪一旦轉起來,產生的壁壘比榜單上的排名堅固得多。
當所有人都在比誰的模型更「全能」的時候,誰的模型在自己的場景里最「好用」,可能才是真正的勝負手。
![]()
當然,「找到節奏」和「贏下比賽」之間還隔著相當的距離。
Hy3 preview 是混元重整后的第一個模型,三個月的研發周期說明執行力在線,但也意味著大量的優化空間。55% 到 56% 的盲評勝率說明它夠用,距離拉開差距還早。更大尺寸的模型在路上,正式版還在根據 Preview 階段的用戶反饋持續打磨。
但至少有一件事變了:混元不再追著別人的地圖跑了。它開始畫自己的地圖,標自己的路。
大模型競爭走到今天,同質化才是最大的風險。當所有人都在用同一把尺子量身高的時候,有人開始造自己的尺子,量自己真正需要的維度。
這件事本身,比任何一榜單參數都值得關注。
我們正在招募伙伴
簡歷投遞郵箱hr@ifanr.com
?? 郵件標題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.