前段時間,hunyuan3.0悄悄登陸了騰訊的AI產品線。
在安卓端和電腦端的元寶,以及codebuddy里,更新后就可以選擇將默認模型切換為Hy3 preview。
![]()
根據之前一些爆料,這次的hunyuan3.0,不僅是姚順雨入職3個月后,進行大幅組織架構調整后推出的第一個成果,而且該模型僅僅只有20B的體量。
是的,你沒看錯,在羅福莉帶著小米大模型走向小模型后,騰訊的姚順雨也這么干了。這的確事出有因:除了時間短任務重的背景下小尺寸模型能更快推出以外,在算力約束、產業普惠和自主可控的長期目標下,20B左右的模型是更契合的。
話不多說,咱直接上評測!
這段時間,有一個很簡單的問題讓大模型紛紛折戟:洗車店距離我家20米,應該開車去還是走過去?
我也用這個問題測一測混元的“智商”和“現實邏輯”。
Hunyuan3.0給出的回答超出了我的預計:在思考開始就指出了“這是一個帶有邏輯陷阱的趣味性問題”,并且對問題做出了分類——車已經在洗車店附近、車在家里但是需要去一趟洗車店(不洗車)、車在家里需要洗車。
![]()
![]()
除了正經的回答,hunyuan3.0甚至給了一個惡搞回答:推過去。
這讓人有點繃不住,但細想之下作為一種情景居然有點合理。
從我對它邏輯推理能力來看,混元3.0的機智是略微勝過之前的大模型的。當然了,也不排除是模型廠商注意到了類似陷阱題目對AI的誘導,進行了一定調整。
但不管怎么說,面對陷阱問題,這都是一種進步的表現。
大家都知道,今年AI模型競爭已經進入到了智能體階段,龍蝦熱后,單純的模型迭代對用戶的體感來說已經很弱了,所以我這篇測評更多是側重于在大眾用戶的手里,hunyuan3.0在龍蝦類軟件里能做什么。
文件整理
對于剛接觸龍蝦類應用的大眾用戶而言,這類應用最直觀的價值體現是文件的處理。
我選取了一個內有260個文件的文件夾,要求hunyuan3.0將其中文件單獨壓縮,并將壓縮包重命名,再統一壓縮為一個新的壓縮包。
![]()
速度非常快,1分鐘不到,就得到了需要的壓縮包:
![]()
程序編寫
對于普通人而言,Agent帶來的紅利莫過于專業技能的下放,其中直觀的莫過于“編寫程序”了,這段時間很多一人公司,都是通過Agent編寫程序和搭建工作流。
正好這段時間SBTI挺火熱,那么就讓hunyuan3.0寫一個類似SBTI的測試。相比于整理文件需要本地電腦性能,這類代碼任務更能體現模型快不快。
我直接對hunyuan3.0給出要求:模仿SBTI測試的算法,生成一個趣味心理測試框架,數據與頁面分離,方便改成不同主題的測試。開發階段你自己想一個主題,生成相應的題目。
![]()
在這個過程里,可以看到工作流是非常清晰的:
通過網頁獲取參考測試結構。
![]()
Hunyuan3.0選擇開發一個"AI時代生存指南:你是哪種AI交互人格?"的主題測試。
![]()
創建題目數據、結果數據和侏羅紀文件后,框架搭建完畢。
![]()
讓我們來看看效果吧:
![]()
給出的預覽版具有完整的測試前、測試過程和測試結果分析頁面。20道題,我自己進行了幾次測試,結果是符合邏輯的。
值得注意的,幾乎早一天推出的mimo-2.5-pro完成同一任務,算上思考時間是10分鐘。而hunyuan3.0算上思考時間為7分鐘。當然3分鐘的時間差距也可能是和二者路徑規劃不同導致。但這相比之前的模型速度都快了不少,小尺寸模型靈活性高的特性都得到了體現。
![]()
對于大眾而言,前段時間不少人都嘗試了龍蝦但后面紛紛卸載,原因無非是Token貴。我也因為這一原因減少了用量。而像是hunyuan3.0和mimo-2.5-pro這類小參數模型,具有一個重要優勢就是性價比。
廠商按模型能力階梯定價,越大越貴,500B+大模型往往是20B的10多倍,再加上OpenClaw類軟件會自帶系統提示+工具定義+會話歷史+記憶的固定開銷,而這部分開銷用20B的模型,能為用戶省下太多錢。
成本下來后,咱這種普通人就離超級個體時代又近了一步。
整體看下來,姚順雨入職三個月的背景下,拿出的成果hunyuan3.0預覽版,切中了不少智能體時代的痛點。
小尺寸模型是有很大前景的,不過作為大廠,騰訊更有可能走全尺寸模型路線,Hy3-Preview更多只是個前菜。在經歷人事變動組織架構調整后,hunyuan系列模型的加速已經是板上釘釘了。
對用戶來說也是個好消息,畢竟廠商競爭激烈,用戶端的紅利才能釋放出來。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.