網易首頁 > 網易號 > 正文申請入駐

Hermes新功能上線！比Opus 4.8和GPT-5.5還猛

2026-06-30 22:36:12　來源: 智東西

北京舉報

分享至

AI應用風向標（公眾號：ZhidxcomAI）
作者｜畢偉豪
編輯｜漠影

智東西6月30日報道，現在，Fable 5和Mythos 5等頂尖閉源模型沒法使用，就算能用，單一模型也總有搞不定的問題，那么，想要高質量輸出結果的用戶該怎么辦呢？

近日，Hermes Agent上線了MoA（Mixture of Agents）功能，支持用戶自由組合多種模型作為虛擬模型使用，在Nous Research即將發布的基準測試中，這個混合模型的評分超過了Opus 4.8 和GPT-5.5。

一、Fable 5、Mythos 5被禁，多模型組合成為潮流

Nous Research在官推上說了這樣一句話：“最強大的模型是受限的，只有少數人才能獲得訪問權限。”這句話明晃晃地指向了Fable 5等模型被封禁的事件。

在這種背景下，不難看出，MoA這個混合模型模式的終極目的，是用開源模型的組合達到頂尖閉源模型的水準，就像Hermes Agent聯合創始人Teknium說的，他們正在測試各種開源模型組合，看看是否能用更便宜的模型達到Opus的水平。

這種多模型組合比肩頂尖模型的思路，最近其實有不少實踐的例子，比如前段時間日本AI獨角獸Sakana AI發布的Sakana Fugu系列編排器模型，會根據任務選擇最佳的模型來處理，和MoA的思路非常相似。

而MoA的技術也在很久之前就已存在了，2024年6月Together AI曾發表過一篇論文《Mixture-of-Agents Enhances Large Language Model Capabilities》，核心是多LLM組合，每一層模型都會參考上一層模型的輸出，再繼續生成自己的回答。同時，論文也將模型分成了兩類，也就是現在Hermes所用的參考模型和聚合模型。

當用戶提出問題時，參考模型會先對問題進行分析判斷，然后給出參考意見，隨后由聚合模型來綜合判斷，并調用工具執行具體任務。

參考模型只生成意見、不會使用任何工具，也不能執行任何命令。這種模式可以發揮不同模型的獨特優勢，集各家之所長，讓擅長規劃的模型來提意見，讓長于實踐的模型來完成任務。

使用這個模式也很簡單，以桌面版為例，只需要在設置里點開模型選項，向下翻就可以看到Mixture of Agents的選項了，直接選擇你想用的模型進行組合即可，默認狀態下是兩個參考模型和一個聚合模型，也可以自己手動添加多個參考模型。

二、實測做游戲更絲滑，Token消耗量相差不大

海外有博主專門做了實測，用兩種組合方式分別生成了游戲和交互頁面，實測結果發現，使用MoA任務完成的時間并不一定會變長，會因為模型選擇的不同而發生變化，同時，Token的消耗量也沒有想象中恐怖。

博主先是測試了一個小游戲的制作，使用Three.js開發一個原力海盜訓練競技場游戲，為了對比效果，他先使用單一模型glm-5.2來做測試，輸入提示詞：

Hermes花費了0.38美元，用時13分鐘搞定了這個游戲，可以看到，單一glm-5.2模型生成的游戲效果整體上還不錯，但是在移動速度和流暢程度上存在一些問題，比如飛船很難躲避敵人的攻擊，可玩性稍弱。

隨后博主啟用了MoA，用kimi-k2.6和minimax-m3做參考模型，glm-5.2做聚合模型，然后新開對話，輸入同樣的提示詞。

這一次，Hermes花費了0.47美元，用時35分鐘完成任務，價格比單一模型稍高一些，時間上翻了接近三倍。雖然在時間和成本上更高，但MoA模式下的生成效果也明顯更好，可以看到其移動速度、流暢程度以及關卡合理性都比單一模型的輸出結果好很多。

隨后，博主又使用頂尖閉源模型GPT-5.5進行了測試，這一次是讓Hermes生成一個可交互的動漫多元宇宙儀表盤，包括火影忍者、海賊王、龍珠等IP。對照組依舊是單一模型，使用GPT-5.5執行任務，由于是訂閱制，因此博主直言沒辦法核算成本。

Hermes用了接近7分鐘完成任務，設計的儀表盤中間的光球周圍的光圈有一些簡單，缺少質感，但交互上非常流暢。

隨后博主用了三個grok模型做參考模型，GPT-5.5為聚合模型進行同樣的測試，令他意想不到的是，MoA模式下的Hermes生成速度竟然更快，博主推測可能是由于使用了grok快速模型的原因。

能看到這次的生成結果明顯更有質感，尤其是中間的光球設計感很強，整體交互也非常絲滑，而且點擊不同的星球還有遠近景的切換。

結語：未來比拼的，不只是模型

過去，大模型競爭幾乎都是圍繞著“誰家的模型更強”展開的，用戶需要不斷切換不同模型，在編程、寫作、推理之間尋找最適合的那個。

但MoA、Sakana Fugu等已然在另一個思路上前進：與其等待一個“萬能模型”，不如讓多個擅長不同能力的模型共同完成一項任務。

這種走向“編排”的趨勢，其實剛好符合Agent的要求，模型是底層能力，Agent負責組織不同模型協作，讓規劃能力強的模型負責思考，讓執行能力強的模型負責落地。

當然，目前MoA需要承擔更高的推理成本，在部分任務上耗時也會明顯增加，并不是所有場景都值得開啟。但隨著推理成本持續下降、開源模型能力不斷提升，多模型協作很可能會成為Agent未來的默認工作方式。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.