就在今天,日本AI公司Sakana AI發布了一款名為Fugu的多智能體編排模型。
![]()
在官方公告中,Sakana AI宣稱Fugu Ultra版本性能對標 Fable 5 和 Mythos Preview。
過去幾年,AI的發展主要靠構建越來越龐大的單體模型,投喂越來越多的數據。
這次Sakana AI走了一條截然不同的路,Fugu并不是又一個“更大更猛”的單體模型。
而是一個懂得去“調度”其他模型的模型,它并不直接回答你的問題,它的工作是決定讓誰來回答。
![]()
當一個任務進來,Fugu 會動態地決定:調哪個模型、分幾步完成、要不要驗證結果、要不要遞歸調用自己,結合每個模型特有優勢,同時繞過個人弱點。
用Sakana AI的話說,這是一個將完整的多智能體編排系統包裝成單一基礎模型的產品。
Sakana Fugu提供了兩個版本:
標準版Fugu:注重性能與響應速度的平衡,適合日常業務、聊天機器人和代碼輔助等場景,如日常編碼、代碼審查等。
Fugu Ultra:專攻復雜的多階段問題,會調動更多更專業的專家模型,適用于AI研究、網絡安全分析、學術調查等對精度和深度要求極高的工作。
那么,是什么樣的成績能讓官方直言媲美Fable 5和Mythos Preview?
![]()
![]()
在SWE Bench Pro這個行業公認的硬核編程測試里,Fugu Ultra拿下了73.7分,直接超過了Opus 4.8的69.2和GPT 5.5的58.6。
在GPQA-D(研究生級別科學問答)上拿到了 95.5,是目前公開可用模型中的最高分。
在LiveCodeBench Pro上更是干到了90.8分,把一眾對手甩在身后。
在專門考模型的知識廣度和推理深度的Humanity's Last Exam測試中,Fugu Ultra得了50.0分,僅比Claude Fable 5少了3.3分。
Sakana AI強調,Fugu Ultra與Fugu的基準測試結果,是在模型池中不包含Claude Fable 5和Claude Mythos Preview的情況下取得的。
綜合來看,Fugu Ultra在各種硬核的工程科學推理測試里,分數已經能和Anthropic家的頂尖模型Fable 5和Mythos Preview打得有來有回了。
不過數據歸數據,真實用起來怎么樣?
Sakana AI展示了六個實戰案例:
Fugu模型在AutoResearch(自動化ML 研究)、魔方、機械設計、日文古籍識別、單次國際象棋、金融時間序列預測中,均超過Gemini 3.1 Pro、Claude Opus 4.8和GPT-5.5。
在AutoResearch(自動化 ML 研究)任務中,Fugu Ultra 自主運行了 123 次實驗,拿到了最優的 BPB 得分(0.9774 ± 0.0019)。
日文古籍識別方面,Fugu 在處理日本歷史文獻的閱讀順序恢復時達到 NED 0.80,而其他模型只有0.24 或直接失敗。
魔方求解器上,Fugu Ultra僅用19步就解開了魔方,是四款模型中步數最短。
在CAD 機械設計任務中,Fugu 設計了一個可工作的虹膜機構,其他模型產出的設計則存在間隙或不完整。
在國際象棋連續四局對弈中Fugu 保持著完美的準確率;
在股票交易50 周的回測中 Fugu 實現了 +19.43% 的平均回報,其他模型則均低于 15%。
目前Sakana AI提供訂閱制和按量計費兩種方式:
個人用戶可選擇訂閱制,Standard套餐月費20美元,Pro套餐100美元,Max套餐200美元。
按量付費模式下:輸入每百萬tokens 5美元(超過27.2萬tokens后為10美元),輸出每百萬tokens 30美元(超過27.2萬tokens后為45美元)。
作為對比,Opus 4.8 的價格是輸入每百萬tokens 15美元,輸出每百萬tokens 75美元。
Fugu Ultra 的輸入價格只有 Opus 的三分之一,輸出價格不到一半。
Fugu的推出,其實直指另一個很現實的問題,那就是雞蛋不能放在一個籃子里。
前陣子Anthropic的Claude Fable 5剛發布就被限制使,這一事件讓單一供應商依賴的風險變得無比真實。
Sakana AI指出,監管框架、出口管制和各國政策的變化,可能讓企業對AI模型的訪問權限“一夜之間改變甚至斷絕”。
對于一個組織乃至一個國家而言,將關鍵基礎設施、金融或治理系統寄托于一家公司的API,是“現實存在的弱點”。
而Fugu的設計恰恰回應了這一問題——它底層的Agent池完全可替換。如果某家供應商限制訪問,Fugu可以動態繞開干擾。
Sakana AI表示,隨著時間的推移,Fugu將自然地納入更新、更高效的模型——包括他們自己開發的模型。
這或許才是Fugu最值得關注的地方。
在“越大越好”的競賽之外,Sakana AI提供了一條不同的思路:與其造一個全能的神,不如建一個懂得調兵遣將的指揮官。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.