![]()
來源:https://officechai.com/ai/snowflake-ceo-sridhar-ramaswamy-shares-detailed-post-comparing-opus-4-7-and-glm-5-2/
Z.ai 的GLM 5.2近日爆紅網絡,但一位高管分享了該模型與另一款前沿模型的比較情況。
Snowflake 首席執行官 Sridhar Ramaswamy發布了一份詳細的分析報告,對比了 Z.ai 的 GLM-5.2 和 Anthropic 的 Claude Opus 4.7 在 dbt-bench 上的表現。dbt-bench 是一個用于評估人工智能模型在數據轉換和分析工程任務中表現的基準測試工具。研究結果表明,雖然這兩個模型最終的總體成功率幾乎相同,但它們實現成功的方式卻截然不同。
![]()
這項分析來自 Snowflake 的 Coco 團隊,他們使用兩種模型分別進行了 103 項辯證行為療法 (DBT) 任務,每項任務均進行了三次試驗。主要數據顯示,兩者的成績幾乎不相上下。GLM-5.2 的 Pass@3 得分為 66%,而 Opus 4.7 為 67%。然而,在首次嘗試階段,Opus 的優勢更為明顯,Pass@1 得分為 53.7%,而 GLM 為 47.6%。
值得注意的是,GLM-5.2作為一款開源模型,近幾周來表現出色,引起了廣泛關注。今年早些時候,中國的GLM模型家族就已經開始在編程排行榜上嶄露頭角,GLM-5.1更是成為Code Arena上排名最高的開源模型之一。
Ramaswamy指出,這些模型之間最大的區別之一在于它們處理任務的方式。GLM完成任務所需的輪數明顯更多,平均為99輪,而Opus平均為80輪。此外,GLM執行相關的工具調用次數也更多,平均每次試驗40次,而Opus平均每次試驗29次。
這種差異體現在代幣消耗上。在基準測試運行中,GLM 使用了 8.6 億個計費代幣,而 Opus 僅使用了 4.39 億個。Snowflake 團隊將此歸因于對話輪次更多、原子 API 調用更多以及提示緩存重用率更低等因素的綜合作用。
人們普遍認為 GLM 的驗證工作更加徹底,但數據僅部分支持這一觀點。研究發現,GLM 的驗證方式不同,而非驗證內容更深入。它通常一次執行一條 SQL 檢查,而 Opus 則會將類似的檢查捆綁在一起。雖然兩種模型最終覆蓋的范圍相似,但它們的底層工作流程卻截然不同。
研究結果也挑戰了另一個常見的假設:更嚴格的驗證必然會帶來更好的結果。盡管 GLM 傾向于執行更多檢查,但 Opus 在 Pass@1 指標上仍然領先 6 個百分點。正如 Ramaswamy 所說,“更多驗證 ≠ 更正確”。
GLM 在跨平臺驗證方面展現出了明顯的優勢。該基準測試要求解決方案能夠同時在 DuckDB 和 Snowflake 上運行。Snowflake 團隊發現,GLM 在針對這兩個目標進行驗證時表現得更加穩定,這解釋了 GLM 成功解決而 Opus 未能解決的幾個任務。
該帖子還重點指出了兩種反復出現的故障模式。在某些情況下,GLM模型由于無法從現有信息中推斷出解決方案路徑而過早放棄。團隊舉例說明的一個任務中,該模型在22個回合中執行了5次文件讀取操作,但在停止前從未嘗試過寫入操作。
在其他任務中則出現了相反的問題。例如,GLM 在 24 分鐘內進行了 411 次工具調用,以全面檢查行數、分布、空值、列類型和平臺一致性。但三次嘗試均以失敗告終。而 Opus 僅用 9 分鐘就完成了同樣的任務,調用次數僅為 49 次。
有趣的是,“GLM 使用的調用次數是其他模型的兩倍”這種說法其實有些誤導。在兩個模型都能成功完成的任務中,GLM 的調用次數僅比其他模型多約 17%。較大的差距主要出現在一些復雜的邊界情況中,在這些情況下,模型會進入冗長的驗證循環。
Snowflake 的分析結論頗為微妙。驗證量本身并不能可靠地預測成功。GLM 的幾個最嚴重的失敗案例都源于耗費大量精力驗證任務的錯誤方面,而另一類失敗則源于過早放棄任務。
盡管如此,拉馬斯瓦米對該模型的未來仍持樂觀態度。他表示,Snowflake 對 GLM-5.2 的前景“非常興奮”,并期待進一步優化 Coco 的評估工具,最終將該模型提供給客戶。
這篇文章罕見地揭示了前沿模型在基準排行榜之外的實際表現。雖然綜合得分往往是討論的焦點,但 Snowflake 的分析表明,模型達到這些得分的路徑同樣能夠揭示其優勢和劣勢。
閱讀最新前沿科技趨勢報告,請訪問21世紀關鍵技術研究院的“未來知識庫”
![]()
未來知識庫是 “21世紀關鍵技術研究院”建 立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。
截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告
(加入未來知識庫,全部資料免費閱讀和下載)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.