无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Snowflake 首席執行官 Sridhar Ramaswamy 分享了中國和美國頂級大模型的對比情況

0
分享至


來源:https://officechai.com/ai/snowflake-ceo-sridhar-ramaswamy-shares-detailed-post-comparing-opus-4-7-and-glm-5-2/

Z.ai 的GLM 5.2近日爆紅網絡,但一位高管分享了該模型與另一款前沿模型的比較情況。

Snowflake 首席執行官 Sridhar Ramaswamy發布了一份詳細的分析報告,對比了 Z.ai 的 GLM-5.2 和 Anthropic 的 Claude Opus 4.7 在 dbt-bench 上的表現。dbt-bench 是一個用于評估人工智能模型在數據轉換和分析工程任務中表現的基準測試工具。研究結果表明,雖然這兩個模型最終的總體成功率幾乎相同,但它們實現成功的方式卻截然不同。


這項分析來自 Snowflake 的 Coco 團隊,他們使用兩種模型分別進行了 103 項辯證行為療法 (DBT) 任務,每項任務均進行了三次試驗。主要數據顯示,兩者的成績幾乎不相上下。GLM-5.2 的 Pass@3 得分為 66%,而 Opus 4.7 為 67%。然而,在首次嘗試階段,Opus 的優勢更為明顯,Pass@1 得分為 53.7%,而 GLM 為 47.6%。

值得注意的是,GLM-5.2作為一款開源模型,近幾周來表現出色,引起了廣泛關注。今年早些時候,中國的GLM模型家族就已經開始在編程排行榜上嶄露頭角,GLM-5.1更是成為Code Arena上排名最高的開源模型之一。

Ramaswamy指出,這些模型之間最大的區別之一在于它們處理任務的方式。GLM完成任務所需的輪數明顯更多,平均為99輪,而Opus平均為80輪。此外,GLM執行相關的工具調用次數也更多,平均每次試驗40次,而Opus平均每次試驗29次。

這種差異體現在代幣消耗上。在基準測試運行中,GLM 使用了 8.6 億個計費代幣,而 Opus 僅使用了 4.39 億個。Snowflake 團隊將此歸因于對話輪次更多、原子 API 調用更多以及提示緩存重用率更低等因素的綜合作用。

人們普遍認為 GLM 的驗證工作更加徹底,但數據僅部分支持這一觀點。研究發現,GLM 的驗證方式不同,而非驗證內容更深入。它通常一次執行一條 SQL 檢查,而 Opus 則會將類似的檢查捆綁在一起。雖然兩種模型最終覆蓋的范圍相似,但它們的底層工作流程卻截然不同。

研究結果也挑戰了另一個常見的假設:更嚴格的驗證必然會帶來更好的結果。盡管 GLM 傾向于執行更多檢查,但 Opus 在 Pass@1 指標上仍然領先 6 個百分點。正如 Ramaswamy 所說,“更多驗證 ≠ 更正確”。

GLM 在跨平臺驗證方面展現出了明顯的優勢。該基準測試要求解決方案能夠同時在 DuckDB 和 Snowflake 上運行。Snowflake 團隊發現,GLM 在針對這兩個目標進行驗證時表現得更加穩定,這解釋了 GLM 成功解決而 Opus 未能解決的幾個任務。

該帖子還重點指出了兩種反復出現的故障模式。在某些情況下,GLM模型由于無法從現有信息中推斷出解決方案路徑而過早放棄。團隊舉例說明的一個任務中,該模型在22個回合中執行了5次文件讀取操作,但在停止前從未嘗試過寫入操作。

在其他任務中則出現了相反的問題。例如,GLM 在 24 分鐘內進行了 411 次工具調用,以全面檢查行數、分布、空值、列類型和平臺一致性。但三次嘗試均以失敗告終。而 Opus 僅用 9 分鐘就完成了同樣的任務,調用次數僅為 49 次。

有趣的是,“GLM 使用的調用次數是其他模型的兩倍”這種說法其實有些誤導。在兩個模型都能成功完成的任務中,GLM 的調用次數僅比其他模型多約 17%。較大的差距主要出現在一些復雜的邊界情況中,在這些情況下,模型會進入冗長的驗證循環。

Snowflake 的分析結論頗為微妙。驗證量本身并不能可靠地預測成功。GLM 的幾個最嚴重的失敗案例都源于耗費大量精力驗證任務的錯誤方面,而另一類失敗則源于過早放棄任務。

盡管如此,拉馬斯瓦米對該模型的未來仍持樂觀態度。他表示,Snowflake 對 GLM-5.2 的前景“非常興奮”,并期待進一步優化 Coco 的評估工具,最終將該模型提供給客戶。

這篇文章罕見地揭示了前沿模型在基準排行榜之外的實際表現。雖然綜合得分往往是討論的焦點,但 Snowflake 的分析表明,模型達到這些得分的路徑同樣能夠揭示其優勢和劣勢。

閱讀最新前沿科技趨勢報告,請訪問21世紀關鍵技術研究院的“未來知識庫”


未來知識庫是 “21世紀關鍵技術研究院”建 立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告

(加入未來知識庫,全部資料免費閱讀和下載)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中足聯官宣重磅罰單!52歲于根偉禁賽5場罰5萬 辱罵+率隊圍堵裁判

中足聯官宣重磅罰單!52歲于根偉禁賽5場罰5萬 辱罵+率隊圍堵裁判

我愛英超
2026-07-02 22:05:30
早上7點 世界杯14億大戰!C羅深陷20年魔咒 必有1巨星出局

早上7點 世界杯14億大戰!C羅深陷20年魔咒 必有1巨星出局

葉青足球世界
2026-07-02 17:12:02
一路走好!1天時間4位名人被曝去世,最大78歲,最小才30歲

一路走好!1天時間4位名人被曝去世,最大78歲,最小才30歲

借你一生
2026-07-02 10:26:03
成田機場的一張廣告牌,讓日本攝影師恍惚:“瞬間以為回到了中國”

成田機場的一張廣告牌,讓日本攝影師恍惚:“瞬間以為回到了中國”

東京在線
2026-07-02 16:57:07
里子面子都丟了!管不住下半身的任素汐,一場演唱會撕下她的體面

里子面子都丟了!管不住下半身的任素汐,一場演唱會撕下她的體面

往史過眼云煙
2026-07-02 09:55:26
首都保衛戰打響后,普京發表全國講話,俄羅斯對美西方發出通牒

首都保衛戰打響后,普京發表全國講話,俄羅斯對美西方發出通牒

策前論
2026-07-02 17:21:49
“一個月600塊你要餓死他?”大學男生吃飯被偷拍,看的人心疼!

“一個月600塊你要餓死他?”大學男生吃飯被偷拍,看的人心疼!

林林先生
2026-07-01 12:30:03
從699分到愛心接力:少年向上 社會向善丨中聽

從699分到愛心接力:少年向上 社會向善丨中聽

大象新聞
2026-07-01 16:30:12
六代機,就這么明晃晃的官宣了!

六代機,就這么明晃晃的官宣了!

新動察
2026-07-02 08:25:58
韓紅一句“走個面兒”引全網聲討,這屆觀眾不伺候了

韓紅一句“走個面兒”引全網聲討,這屆觀眾不伺候了

可達鴨面面觀
2026-07-02 19:44:03
曝38歲德國主帥下課 足協開會3小時要求他辭職 愿付700萬歐補償金

曝38歲德國主帥下課 足協開會3小時要求他辭職 愿付700萬歐補償金

我愛英超
2026-07-02 21:40:07
80%變0!里奇·保羅曝光詹姆斯離湖心路

80%變0!里奇·保羅曝光詹姆斯離湖心路

籃壇第一線
2026-07-02 00:47:17
地鐵吐血女孩半月內多次收到病危通知單,當事人:自己的生命已經進入倒計時,但還是希望能夠有人關注到自己手里仍在運行的公益項目

地鐵吐血女孩半月內多次收到病危通知單,當事人:自己的生命已經進入倒計時,但還是希望能夠有人關注到自己手里仍在運行的公益項目

瀟湘晨報
2026-07-02 16:32:20
賈玲直言自己又活過來了,大方承認體重反彈了,坦言不再逼自己極端自律,活得太通透了

賈玲直言自己又活過來了,大方承認體重反彈了,坦言不再逼自己極端自律,活得太通透了

背包旅行
2026-07-02 11:45:23
西安賽格墜樓熱搜刷屏:我看到謀生的嚴總,走上絕路時的無助

西安賽格墜樓熱搜刷屏:我看到謀生的嚴總,走上絕路時的無助

李晚書
2026-07-02 18:44:26
故意剝奪伊朗隊勝利!伊朗裔美國專家起訴國際足聯,索賠10億美元

故意剝奪伊朗隊勝利!伊朗裔美國專家起訴國際足聯,索賠10億美元

全景體育V
2026-07-02 21:38:20
成都一女子不洗手抱孫子,兒媳怒斥不衛生,兒子一拳打面中,母親揚言要兒子坐牢,兒子卻說:她活該!6年后現狀曝光...

成都一女子不洗手抱孫子,兒媳怒斥不衛生,兒子一拳打面中,母親揚言要兒子坐牢,兒子卻說:她活該!6年后現狀曝光...

背包旅行
2026-07-02 14:33:11
中國臺灣演員陳昊森承認與湖北女演員蘭西雅相戀,目前已交往超過半年,兩人曾合作電影

中國臺灣演員陳昊森承認與湖北女演員蘭西雅相戀,目前已交往超過半年,兩人曾合作電影

極目新聞
2026-07-02 22:47:55
加息,突變!美國重磅數據出爐!美股、黃金、比特幣全線拉升

加息,突變!美國重磅數據出爐!美股、黃金、比特幣全線拉升

證券時報
2026-07-02 21:53:03
扎哈羅娃:馮德萊恩是個“出色的騙子”

扎哈羅娃:馮德萊恩是個“出色的騙子”

參考消息
2026-07-02 14:14:08
2026-07-03 02:28:49
人工智能學家 incentive-icons
人工智能學家
人工智能領域權威媒體
4864文章數 37483關注度
往期回顧 全部

科技要聞

馬斯克不承認,但SpaceX就該造AI手機

頭條要聞

商戶在西安賽格商場墜亡 好友:他曾變賣門店發工資

頭條要聞

商戶在西安賽格商場墜亡 好友:他曾變賣門店發工資

體育要聞

韓國人,為什么恨透了洪明甫?

娛樂要聞

眾星祝福祖國,曾沛慈原形畢露?

財經要聞

千億茶市場無贏家:瀾滄巨虧 八馬停"蹄"

汽車要聞

有純電有增程 還有二代VLA支持 小鵬MONA L03預售價14.38萬起

態度原創

教育
時尚
家居
數碼
軍事航空

教育要聞

初二期末只在校內第120名、第125名,四年后在全省站到了狀元榜眼

這個夏天,你一定吃過她們的瓜

家居要聞

傳奇筑 日常詩

數碼要聞

卓威同步發布XQ2766X顯示器:27" QHD 360Hz TN

軍事要聞

美軍“航母殺手”首次公開 此前從未展示

無障礙瀏覽 進入關懷版