亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Claude Opus 4.6 一天之內(nèi)被超越兩次,這次來(lái)自國(guó)產(chǎn)模型

0
分享至


前兩天 APPSO 提到,大模型即將迎來(lái)史上最殘酷的一個(gè)月,這就來(lái)了。

而Claude Opus 4.6 「不幸」成為背景板,一天之內(nèi)被超越兩次。

早上 Anthropic 發(fā)布了 Claude Mythos Preview,在 SWE-bench Pro 上拿下 77.8%,把 Opus 4.6 的 57.3% 甩在身后。這個(gè)分?jǐn)?shù)意味著它能在真實(shí) GitHub 倉(cāng)庫(kù)里定位并修復(fù)高難度工程 Bug,已經(jīng)超過(guò)了絕大多數(shù)人類(lèi)程序員。

可 Mythos Preview 暫時(shí)不對(duì)普通用戶(hù)開(kāi)放,與此同時(shí),另外一個(gè)超 Opus 4.6 的模型出現(xiàn)了——智譜開(kāi)源了 GLM-5.1。


GLM-5.1 SWE-bench Pro 得分 58.4%,超過(guò) Opus 4.6 的 57.3%,也超過(guò) GPT-5.4 的 57.7%。HuggingFace CEO Clement Delangue 也發(fā)推祝賀:「SWE-Bench Pro 上表現(xiàn)最好的模型現(xiàn)在在 HuggingFace 上開(kāi)源了!歡迎 GLM 5.1!」


全球第三,開(kāi)源第一。雖然沒(méi)等來(lái) DeepSeek V4,但開(kāi)源新一哥還是來(lái)了,依然是咱們國(guó)產(chǎn)大模型。

說(shuō)實(shí)話,我第一反應(yīng)是又來(lái)了,大模型的「榜單狂歡」,每次發(fā)布會(huì)都是「史詩(shī)級(jí)進(jìn)步」,各家模型在榜單上各領(lǐng)風(fēng)數(shù)小時(shí),這次的劇本有什么不同呢。

APPSO 看完 GLM-5.1 的技術(shù)細(xì)節(jié)和體驗(yàn)后,帶你看看這個(gè)模型是什么水平

從 20 步到 1700 步,持續(xù)工作 8 小時(shí)

GLM-5.1 最讓人沒(méi)想到的,不是跑分,是它能工作多久。

智譜有個(gè)一個(gè)案例讓我印象比較深。8 小時(shí)從零構(gòu)建 Linux 桌面系統(tǒng)。不是寫(xiě)幾個(gè) demo 文件那種「構(gòu)建」,是真的從零開(kāi)始,畫(huà)架構(gòu)、寫(xiě)代碼、跑測(cè)試、修 bug,歷時(shí) 8 小時(shí)整,執(zhí)行了 1200 多步,最后產(chǎn)出了一套功能完善的 Linux 桌面系統(tǒng)。


包括完整的桌面、窗口管理器、狀態(tài)欄、應(yīng)用程序、VPN 管理器、中文字體支持、游戲庫(kù),4.8MB 的配套文件。這相當(dāng)于一個(gè) 4 人團(tuán)隊(duì)一周的工作量。

全程沒(méi)有人參與測(cè)試、審查代碼。GLM-5.1 甚至給自己的代碼寫(xiě)了回歸測(cè)試,而且跑過(guò)了。

知乎程序員博主 Toyama nao 做了個(gè)更狠的測(cè)試。他給 GLM-5.1 扔了三個(gè)工程項(xiàng)目:用 Swift 寫(xiě) macOS 的 OpenGL 渲染器、用 Flutter 開(kāi)發(fā)全功能聊天軟件同時(shí)用 Golang 開(kāi)發(fā)服務(wù)端、自選技術(shù)棧開(kāi)發(fā)純網(wǎng)頁(yè)端視頻剪輯應(yīng)用。每個(gè)項(xiàng)目跑 10-12 輪提示詞,每輪 1500-2000 字。

結(jié)果 GLM-5.1 成為第一個(gè)通過(guò)他全部測(cè)試工程的國(guó)產(chǎn)模型,也是第一個(gè)正式超越 Sonnet 4.5 Thinking 的國(guó)產(chǎn)模型。


他的評(píng)價(jià)是:「GLM-5.1 大幅擴(kuò)展了編程的適應(yīng)范圍,不再是前端 only 戰(zhàn)神,也不只是 oneshot 樣子貨,是可以在復(fù)雜工況下充當(dāng)編程主力。」但他也指出了問(wèn)題:「超長(zhǎng)上下文時(shí)容易幻覺(jué)爆炸,如果遇到 2 輪改不好一個(gè)問(wèn)題,不要抱有僥幸,直接重開(kāi)?!?/p>

去年年底,AI 智能體大約只能完成 20 個(gè)步驟。GLM-5.1 現(xiàn)在可以完成 1700 個(gè)步驟。這是模型能不能真正「獨(dú)立工作」的分水嶺。

智譜在技術(shù)報(bào)告里解釋了關(guān)鍵突破點(diǎn):以前的模型,包括 GLM-5,會(huì)在早期快速取得收益后就進(jìn)入瓶頸期。它們反復(fù)嘗試已知的優(yōu)化手段,但無(wú)法在一條路走不通時(shí)主動(dòng)切換策略。

GLM-5.1 的訓(xùn)練目標(biāo)就是突破這個(gè)瓶頸,讓模型能夠在一個(gè)固定策略?xún)?nèi)進(jìn)行增量調(diào)優(yōu),當(dāng)收益趨于停滯時(shí),主動(dòng)分析 Benchmark 日志、定位當(dāng)前瓶頸,然后跳轉(zhuǎn)到結(jié)構(gòu)性不同的方案。

向量數(shù)據(jù)庫(kù)優(yōu)化案例就是典型的「階梯型」優(yōu)化軌跡。GLM-5.1 用了 655 次迭代,把查詢(xún)吞吐從 3108 QPS 一路推到 21472 QPS,提升了 6.9 倍。


這個(gè)過(guò)程中,模型自己完成了從全庫(kù)掃描切到 IVF 分桶召回、引入半精度壓縮、加入量化粗排、做兩級(jí)路由,再到提前剪枝的整套優(yōu)化鏈條。每一次跳躍都伴隨著短暫的 Recall 下降,因?yàn)槟P驮谔剿餍路较驎r(shí)會(huì)暫時(shí)打破約束,隨后再調(diào)回來(lái)。這個(gè)「打破-修復(fù)」的循環(huán)本身就是有效優(yōu)化的標(biāo)志。

在 KernelBench Level 3 優(yōu)化基準(zhǔn)上,GLM-5.1 對(duì) 50 個(gè)真實(shí)機(jī)器學(xué)習(xí)計(jì)算負(fù)載進(jìn)行了超過(guò) 24 小時(shí)的不間斷迭代,最終取得 3.6 倍的幾何平均加速比,顯著高于 torch.compile max-autotune 模式的 1.49 倍。模型自主編寫(xiě)定制 Triton Kernel 和 CUDA Kernel,運(yùn)用 cuBLASLt epilogue 融合并實(shí)施 shared memory tiling 與 CUDA Graph 優(yōu)化,覆蓋了從高層算子融合到微架構(gòu)級(jí)調(diào)優(yōu)的完整技術(shù)棧。


還有一個(gè)更有意思的測(cè)試:Vending Bench 2。這個(gè)基準(zhǔn)要求模型模擬經(jīng)營(yíng)一年的自動(dòng)售貨機(jī)業(yè)務(wù),需要長(zhǎng)期規(guī)劃和資源管理。GLM-5.1 最終賬戶(hù)余額達(dá)到 $4,432,在開(kāi)源模型中排名第一,接近 Claude Opus 4.5 的水平。

744B 參數(shù),零英偉達(dá)芯片,成本降低 97%

GLM-5.1 的技術(shù)規(guī)格值得細(xì)看:744B 參數(shù)的混合專(zhuān)家模型(MoE),每個(gè) token 激活 40B 參數(shù),28.5T tokens 訓(xùn)練數(shù)據(jù),集成了 DeepSeek Sparse Attention(DSA)來(lái)降低部署成本同時(shí)保持長(zhǎng)上下文能力。200K 上下文窗口,最大輸出 131,072 tokens。

更關(guān)鍵的是,整個(gè)模型全部使用華為昇騰 910B 芯片訓(xùn)練,沒(méi)有英偉達(dá) GPU 參與。在算力被卡脖子的情況下,國(guó)產(chǎn)模型依然能做到全球第三、開(kāi)源第一。

開(kāi)發(fā)者 Beau Johnson 把自己部署的 OpenClaw 背后的模型從 Claude Opus 4.6 切換到 GLM-5.1,體驗(yàn)上沒(méi)有任何差別,但成本從 1000 美元暴砍至 30 美元左右,降低了 97%。GLM-5.1 的輸入成本是 Claude Opus 的 1/5,輸出成本是 1/8。簡(jiǎn)單來(lái)說(shuō):接近 Opus 的能力,20% 的價(jià)格。


而且GLM-5.1 是開(kāi)源的。MIT License,最寬松的開(kāi)源許可證之一。你可以拿去改,拿去商用,拿去做任何事。支持 vLLM、SGLang、xLLM 等主流推理框架,可以直接在本地部署。

當(dāng)然 GLM-5.1 也不是沒(méi)有提升的空間,部分開(kāi)發(fā)者反饋,GLM-5.1 的推理速度只有 44.3 tokens/秒,在同類(lèi)產(chǎn)品沒(méi)太大優(yōu)勢(shì)。復(fù)雜任務(wù)甚至要一小時(shí)起步,哪怕 Pro 套餐額度是 Claude 的 15 倍,也可能不太夠用。

這些問(wèn)題都是真實(shí)存在的。GLM-5.1 不是完美的,但這不妨礙它成為一個(gè)里程碑。

GLM-5.1 的意義,不在于它比 Opus 4.6 強(qiáng)多少,而在于它證明了,在算力被卡脖子的情況下,國(guó)產(chǎn)模型依然能做到開(kāi)源第一。而且它是開(kāi)源的,任何人都可以用,任何人都可以改。

你睡覺(jué)的 8 小時(shí),現(xiàn)在可以是 AI 上班的 8 小時(shí)了。而且這個(gè) AI ,是開(kāi)源的,是國(guó)產(chǎn)的,是任何人都可以用的。

附體驗(yàn)方式

1. 官方API接入
- BigModel 開(kāi)放平臺(tái):https://docs.bigmodel.cn/cn/guide/models/text/glm-5.1
- Z.ai:https://docs.z.ai/guides/llm/glm-5.1

2. 產(chǎn)品體驗(yàn)
- GLM-5.1即將登陸Z.ai:https://chat.z.ai

3. 開(kāi)源鏈接
- GitHub:https://github.com/zai-org/GLM-5
- Hugging Face:https://huggingface.co/zai-org/GLM-5.1
- ModelScope:https://modelscope.cn/models/ZhipuAI/GLM-5.1

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
為啥有錢(qián)人屋檐難見(jiàn)燕子?老輩人說(shuō):燕子來(lái)家,是在提醒你3件事

為啥有錢(qián)人屋檐難見(jiàn)燕子?老輩人說(shuō):燕子來(lái)家,是在提醒你3件事

老特有話說(shuō)
2026-04-13 14:45:52
許世友下葬后,王震用拐杖指著參加葬禮的老將們:可千萬(wàn)不能學(xué)他

許世友下葬后,王震用拐杖指著參加葬禮的老將們:可千萬(wàn)不能學(xué)他

云霄紀(jì)史觀
2026-04-15 22:40:30
吳向飛回應(yīng)李榮浩公開(kāi)表演《路一直都在》侵權(quán)

吳向飛回應(yīng)李榮浩公開(kāi)表演《路一直都在》侵權(quán)

大象新聞
2026-04-15 20:05:04
車(chē)圈恒大從經(jīng)銷(xiāo)商開(kāi)始,但車(chē)企未必獨(dú)善其身,電車(chē)失速的代價(jià)!

車(chē)圈恒大從經(jīng)銷(xiāo)商開(kāi)始,但車(chē)企未必獨(dú)善其身,電車(chē)失速的代價(jià)!

柏銘銳談
2026-04-15 23:58:04
字節(jié)押注的網(wǎng)紅牙膏,沖到行業(yè)第三了

字節(jié)押注的網(wǎng)紅牙膏,沖到行業(yè)第三了

DT商業(yè)觀察
2026-04-15 11:58:55
新北選情徹底反轉(zhuǎn)!李四川優(yōu)勢(shì)蕩然無(wú)存,侯友宜竟成最大包袱?

新北選情徹底反轉(zhuǎn)!李四川優(yōu)勢(shì)蕩然無(wú)存,侯友宜竟成最大包袱?

米果說(shuō)識(shí)
2026-04-15 11:31:57
拜仁vs皇馬前瞻:皇馬兩大將缺席 拜仁主場(chǎng)反擊戰(zhàn)可不敗晉級(jí)

拜仁vs皇馬前瞻:皇馬兩大將缺席 拜仁主場(chǎng)反擊戰(zhàn)可不敗晉級(jí)

智道足球
2026-04-15 12:45:14
若中國(guó)挖出世界第一大油田,全球格局一夜變天!復(fù)興之路誰(shuí)能擋?

若中國(guó)挖出世界第一大油田,全球格局一夜變天!復(fù)興之路誰(shuí)能擋?

幾人盡棄
2026-04-14 08:36:22
婆婆給兒媳吃剩菜后續(xù):吃塊排骨被罵,親媽到場(chǎng)撐腰,結(jié)局太解氣

婆婆給兒媳吃剩菜后續(xù):吃塊排骨被罵,親媽到場(chǎng)撐腰,結(jié)局太解氣

離離言幾許
2026-04-13 16:55:48
演員朱珠疑似塌房?照片流出,驚呆網(wǎng)友!

演員朱珠疑似塌房?照片流出,驚呆網(wǎng)友!

大眼妹妹
2025-12-15 10:39:19
突發(fā)!協(xié)議即將達(dá)成,28國(guó)聯(lián)手對(duì)付中國(guó),名單公布沒(méi)一個(gè)是善茬

突發(fā)!協(xié)議即將達(dá)成,28國(guó)聯(lián)手對(duì)付中國(guó),名單公布沒(méi)一個(gè)是善茬

玲兒愛(ài)唱歌
2026-04-16 00:22:50
2.4萬(wàn)億元,一個(gè)人怎么能闖出這么大的禍…

2.4萬(wàn)億元,一個(gè)人怎么能闖出這么大的禍…

蔥哥說(shuō)
2026-04-14 22:04:16
福建艦傳來(lái)重大喜訊,央視證實(shí):2026年內(nèi)將完全形成戰(zhàn)斗力

福建艦傳來(lái)重大喜訊,央視證實(shí):2026年內(nèi)將完全形成戰(zhàn)斗力

阿龍聊軍事
2026-04-13 18:31:05
Lululemon被調(diào)查,“或引發(fā)癌癥、不孕不育”,緊急回應(yīng)來(lái)了

Lululemon被調(diào)查,“或引發(fā)癌癥、不孕不育”,緊急回應(yīng)來(lái)了

澎湃新聞
2026-04-15 01:03:02
內(nèi)線有人了!前CBA外援拉科塞維奇自宣加盟廣東宏遠(yuǎn)

內(nèi)線有人了!前CBA外援拉科塞維奇自宣加盟廣東宏遠(yuǎn)

懂球帝
2026-04-15 23:35:06
今天才知道,為啥鵝蛋很少有人吃?為啥賣(mài)鵝蛋的人很少?漲知識(shí)

今天才知道,為啥鵝蛋很少有人吃?為啥賣(mài)鵝蛋的人很少?漲知識(shí)

阿龍美食記
2026-04-12 15:01:18
1969年中蘇沖突,朝鮮企圖跨過(guò)鴨綠江,毛主席:一招搞定!

1969年中蘇沖突,朝鮮企圖跨過(guò)鴨綠江,毛主席:一招搞定!

小莜讀史
2026-04-04 21:56:55
一場(chǎng)87:70讓前8格局再次大亂!青島遭晴天霹靂,遼寧機(jī)會(huì)又來(lái)了

一場(chǎng)87:70讓前8格局再次大亂!青島遭晴天霹靂,遼寧機(jī)會(huì)又來(lái)了

后仰大風(fēng)車(chē)
2026-04-15 07:35:05
當(dāng)年害得游戲廳倒閉的罪魁禍?zhǔn)?,麻將BUG的使用者早已不在人世

當(dāng)年害得游戲廳倒閉的罪魁禍?zhǔn)?,麻將BUG的使用者早已不在人世

小怪吃美食
2026-04-11 00:12:11
“狡黠”不讀jiǎo jié!也不讀jiǎo xié,別再錯(cuò),丟不起那人!

“狡黠”不讀jiǎo jié!也不讀jiǎo xié,別再錯(cuò),丟不起那人!

未央看點(diǎn)
2026-04-10 00:09:12
2026-04-16 02:20:49
愛(ài)范兒 incentive-icons
愛(ài)范兒
消費(fèi)科技第一媒體
38700文章數(shù) 2601483關(guān)注度
往期回顧 全部

科技要聞

ChatGPT十億用戶(hù)又怎樣?Anthropic直接貼臉

頭條要聞

法國(guó)全票通過(guò) “將不義之財(cái)歸還中國(guó)”

頭條要聞

法國(guó)全票通過(guò) “將不義之財(cái)歸還中國(guó)”

體育要聞

三球準(zhǔn)絕殺戴大金鏈:轟30+10自我救贖

娛樂(lè)要聞

謝娜現(xiàn)身環(huán)球影城,牽手女兒溫馨有愛(ài)

財(cái)經(jīng)要聞

業(yè)績(jī)失速的Lululemon:"健康"人設(shè)崩塌?

汽車(chē)要聞

空間絲毫不用妥協(xié) 小鵬GX首發(fā)評(píng)測(cè)

態(tài)度原創(chuàng)

游戲
家居
健康
教育
時(shí)尚

萍萍、浩浩媽新作眾籌超原目標(biāo)2500%!想沖的人太多

家居要聞

簡(jiǎn)而不減 暖居之道

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

教育要聞

黃岡小升初招生題,求面積,方法思路太絕了

赫本愛(ài)穿的傘裙,好優(yōu)雅!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版