文 | AIDeepDive
今天,"全球大模型第一股"智譜(02513.HK)再次暴漲。
盤中漲幅一度突破30%。收盤報(bào)1282港元,全天漲幅超過26%,市值達(dá)到5715.7億港元,再度創(chuàng)下歷史新高。
![]()
觸發(fā)這場(chǎng)暴漲的,是一個(gè)具體的技術(shù)指標(biāo):400 tokens/s。
5月22日,智譜正式面向企業(yè)客戶開放 GLM-5.1 高速版 API(GLM-5.1-highspeed),最關(guān)鍵的核心參數(shù)只有一個(gè):模型輸出速度達(dá)到每秒400個(gè) token,刷新全球大模型廠商 API 速度上限。
我本來(lái)認(rèn)為這又是一次國(guó)產(chǎn)大模型的公關(guān)包裝,但仔細(xì)看了下技術(shù)細(xì)節(jié),終于理解了資本市場(chǎng)背后的邏輯。
400 tokens/s是什么概念?
模型每秒能生成大約200個(gè)漢字,相當(dāng)于一個(gè)專業(yè)作家一分鐘的高強(qiáng)度產(chǎn)出,被壓縮到了一秒鐘之內(nèi)。
一位創(chuàng)作者連續(xù)伏案數(shù)天才能寫完的文字量,GLM-5.1 高速版在1分鐘內(nèi)便能交付完畢;一名工程師埋頭3天才能完成的系統(tǒng)重構(gòu)任務(wù),它能在喝一杯咖啡的時(shí)間里跑完。
01 速度,比你想的重要
速度,歷來(lái)是 AI 模型競(jìng)爭(zhēng)中最容易被忽視的維度。
過去三年,大模型軍備競(jìng)賽集中在兩條賽道:參數(shù)規(guī)模(模型更大更聰明)和價(jià)格戰(zhàn)(Token 更便宜更普惠)。"快",從來(lái)不是主角。
這是因?yàn)椋^去的”快”通常是通過縮小模型參數(shù)來(lái)實(shí)現(xiàn)的。要提速,就必須用更小更精簡(jiǎn)的模型,代價(jià)是能力縮水。
GLM-5.1 高速版這次的意義在于,它在保留旗艦級(jí)全尺寸基座能力的同時(shí),將速度推上了400 tokens/s。
無(wú)論是從國(guó)產(chǎn)模型來(lái)說,還是從國(guó)際范圍來(lái)看,"旗艦?zāi)芰?與"極致低延遲"第一次做到了不妥協(xié)。
![]()
為什么速度如此關(guān)鍵? 因?yàn)?AI 的主戰(zhàn)場(chǎng)正在發(fā)生根本性的遷移。
當(dāng)AI從ChatBot進(jìn)入Agent時(shí)代,問答已經(jīng)不是AI的主要場(chǎng)景,而Agent要完成一個(gè)任務(wù),往往需要模型進(jìn)行數(shù)十輪甚至上百輪的自我調(diào)用:寫代碼、調(diào)接口、搜信息、調(diào)用工具……
在這種工作模式下,每一輪調(diào)用之間的延遲會(huì)被無(wú)情地累加放大。一個(gè)需要50輪調(diào)用的任務(wù),如果每次節(jié)省1秒,整個(gè)任務(wù)就快了將近1分鐘。對(duì)于 AI 編程助手、語(yǔ)音交互、商業(yè)決策系統(tǒng)來(lái)說,這種差距是可以決定生死的。
從更深層面來(lái)說,在固定時(shí)間預(yù)算內(nèi),更快的推理意味著模型可以完成更深的推理路徑、更多輪次的自我驗(yàn)證。速度,正在從系統(tǒng)指標(biāo)變成智能上限本身。
02 速度這件事,有多難?
那現(xiàn)在行業(yè)里在速度方面大概什么水平?
頭部廠商中,OpenAI 的 GPT-4o 約在100–150 tokens/s,Anthropic 的 Claude Sonnet 系列約在80–120 tokens/s,國(guó)內(nèi)主流旗艦?zāi)P?API 大多在50–100 tokens/s 區(qū)間。400 tokens/s 大約是行業(yè)平均水平的3到5倍。
更關(guān)鍵的是,這個(gè)差距并不是投入更多算力就能彌補(bǔ)的。
一臺(tái)搭載8塊 H200 顯卡的服務(wù)器,理論上每秒能搬運(yùn)高達(dá)38TB的數(shù)據(jù)。對(duì)于 GLM-5.1,單次生成一個(gè) token 只需讀取約42GB的激活參數(shù),純理論上推算,應(yīng)該能接近1000 tokens/s。
但現(xiàn)實(shí)系統(tǒng)往往只能跑出幾十 tokens/s。
![]()
這是一個(gè)數(shù)量級(jí)的鴻溝。GPU 不是不夠快,而是大量時(shí)間都被浪費(fèi)在了等待、空轉(zhuǎn)和無(wú)效調(diào)度上。
智譜這次正是在推理引擎、并行策略、網(wǎng)絡(luò)架構(gòu)三個(gè)層面同時(shí)創(chuàng)新,實(shí)現(xiàn)了對(duì)最終速度的突破。
![]()
03 三層技術(shù)疊加,逼近硬件物理極限
大模型原來(lái)是這樣運(yùn)轉(zhuǎn)的,大模型被分解成一個(gè)個(gè)獨(dú)立算子,每個(gè)算子單獨(dú)啟動(dòng)一次計(jì)算核心(kernel),計(jì)算完就停下,同步等待,再啟動(dòng)下一個(gè)。
在訓(xùn)練階段,每次計(jì)算動(dòng)輒幾秒乃至幾分鐘,這些啟動(dòng)和等待的開銷完全可以忽略。但推理時(shí),單次生成一個(gè) token,某個(gè)關(guān)鍵步驟可能只需要幾十微秒,啟動(dòng)和等待的開銷就相對(duì)變得不可忽視。
TileRT 的核心思路:把整個(gè)模型編譯成一個(gè)持續(xù)運(yùn)行的引擎,一次啟動(dòng),永不停歇。
TileRT 在代碼編譯階段提前把模型所有計(jì)算邏輯靜態(tài)展開成一條連續(xù)流水線,運(yùn)行時(shí) GPU 始終保持高速運(yùn)轉(zhuǎn),計(jì)算、數(shù)據(jù)搬運(yùn)、通信并行推進(jìn),中間結(jié)果盡量留在 GPU 內(nèi)部高速緩存里,不再反復(fù)寫回慢速顯存再重新讀取。
![]()
這里有一個(gè)關(guān)鍵的設(shè)計(jì)細(xì)節(jié):Warp 專門化。
理解 Warp,需要先理解 GPU 的工作方式。GPU 與 CPU 最大的不同,是它內(nèi)部有成千上萬(wàn)個(gè)相對(duì)簡(jiǎn)單的計(jì)算單元,這些單元以32個(gè)為一組捆綁在一起,這一組就叫 Warp。
同一個(gè) Warp 里的32個(gè)單元必須始終同步行動(dòng)、執(zhí)行同一條指令,就像軍隊(duì)里的一個(gè)班,班長(zhǎng)下令所有人同時(shí)做同一個(gè)動(dòng)作。
傳統(tǒng)框架里,所有 Warp 執(zhí)行同一套指令序列;TileRT 讓不同 Warp 組承擔(dān)不同職責(zé):一部分專門負(fù)責(zé)把下一批數(shù)據(jù)提前搬運(yùn)進(jìn)來(lái),一部分專門負(fù)責(zé)數(shù)學(xué)計(jì)算,一部分專門負(fù)責(zé)與其他 GPU 通信。三組人同時(shí)工作、流水配合,互不等待。
就好比從"一個(gè)工人搬磚、砌墻、驗(yàn)收串行干",變成了"搬磚組、砌墻組、驗(yàn)收組同時(shí)轉(zhuǎn)"。
單卡內(nèi)部的效率解決了,多卡并行又有新挑戰(zhàn)。
行業(yè)通行做法是張量并行(Tensor Parallel): 把模型的權(quán)重矩陣切分成若干份,每塊 GPU 負(fù)責(zé)其中一份,各自計(jì)算完畢后通過高速互聯(lián)(NVLink)匯總結(jié)果。
這套方案對(duì)矩陣乘法這類規(guī)整的密集計(jì)算效果很好,是目前幾乎所有大模型推理框架的標(biāo)準(zhǔn)多卡方案。
GLM-5.1 采用 **MLA(Multi-head Latent Attention,多頭潛在注意力),這是由DeepSeek 提出一種注意力機(jī)制。
傳統(tǒng)注意力機(jī)制需要把每一步計(jì)算的大量中間數(shù)據(jù)(KV Cache)完整保存下來(lái)備用,非常耗顯存;MLA 的做法是先把這些中間數(shù)據(jù)壓縮成一個(gè)緊湊的"潛在向量"存起來(lái),用的時(shí)候再展開還原,顯存需求大幅下降,推理效率更高。
但 MLA 的計(jì)算流程里有一個(gè)特殊環(huán)節(jié):需要從大量歷史信息中做稀疏索引:類似在一個(gè)巨大圖書館里先快速找出最相關(guān)的幾本書,再精讀這幾本書。
"找書"這個(gè)步驟依賴全局信息,不適合多卡平攤;"精讀"才是適合多卡并行的密集計(jì)算。如果強(qiáng)行讓所有8塊 GPU 都參與"找書",大量時(shí)間會(huì)浪費(fèi)在 GPU 之間的同步通信上。
TileRT 的解法是讓GPU異構(gòu)運(yùn)行:GPU 0 專門擔(dān)任"圖書館檢索員",負(fù)責(zé)稀疏索引和路由決策;GPU 1–7 擔(dān)任"精讀分析員",負(fù)責(zé)密集的注意力計(jì)算和矩陣運(yùn)算。兩類工作者各自采用最適合自己的并行策略協(xié)同完成整個(gè)計(jì)算層。
![]()
接下來(lái),TileRT 把 GPU 之間的通信操作也直接內(nèi)嵌進(jìn)執(zhí)行流水線,不再作為獨(dú)立步驟。對(duì)外來(lái)看,整個(gè)8卡系統(tǒng)完成一層注意力計(jì)算只需要一次內(nèi)核啟動(dòng),內(nèi)部的通信和計(jì)算全在持續(xù)流水線內(nèi)部無(wú)縫完成。
以上兩層解決的是單機(jī)范圍內(nèi)的問題。當(dāng)集群擴(kuò)展到數(shù)百乃至數(shù)千張 GPU,GPU 之間的數(shù)據(jù)傳輸本身就成了新的天花板。
行業(yè)通行做法是 ROFT(Rail-Optimized Fat-Tree),這是 NVIDIA 官方推薦方案,業(yè)界絕對(duì)標(biāo)配。
它的結(jié)構(gòu)是一棵樹:服務(wù)器先連接底層的 Leaf 交換機(jī)(接入層,直接面向服務(wù)器),Leaf 再向上連接 Spine 交換機(jī)(骨干層,負(fù)責(zé)不同 Leaf 之間的互聯(lián),如同高速公路樞紐)。數(shù)據(jù)在兩臺(tái) GPU 之間傳輸,必須"先上行到 Spine,再下行到目標(biāo) Leaf",至少經(jīng)過3跳。
為了避免流量集中在少數(shù)鏈路上,這套架構(gòu)依賴 ECMP 算法讓數(shù)據(jù)在多條路徑之間分配,在互聯(lián)網(wǎng)流量"統(tǒng)計(jì)均勻"的前提下運(yùn)轉(zhuǎn)良好。
但推理場(chǎng)景的流量完全不均勻。不同請(qǐng)求的上下文長(zhǎng)度差異可達(dá)數(shù)十倍,GPU 之間 KV Cache 的傳輸方向幾乎隨機(jī),某幾臺(tái) Leaf 交換機(jī)會(huì)周期性地成為熱點(diǎn),觸發(fā)反壓機(jī)制,把擁塞從局部擴(kuò)散到全鏈路。這種擁塞不是協(xié)議調(diào)參能解決的,是拓?fù)浣Y(jié)構(gòu)本身的產(chǎn)物。
![]()
ZCube 的根本突破:從架構(gòu)層面讓這類擁塞在物理上無(wú)法發(fā)生。
核心設(shè)計(jì)分兩步:
第一步,取消 Spine 骨干層,全網(wǎng)扁平化。把所有 Leaf 交換機(jī)按奇偶編號(hào)分成兩組,兩組之間完全互聯(lián),任意一臺(tái)奇數(shù)交換機(jī)連接所有偶數(shù)交換機(jī),反之亦然。任意兩臺(tái) GPU 之間最多經(jīng)過兩臺(tái)交換機(jī)即可互達(dá),跳數(shù)從3跳降到2跳。
![]()
第二步,也是最精妙的地方:每張 GPU 網(wǎng)卡用兩種截然不同的方式分別接入兩組交換機(jī)。這種特殊拓?fù)鋷?lái)一個(gè)關(guān)鍵的數(shù)學(xué)性質(zhì):全網(wǎng)任意兩張 GPU 之間,有且僅有一條最優(yōu)路徑。
![]()
"唯一路徑"直接消除了擁塞的根源。傳統(tǒng)架構(gòu)容易出現(xiàn)熱點(diǎn),恰恰是因?yàn)橛卸鄺l路徑可選,負(fù)載均衡算法選錯(cuò)了就會(huì)導(dǎo)致流量集中。ZCube 在設(shè)計(jì)上消除了"選擇"這件事本身:不需要均衡,因?yàn)楦緵]有岔路。
04 同樣的硬件條件下,賬怎么算?
智譜將 GLM-5.1 生產(chǎn)集群從傳統(tǒng) ROFT 升級(jí)到 ZCube 后,得到三個(gè)數(shù)字:
總結(jié)來(lái)說的話,同樣的 GPU 投入,集群可以服務(wù)更多用戶;同樣的用戶體驗(yàn)要求,集群可以少買三分之一的網(wǎng)絡(luò)設(shè)備。效率與成本雙向改善。
![]()
具體來(lái)說,吞吐提升15%,等于免費(fèi)多出15%的算力。 在GPU數(shù)量不變的情況下,吞吐多15%,等價(jià)于每個(gè) token 的均攤硬件成本下降約13%,或者說相同成本可以多服務(wù)15%的用戶。
如果一個(gè)集群有1000張 GPU,這次升級(jí)相當(dāng)于憑空多出了150張卡的產(chǎn)能,按當(dāng)前高端推理卡市價(jià),這是數(shù)億元量級(jí)的算力價(jià)值。
尾延遲下降40.6%,解決的是穩(wěn)定性而非平均速度。 一個(gè)需要50輪調(diào)用的 Agent 任務(wù),如果尾延遲每次減少1秒,整個(gè)任務(wù)的最壞完成時(shí)間就壓縮了將近1分鐘。
成本減少三分之一,是建設(shè)層面的直接節(jié)省。 ZCube 取消了 Spine 層,相同集群規(guī)模下所需交換機(jī)和光模塊數(shù)量直接減少三分之一。據(jù)智譜測(cè)算,在萬(wàn)卡規(guī)模集群中,僅此一項(xiàng)可節(jié)省約2.1億至6.4億元。
從長(zhǎng)遠(yuǎn)來(lái)看,隨著集群規(guī)模指數(shù)級(jí)加劇,GPU 間通信的復(fù)雜度增長(zhǎng)數(shù)倍,擁塞的概率和影響也同步放大。這意味著 ZCube 這類架構(gòu)級(jí)創(chuàng)新的價(jià)值,會(huì)隨著推理集群的持續(xù)擴(kuò)張而加速顯現(xiàn)。明天萬(wàn)卡級(jí)別的集群收益可能不止今天這15%。
05 寫在最后
看完智譜的技術(shù)報(bào)告,我在想,這是否會(huì)像DeepSeek橫空出世一樣,給行業(yè)帶來(lái)一場(chǎng)風(fēng)暴?
仔細(xì)想想,兩者的影響好像在不同的方面。DeepSeek 出來(lái)的時(shí)候,它證明的是,同樣的智能,可以用少得多的算力實(shí)現(xiàn)。市場(chǎng)擔(dān)心"需要的 GPU 變少了",所以英偉達(dá)當(dāng)天市值蒸發(fā)近6000億美元。
但今天智譜的技術(shù)證明:同樣的算力,可以產(chǎn)出更多。它是在重構(gòu)"GPU 之外,其他基礎(chǔ)設(shè)施應(yīng)該長(zhǎng)什么樣"。
短期來(lái)看,英偉達(dá)不會(huì)受到影響,但從長(zhǎng)期來(lái)看,GPU + NVLink 互聯(lián) + InfiniBand 網(wǎng)絡(luò) + CUDA 軟件生態(tài)的護(hù)城河正在被“松土”,特別是英偉達(dá) 2019 年花 69 億美元收購(gòu) Mellanox 買下的 InfiniBand,英偉達(dá)網(wǎng)絡(luò)側(cè)的溢價(jià)會(huì)被大幅侵蝕。
此外,ZCube 取消了 Spine 層,但它對(duì) Leaf 交換機(jī)的端口密度要求反而更高。受益的是能做高密度、大端口 Leaf 交換機(jī)的廠商(銳捷、Arista、博通交換芯片),受損的是主要依賴 Spine 層高端交換機(jī)吃溢價(jià)的廠商。
2025年 Celestica 和英偉達(dá)合計(jì)占據(jù)約 50% 的 AI 后端網(wǎng)絡(luò)交換機(jī)市場(chǎng)份額,這個(gè)格局在 ZCube 范式擴(kuò)散后會(huì)面臨重新洗牌。
光模塊是這次產(chǎn)業(yè)鏈變化里最直接的受益方向,邏輯非常清晰。對(duì)國(guó)內(nèi)光模塊廠商(中際旭創(chuàng)、天孚通信等)來(lái)說,這是一個(gè)結(jié)構(gòu)性利好:不僅總量在漲,而且 ZCube 范式下對(duì)高速光模塊(800G、1.6T)的需求比傳統(tǒng)架構(gòu)更加集中和迫切。
無(wú)論是TileRT還是ZCube 架構(gòu),這是一套運(yùn)行在標(biāo)準(zhǔn) GPU 之上的純軟件推理引擎,不依賴英偉達(dá)私有的硬件特性,理論上可以移植到華為昇騰等國(guó)產(chǎn)芯片上。這個(gè)方向一旦走通,會(huì)大幅降低國(guó)產(chǎn) AI 芯片在推理場(chǎng)景的軟件棧門檻。
這或許才是這個(gè)技術(shù)創(chuàng)新背后更大的意義所在。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.