金磊 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
AI啊,你這速度簡直是在噴射啊!
仔細(xì)看,千萬別眨眼:
![]()
視頻地址:
https://mp.weixin.qq.com/s/Wn1-SzjpEkQLTyZnJKDRwg
這么多的代碼,直接就是“啪的一下”噴出來的感覺。
之前AI寫代碼像CPU渲圖一樣,是一點(diǎn)一點(diǎn)打出來;但這個(gè)AI寫代碼,更像GPU:
![]()
這么快生成的代碼,能好用嗎?
答案是可以的:
![]()
這就是智譜剛剛新出的高速版API——GLM-5.1-highspeed。
按照官方的說法,這個(gè)旗艦版模型的API,是目前頂流模型里最快的,已經(jīng)達(dá)到了400 tokens/s!
![]()
而且這個(gè)GLM-5.1啊,雖然已經(jīng)出了一個(gè)多月了,但現(xiàn)在還是開源模型里Coding最強(qiáng)的那一個(gè):
![]()
那么接下來,老規(guī)矩,一波實(shí)測走起~
一手實(shí)測GLM-5.1-highspeed
AI寫代碼像開了倍速
我們先來做一個(gè)比開頭更加復(fù)雜的例子,Prompt是這樣的:
做一個(gè)網(wǎng)頁,畫面中心是一個(gè)會(huì)呼吸的星云;用戶點(diǎn)擊播放后,粒子會(huì)隨著模擬音頻節(jié)奏擴(kuò)散、聚合、變色;旁邊還要有幾個(gè)可調(diào)參數(shù),比如速度、密度、拖尾、光暈強(qiáng)度。
![]()
視頻地址:
https://mp.weixin.qq.com/s/Wn1-SzjpEkQLTyZnJKDRwg
![]()
同樣的,如此多行的代碼,AI在思考了十幾秒后,依舊是一口氣給噴出來的。
這類任務(wù)的難點(diǎn)在于,它要同時(shí)處理前端結(jié)構(gòu)、Canvas 動(dòng)畫、狀態(tài)管理、視覺參數(shù)、交互邏輯,還要讓效果看起來不至于太low。
從結(jié)果上來看,確實(shí)也是達(dá)到了Prompt的要求:
![]()
像跟設(shè)計(jì)師坐在同一塊畫布前
第二個(gè)測試更有意思。
我們?cè)谏弦粋€(gè)代碼基礎(chǔ)上,繼續(xù)提出更多要求:
“這個(gè)波紋再快一點(diǎn)。”
“光暈顏色偏暖一些。”
“粒子散開時(shí)別那么硬,柔一點(diǎn)。”
“背景不要全黑,稍微有一點(diǎn)深藍(lán)層次。”
![]()
視頻地址:
https://mp.weixin.qq.com/s/Wn1-SzjpEkQLTyZnJKDRwg
首先,我們的這些指令都是比較模糊的,并非像“把第42行的speed從0.6改成1.2”這么精確,所以模型需要先精準(zhǔn)地理解我們的意圖。
其次,由于GLM-5.1-highspeed的速度夠快,我們做項(xiàng)目的體感都不一樣了——
更像是和AI坐一起,一塊盯著畫布調(diào)參。
這也是高速API容易被低估的地方,和AI一起共事做項(xiàng)目,現(xiàn)在更接近實(shí)時(shí)的感覺了。
讓模型當(dāng)游戲?qū)а?/strong>
第三個(gè)測試,我們把場景再往前推一步。
如果模型足夠快,它能不能在游戲里實(shí)時(shí)改變世界?
比如做一個(gè)小型2D游戲:
玩家控制一個(gè)角色在3D地圖里移動(dòng),場景中有障礙、敵人、道具、天氣、光照和隨機(jī)事件。有對(duì)話框可以輸入文字,場景會(huì)根據(jù)輸入的文字實(shí)時(shí)改變。
然后我們不給模型固定腳本,而是不斷發(fā)出類似導(dǎo)演指令:
“下雪”、“下雨”、“爆炸”……
![]()
視頻地址:
https://mp.weixin.qq.com/s/Wn1-SzjpEkQLTyZnJKDRwg
這類測試比寫網(wǎng)頁更刁鉆。
因?yàn)槟P鸵斫庥螒驙顟B(tài)、代碼結(jié)構(gòu)、交互邏輯,還要判斷什么改動(dòng)會(huì)影響體驗(yàn)。
而高速API讓此前因延遲而難以成立的產(chǎn)品形態(tài)變得可行,例如模型在游戲中實(shí)時(shí)改變游戲世界狀態(tài)。
當(dāng)然,這里還有很多工程問題沒解決,比如穩(wěn)定性、安全邊界、狀態(tài)一致性、成本和并發(fā)。但至少從速度維度看,400 tokens/s級(jí)別的API已經(jīng)讓這類想象不再只停留在 PPT 里。
10秒處理萬字內(nèi)容
第四個(gè)實(shí)測,我們回到內(nèi)容行業(yè)。
我們用AI讀取一份萬字長文的內(nèi)容素材,讓它一口氣執(zhí)行下面的內(nèi)容:
- 提煉3句最吸睛的海報(bào)主標(biāo)題;
- 生成6條15字內(nèi)短視頻口播文案;
- 輸出三套產(chǎn)品宣傳語(適合官網(wǎng)首頁);
- 生成可直接發(fā)公眾號(hào)的文案(800字);
- 最后生成JSON格式匯總所有內(nèi)容。
![]()
視頻地址:
https://mp.weixin.qq.com/s/Wn1-SzjpEkQLTyZnJKDRwg
只花了10秒鐘!
而且效果也是依舊穩(wěn)穩(wěn)地拿捏到位了:
![]()
在AI的速度上來之后,讓人類更快地進(jìn)入到了判斷的環(huán)節(jié);由此,人和AI的協(xié)作更接近來回打磨了。而非一次性下單。
Agent進(jìn)入快時(shí)代
如果只看400 tokens/s這個(gè)數(shù)字,我們可能很容易把它理解成模型變小了,所以跑得快。
但實(shí)際上,GLM-5.1-highspeed更值得關(guān)注的點(diǎn)在于,它主打旗艦?zāi)P透咚侔妫皇且粋€(gè)單純追求低延遲的小模型。
這背后靠的是系統(tǒng)工程。
智譜GLM團(tuán)隊(duì)與TileRT團(tuán)隊(duì)聯(lián)合打造GLM-5.1-highspeed,在推理引擎、調(diào)度系統(tǒng)和底層基礎(chǔ)設(shè)施三個(gè)層面做了優(yōu)化:
推理引擎針對(duì)GLM-5.1架構(gòu)特點(diǎn)重寫核心推理路徑,調(diào)度系統(tǒng)通過動(dòng)態(tài)批處理、請(qǐng)求合并、KV緩存調(diào)度等方式降低高并發(fā)場景尾延遲,基礎(chǔ)設(shè)施層面則圍繞推理集群部署、網(wǎng)絡(luò)鏈路和負(fù)載均衡做協(xié)同優(yōu)化。
簡單理解,大模型推理不是GPU算一下就完事。
真實(shí)線上系統(tǒng)里,請(qǐng)求怎么排隊(duì),怎么合并,KV 緩存怎么調(diào)度,多卡之間怎么通信,網(wǎng)絡(luò)鏈路怎么負(fù)載均衡,都會(huì)影響最終延遲。
TileRT的思路更進(jìn)一步。
它把推理調(diào)度單元從傳統(tǒng)operator/kernel進(jìn)一步下沉到tile級(jí)別,通過編譯期靜態(tài)編排、常駐GPU的persistent Engine Kernel、減少host調(diào)度和跨算子同步等方式,壓縮推理過程里的調(diào)度、搬運(yùn)與同步開銷。
用一句更通俗的話,可以這樣理解:
過去像一群工人每搬一塊磚都要等工頭發(fā)一次指令;現(xiàn)在提前把路線、分工、節(jié)奏排好,讓工人持續(xù)在工地里流水線協(xié)作。
大模型推理速度的提升,很多時(shí)候不只來自更強(qiáng)的芯片,也來自對(duì)系統(tǒng)里每一個(gè)空轉(zhuǎn)環(huán)節(jié)的壓榨。
高速API的競爭,本質(zhì)上是模型能力、推理引擎、調(diào)度系統(tǒng)和基礎(chǔ)設(shè)施的綜合戰(zhàn)。
當(dāng)然,速度不能被神化。
一個(gè)API真要進(jìn)入生產(chǎn)環(huán)境,還要看模型質(zhì)量、穩(wěn)定性、成本、上下文能力、工具調(diào)用可靠性、并發(fā)能力,以及復(fù)雜任務(wù)里的錯(cuò)誤率。
尤其是400 tokens/s這樣的速度數(shù)字,也需要在更多任務(wù)、更多時(shí)段、更多并發(fā)條件下持續(xù)驗(yàn)證。
但至少從這次測試可以看到一個(gè)明確趨勢:
國產(chǎn)大模型API的競爭,正在從能不能答得好,進(jìn)一步走向能不能又快又穩(wěn)地干活。
GLM-5.1-highspeed的意義,也正在這里。
它讓我們看到,當(dāng)旗艦?zāi)P湍芰透咚偻评硐到y(tǒng)疊在一起,AI Agent的體驗(yàn)會(huì)出現(xiàn)一個(gè)很直觀的變化:等待變少,反饋?zhàn)兠埽蝿?wù)推進(jìn)更連續(xù)。
Coding時(shí)代,速度是爽點(diǎn)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.