无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

頂流里最快!智譜,你是在「噴」代碼吧

0
分享至

金磊 發自 凹非寺
量子位 | 公眾號 QbitAI

AI啊,你這速度簡直是在噴射啊!

仔細看,千萬別眨眼:



視頻地址:
https://mp.weixin.qq.com/s/Wn1-SzjpEkQLTyZnJKDRwg

這么多的代碼,直接就是“啪的一下”噴出來的感覺。

之前AI寫代碼像CPU渲圖一樣,是一點一點打出來;但這個AI寫代碼,更像GPU:



這么快生成的代碼,能好用嗎?

答案是可以的:



這就是智譜剛剛新出的高速版API——GLM-5.1-highspeed

按照官方的說法,這個旗艦版模型的API,是目前頂流模型里最快的,已經達到了400 tokens/s!



而且這個GLM-5.1啊,雖然已經出了一個多月了,但現在還是開源模型里Coding最強的那一個:



那么接下來,老規矩,一波實測走起~

一手實測GLM-5.1-highspeed

AI寫代碼像開了倍速

我們先來做一個比開頭更加復雜的例子,Prompt是這樣的:

做一個網頁,畫面中心是一個會呼吸的星云;用戶點擊播放后,粒子會隨著模擬音頻節奏擴散、聚合、變色;旁邊還要有幾個可調參數,比如速度、密度、拖尾、光暈強度。



視頻地址:
https://mp.weixin.qq.com/s/Wn1-SzjpEkQLTyZnJKDRwg



同樣的,如此多行的代碼,AI在思考了十幾秒后,依舊是一口氣給噴出來的。

這類任務的難點在于,它要同時處理前端結構、Canvas 動畫、狀態管理、視覺參數、交互邏輯,還要讓效果看起來不至于太low。

從結果上來看,確實也是達到了Prompt的要求:



像跟設計師坐在同一塊畫布前

第二個測試更有意思。

我們在上一個代碼基礎上,繼續提出更多要求:

“這個波紋再快一點。”

“光暈顏色偏暖一些。”

“粒子散開時別那么硬,柔一點。”

“背景不要全黑,稍微有一點深藍層次。”



視頻地址:
https://mp.weixin.qq.com/s/Wn1-SzjpEkQLTyZnJKDRwg

首先,我們的這些指令都是比較模糊的,并非像“把第42行的speed從0.6改成1.2”這么精確,所以模型需要先精準地理解我們的意圖。

其次,由于GLM-5.1-highspeed的速度夠快,我們做項目的體感都不一樣了——

更像是和AI坐一起,一塊盯著畫布調參。

這也是高速API容易被低估的地方,和AI一起共事做項目,現在更接近實時的感覺了。

讓模型當游戲導演

第三個測試,我們把場景再往前推一步。

如果模型足夠快,它能不能在游戲里實時改變世界?

比如做一個小型2D游戲:

玩家控制一個角色在3D地圖里移動,場景中有障礙、敵人、道具、天氣、光照和隨機事件。有對話框可以輸入文字,場景會根據輸入的文字實時改變。

然后我們不給模型固定腳本,而是不斷發出類似導演指令:

“下雪”、“下雨”、“爆炸”……



視頻地址:
https://mp.weixin.qq.com/s/Wn1-SzjpEkQLTyZnJKDRwg

這類測試比寫網頁更刁鉆。

因為模型要理解游戲狀態、代碼結構、交互邏輯,還要判斷什么改動會影響體驗。

而高速API讓此前因延遲而難以成立的產品形態變得可行,例如模型在游戲中實時改變游戲世界狀態。

當然,這里還有很多工程問題沒解決,比如穩定性、安全邊界、狀態一致性、成本和并發。但至少從速度維度看,400 tokens/s級別的API已經讓這類想象不再只停留在 PPT 里。

10秒處理萬字內容

第四個實測,我們回到內容行業。

我們用AI讀取一份萬字長文的內容素材,讓它一口氣執行下面的內容:

  1. 提煉3句最吸睛的海報主標題;
  2. 生成6條15字內短視頻口播文案;
  3. 輸出三套產品宣傳語(適合官網首頁);
  4. 生成可直接發公眾號的文案(800字);
  5. 最后生成JSON格式匯總所有內容。



視頻地址:
https://mp.weixin.qq.com/s/Wn1-SzjpEkQLTyZnJKDRwg

只花了10秒鐘!

而且效果也是依舊穩穩地拿捏到位了:



在AI的速度上來之后,讓人類更快地進入到了判斷的環節;由此,人和AI的協作更接近來回打磨了。而非一次性下單。

Agent進入快時代

如果只看400 tokens/s這個數字,我們可能很容易把它理解成模型變小了,所以跑得快。

但實際上,GLM-5.1-highspeed更值得關注的點在于,它主打旗艦模型高速版,而不是一個單純追求低延遲的小模型。

這背后靠的是系統工程

智譜GLM團隊與TileRT團隊聯合打造GLM-5.1-highspeed,在推理引擎、調度系統和底層基礎設施三個層面做了優化:

推理引擎針對GLM-5.1架構特點重寫核心推理路徑,調度系統通過動態批處理、請求合并、KV緩存調度等方式降低高并發場景尾延遲,基礎設施層面則圍繞推理集群部署、網絡鏈路和負載均衡做協同優化。

簡單理解,大模型推理不是GPU算一下就完事。

真實線上系統里,請求怎么排隊,怎么合并,KV 緩存怎么調度,多卡之間怎么通信,網絡鏈路怎么負載均衡,都會影響最終延遲。

TileRT的思路更進一步。

它把推理調度單元從傳統operator/kernel進一步下沉到tile級別,通過編譯期靜態編排、常駐GPU的persistent Engine Kernel、減少host調度和跨算子同步等方式,壓縮推理過程里的調度、搬運與同步開銷。

用一句更通俗的話,可以這樣理解:

過去像一群工人每搬一塊磚都要等工頭發一次指令;現在提前把路線、分工、節奏排好,讓工人持續在工地里流水線協作。

大模型推理速度的提升,很多時候不只來自更強的芯片,也來自對系統里每一個空轉環節的壓榨。

高速API的競爭,本質上是模型能力、推理引擎、調度系統和基礎設施的綜合戰。

當然,速度不能被神化。

一個API真要進入生產環境,還要看模型質量、穩定性、成本、上下文能力、工具調用可靠性、并發能力,以及復雜任務里的錯誤率。

尤其是400 tokens/s這樣的速度數字,也需要在更多任務、更多時段、更多并發條件下持續驗證。

但至少從這次測試可以看到一個明確趨勢:

國產大模型API的競爭,正在從能不能答得好,進一步走向能不能又快又穩地干活。

GLM-5.1-highspeed的意義,也正在這里。

它讓我們看到,當旗艦模型能力和高速推理系統疊在一起,AI Agent的體驗會出現一個很直觀的變化:等待變少,反饋變密,任務推進更連續。

Coding時代,速度是爽點。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
陪玩陪睡都是毛毛雨!王思聰前女友曝“丑聞”,王家徹底坐不住了

陪玩陪睡都是毛毛雨!王思聰前女友曝“丑聞”,王家徹底坐不住了

一曲一場談
2026-04-09 13:56:12
4-2橫掃張本智和!19歲國乒天才連斬5大世界名將,一戰封神

4-2橫掃張本智和!19歲國乒天才連斬5大世界名將,一戰封神

小琴動漫
2026-05-30 14:30:26
被判立即向俄央行賠償約2000億歐元,歐洲清算銀行上訴

被判立即向俄央行賠償約2000億歐元,歐洲清算銀行上訴

界面新聞
2026-05-30 17:30:48
地鐵偶遇頂級素顏,這才是真正的天生麗質!

地鐵偶遇頂級素顏,這才是真正的天生麗質!

白宸侃片
2026-05-29 17:13:22
“還沒當婆婆,就開始嫉妒兒媳了!”家長因半個雞蛋破防,被群嘲

“還沒當婆婆,就開始嫉妒兒媳了!”家長因半個雞蛋破防,被群嘲

妍妍教育日記
2026-05-29 08:30:09
降價2萬!上汽大眾官宣:全新SUV,價格下調

降價2萬!上汽大眾官宣:全新SUV,價格下調

科技堡壘
2026-05-31 09:34:47
終于有專家看不下去了:電車越來越重,又不交稅,路撐不住了!

終于有專家看不下去了:電車越來越重,又不交稅,路撐不住了!

互聯網.亂侃秀
2026-05-31 11:16:19
趙建:數據塌了?

趙建:數據塌了?

西京研究院
2026-05-30 17:13:21
外籍游客在浙江一景區水源地洗澡?涉事景區辟謠:照片非景區,閉園已超一年

外籍游客在浙江一景區水源地洗澡?涉事景區辟謠:照片非景區,閉園已超一年

上游新聞
2026-05-30 22:14:05
“本降專”第一人?演員林沐然從中戲轉入大專,網友發現了華點

“本降專”第一人?演員林沐然從中戲轉入大專,網友發現了華點

聽心堂
2026-05-30 10:31:54
蔣友青:我不認識蔣萬安,平時完全沒來往!他們之間發生了什么?

蔣友青:我不認識蔣萬安,平時完全沒來往!他們之間發生了什么?

凡人侃史
2026-05-12 14:37:12
國家統計局:5月份,制造業采購經理指數(PMI)為50.0%

國家統計局:5月份,制造業采購經理指數(PMI)為50.0%

每日經濟新聞
2026-05-31 09:36:47
韓國談抗美援朝:超400萬人犧牲,中國并非援助,而是戰爭主力!

韓國談抗美援朝:超400萬人犧牲,中國并非援助,而是戰爭主力!

興趣知識
2026-05-31 00:56:50
美女飛行員突破“12G”的瓜

美女飛行員突破“12G”的瓜

吃瓜體
2026-05-25 16:16:43
周朝國都西岐,商朝的國都朝歌,現如今這兩大名城位于什么位置?

周朝國都西岐,商朝的國都朝歌,現如今這兩大名城位于什么位置?

銘記歷史呀
2026-05-31 00:52:02
演員劉紅梅去世,終年61歲!

演員劉紅梅去世,終年61歲!

半島晨報
2026-05-30 11:14:47
塔帥:馬杜埃凱那球完全能判點;恭喜巴黎,他們是支超級強隊

塔帥:馬杜埃凱那球完全能判點;恭喜巴黎,他們是支超級強隊

懂球帝
2026-05-31 04:29:20
最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

周軍律師聊案子
2026-04-21 09:50:16
肺癌來臨,手部先知,若手部出現3個變化,別大意,盡早檢查

肺癌來臨,手部先知,若手部出現3個變化,別大意,盡早檢查

熊貓醫學社
2026-05-31 11:30:03
正當防衛被判死刑,槍決前6分鐘被最高法緊急叫停,董偉案始末

正當防衛被判死刑,槍決前6分鐘被最高法緊急叫停,董偉案始末

易玄
2026-05-25 01:45:09
2026-05-31 12:11:00
量子位 incentive-icons
量子位
追蹤人工智能動態
12712文章數 176474關注度
往期回顧 全部

科技要聞

戴爾諾基亞又回來了!AI重估老牌科技公司

頭條要聞

羅馬尼亞遭襲 梅德韋杰夫:歐盟已進入與俄羅斯的戰爭

頭條要聞

羅馬尼亞遭襲 梅德韋杰夫:歐盟已進入與俄羅斯的戰爭

體育要聞

阿森納用最悲壯的方式,成就了巴黎王朝

娛樂要聞

賈玲最新動作!侯明昊給虞書欣抬轎!

財經要聞

醫學首席轉崗搞科技,A股科技股遭遇巨震

汽車要聞

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

數碼
家居
健康
旅游
軍事航空

數碼要聞

AMD Radeon RX 9070 GRE顯卡全球市場起價偷跑:549美元

家居要聞

云棲 舒展如流云

嘗試干細胞療法如何避免踩坑?

旅游要聞

英媒:“極致中國化”助推入境旅游熱潮

軍事要聞

美防長參加"香會" 就美中關系最新表態

無障礙瀏覽 進入關懷版