上周,紐約時(shí)報(bào)報(bào)道了硅谷一個(gè)新風(fēng)氣叫 tokenmaxxing,Meta 和 OpenAI 的工程師在內(nèi)部搞 token 消耗量排行榜,比誰燒得多。黃仁勛在 GTC 2026 上更激進(jìn),提議企業(yè)給工程師發(fā) token 預(yù)算,作為工資之外的第二份薪酬。
OpenAI 的數(shù)據(jù)則顯示,過去一年企業(yè)客戶的推理 token 消耗量暴漲了約 320 倍。
需求側(cè)在爆炸。供給側(cè)呢?
黃仁勛在同一場(chǎng) keynote 上搬出了 Tokenomics 這個(gè)概念,把它從加密貨幣的語境里拎出來,重新定義為 AI 推理的經(jīng)濟(jì)學(xué)。核心指標(biāo)叫 Tokens per Watt,衡量每瓦特電力能產(chǎn)出多少 token。他說推理拐點(diǎn)已經(jīng)到了,NVIDIA 預(yù)計(jì) Blackwell 和 Vera Rubin 芯片訂單量到 2027 年將達(dá)到 1 萬億美元。
國(guó)內(nèi)大模型廠商一直在講類似的事情,只是換了說法叫“推理成本”或者“token 單價(jià)”。不管哪種說法,指向的問題是一樣的,當(dāng) token 變成 AI 時(shí)代的水電煤,誰來建發(fā)電廠和電網(wǎng)?
過去三年,行業(yè)給出的答案是,建更大的數(shù)據(jù)中心,塞更多的 GPU。這在訓(xùn)練時(shí)代完全成立。但推理和訓(xùn)練的邏輯不同。訓(xùn)練一個(gè)模型是一次性工程,推理要做幾十億次,而且對(duì)延遲極度敏感。當(dāng)推理請(qǐng)求像洪水一樣涌來,把所有 GPU 集中在幾個(gè)超大數(shù)據(jù)中心里,可能恰恰成了瓶頸。
瓶頸不在算力,在物理。具體來說,在光速。
推理時(shí)代撞上“光速墻”
在今年 GTC 上,有一家公司對(duì)這個(gè)問題給出了非常系統(tǒng)的回答。
Akamai,國(guó)內(nèi)讀者可能不太熟悉這個(gè)名字,但在海外,它是 CDN 概念的開創(chuàng)者,也是目前全球最大的分布式計(jì)算平臺(tái),擁有業(yè)內(nèi)最龐大的邊緣節(jié)點(diǎn)網(wǎng)絡(luò)。1998 年成立,全球前十的視頻流媒體平臺(tái)、游戲公司、銀行基本都是它的客戶。全球擁有超過 4400 個(gè)邊緣入網(wǎng)點(diǎn),覆蓋 130 多個(gè)國(guó)家,承載全球近三分之一的互聯(lián)網(wǎng)流量。
這家公司在近三十年里經(jīng)歷了三次轉(zhuǎn)型,從 CDN 到安全,再到云計(jì)算和 AI。今年 GTC 上,它帶來了兩個(gè) session,核心主題只有一個(gè),為什么 AI 推理必須走向分布式。
Akamai CTO Office 的 SVP Andy Champagne 在 session 上描述了一個(gè)“個(gè)人 AI 導(dǎo)播”的場(chǎng)景,非常有畫面感。一場(chǎng) F1 比賽有 20 多個(gè) 4K 機(jī)位同時(shí)在拍,傳統(tǒng)做法是導(dǎo)播間一個(gè)人切鏡頭,幾百萬觀眾看到的畫面一模一樣。但如果每個(gè)觀眾都能看到根據(jù)自己偏好定制的直播流,喜歡的車手、偏愛的鏡頭角度,那就需要在邊緣實(shí)時(shí)合成個(gè)性化的視頻。幾百萬路不同的 4K 視頻流,不可能從一個(gè)數(shù)據(jù)中心統(tǒng)一往外推。
![]()
類似的邏輯出現(xiàn)在越來越多的實(shí)時(shí)場(chǎng)景里。
游戲 NPC 需要在 50 毫秒內(nèi)響應(yīng),超過這個(gè)閾值玩家體感明顯卡頓。Akamai 產(chǎn)品管理 VP Shawn Michels 在另一個(gè) session 舉了實(shí)時(shí)廣告插入的例子,從掃描視頻、識(shí)別廣告位、競(jìng)價(jià)、生成個(gè)性化廣告到拼回視頻流,整條鏈路的預(yù)算只有 100 毫秒。這恰恰是 Akamai 的先天優(yōu)勢(shì)所在,它在全球已有超過 4400 個(gè)邊緣節(jié)點(diǎn),這種“就近處理”的能力不是純?cè)茝S商從零搭建能輕易追上的。
同樣的延遲壓力還存在于 AI 語音助手、電商推薦引擎、智能試衣間、自動(dòng)駕駛傳感器處理和工業(yè)產(chǎn)線質(zhì)檢等場(chǎng)景中。AI 一旦嵌入實(shí)時(shí)應(yīng)用,就必須繼承那個(gè)應(yīng)用原本的延遲要求。
物理定律不會(huì)因?yàn)?GPU 更快就網(wǎng)開一面。光在光纖中每秒約跑 20 萬公里,從倫敦到美東數(shù)據(jù)中心單程延遲約 28 毫秒,往返就是 56 毫秒。從東京出發(fā)更遠(yuǎn),往返約 134 毫秒。這還沒算任何計(jì)算時(shí)間。
回頭看上面那些場(chǎng)景的延遲要求,不難理解為什么把推理全部扔到少數(shù)幾個(gè)集中式數(shù)據(jù)中心里是行不通的。
延遲之外還有帶寬。Andy 在 session 里算了一筆賬,同樣 1GW 的算力,如果集中在一個(gè)數(shù)據(jù)中心用 Blackwell 做視頻推理,出口帶寬需求是 75 Tbit/s。分布到 20 個(gè)區(qū)域節(jié)點(diǎn),每個(gè)只需 3.75 Tbit/s。集中式的出口流量是分布式的 20 倍,背后的網(wǎng)絡(luò)成本差距不言而喻。
如果換成下一代 Vera Rubin,集中式的出口帶寬更是飆到 135 Tbit/s。芯片越快,集中式架構(gòu)的出口瓶頸反而越嚴(yán)重。
在同一個(gè) session 上,Comcast負(fù)責(zé) AI 與邊緣計(jì)算方向的嘉賓從排隊(duì)論的角度做了更嚴(yán)謹(jǐn)?shù)姆治觥T谙嗤?GPU、相同模型的條件下,集中式和分布式部署之間僅僅 14 毫秒的往返延遲差異,就導(dǎo)致了約 30% 的 GPU 利用率差距。
他的原話是,“這是物理定律層面的優(yōu)勢(shì),沒法靠 batching 或者提高 tokens/s 來彌補(bǔ)。”
![]()
一個(gè)近三十年的伏筆
Andy 在 session 上做了一個(gè)很有意思的類比,把 AI 的發(fā)展時(shí)間線和互聯(lián)網(wǎng)做對(duì)齊來看。互聯(lián)網(wǎng)的普及率已經(jīng)超過 95%,AI 目前大約只有 7%。他的判斷是,AI 現(xiàn)在大概處于互聯(lián)網(wǎng)的 MySpace 時(shí)代。
想想 MySpace 之后又誕生了多少公司、多少市值、多少技術(shù)突破。AI 的好戲才剛剛開始。
這個(gè)類比其實(shí)點(diǎn)出了 Akamai 做分布式推理的底層邏輯。近三十年前這家公司解決的問題和今天面對(duì)的問題,結(jié)構(gòu)上是一樣的,把集中的東西變成分布的。當(dāng)年分發(fā)的是網(wǎng)頁和視頻,現(xiàn)在分發(fā)的是 AI 推理。方法論一脈相承。
他在 session 結(jié)尾說了兩句話,頗能概括這種邏輯,“AI 工廠創(chuàng)造智能,AI Grid 分發(fā)智能”,以及“沒有分布式推理的 AI,就像沒有 CDN 的互聯(lián)網(wǎng)”。
![]()
GTC 期間,NVIDIA 官方將 Akamai Cloud 和 AWS 一起列為首批提供 RTX PRO Blackwell Server Edition 實(shí)例的云服務(wù)商。黃仁勛 keynote 展示的合作伙伴 logo 墻上,Akamai 赫然在列。NVIDIA 電信業(yè)務(wù)全球副總裁 Chris Penrose 評(píng)價(jià)說,Akamai 通過運(yùn)營(yíng) AI Grid,正在為生成式 AI、AI Agent 和物理 AI 構(gòu)建連接組織,將智能直接推送到數(shù)據(jù)所在的地方。
Akamai 也在 GTC 上正式發(fā)布了業(yè)界首個(gè)全球規(guī)模落地 NVIDIA AI Grid 參考架構(gòu)的方案,將 NVIDIA AI 基礎(chǔ)設(shè)施深度集成到自身的分布式網(wǎng)絡(luò)中。這不是一個(gè)松散的合作。Akamai 是首家將 AI Grid 從概念推到運(yùn)營(yíng)級(jí)別的廠商,底層跑的是 NVIDIA AI Enterprise 軟件棧、Blackwell 架構(gòu) GPU 和 BlueField DPU 加速網(wǎng)絡(luò)的完整技術(shù)棧。
推理基礎(chǔ)設(shè)施的幾個(gè)現(xiàn)實(shí)問題
回到地面,對(duì)于正在考慮推理部署的 AI 團(tuán)隊(duì),有幾個(gè)繞不開的現(xiàn)實(shí)問題。
不是所有推理都需要 H100。 這個(gè)認(rèn)知正在被越來越多團(tuán)隊(duì)接受。H100 為訓(xùn)練和大規(guī)模推理而生,但如果跑的是 8B 參數(shù)的模型、做的是語音交互或者視頻分析,用 H100 就像開卡車送外賣。
Akamai 目前部署的 RTX PRO 6000 Blackwell Server Edition 是一個(gè)值得關(guān)注的選項(xiàng)。直接看 Token 經(jīng)濟(jì),$2.50/小時(shí)全包價(jià),每美元 Token 產(chǎn)出是同類方案的 2.1 倍。
性能層面,這張卡配了 96GB GDDR7 顯存和 4,000 TOPS FP4 算力,在 NVFP4 精度下推理吞吐量比 H100 高出 60% 以上,對(duì)比上一代 RTX 4000 Ada 提升達(dá) 19 倍。另一個(gè)容易被忽略的差異是視頻處理能力,RTX PRO 6000 原生支持 112 到 132 路視頻編解碼,如果做的是視覺 AI 相關(guān)的產(chǎn)品,這個(gè)能力是定位于訓(xùn)練和超算的 H100 不具備的。
再加上風(fēng)冷設(shè)計(jì),在邊緣機(jī)房有限的空間和功耗條件下部署門檻低得多。Shawn Michels 在 GTC session 里的觀點(diǎn)說的是未來的推理基礎(chǔ)設(shè)施一定是混合架構(gòu),不同 GPU 匹配不同的工作負(fù)載,沒有萬能卡。
Egress 費(fèi)用是隱性殺手。 很多團(tuán)隊(duì)做預(yù)算時(shí)只看 GPU 租用價(jià)格,忽略了數(shù)據(jù)出站費(fèi)。AI 產(chǎn)品服務(wù)全球用戶,視頻和模型響應(yīng)產(chǎn)生的出站流量成本可能比 GPU 本身還貴。
邊緣部署的經(jīng)濟(jì)邏輯之一正在于此,推理結(jié)果在本地生成、本地交付,不用跨大半個(gè)地球回傳。Akamai 的 egress 價(jià)格是 $0.005/GB,和三大云廠商的差距非常明顯。
調(diào)度比算力更難。 GPU 散到全球各地只是第一步,更難的是讓每個(gè)請(qǐng)求找到最合適的那臺(tái)機(jī)器。Akamai 在 GTC 上展示了他們的 AI 編排器(Orchestrator),這不是傳統(tǒng)的根據(jù)延遲和負(fù)載來分配流量的負(fù)載均衡。
它會(huì)考慮模型親和性(哪臺(tái)機(jī)器已經(jīng)加載了需要的模型)、GPU 顯存占用、KV Cache 狀態(tài)等 AI 場(chǎng)景特有的因素來做實(shí)時(shí)路由決策。現(xiàn)場(chǎng) demo 中,推理請(qǐng)求從巴黎節(jié)點(diǎn)實(shí)時(shí)切換到加州節(jié)點(diǎn),用戶側(cè)完全無感知。這背后是 Akamai 做了近三十年流量調(diào)度的老本行,在 AI 場(chǎng)景上的自然延續(xù)。
目前 Akamai 的 Blackwell GPU 節(jié)點(diǎn)已覆蓋歐洲、亞太和美洲共 19 個(gè)節(jié)點(diǎn),配合 4400 多個(gè)邊緣入網(wǎng)點(diǎn)協(xié)同工作。對(duì)于出海的 AI 團(tuán)隊(duì)來說,東京、新加坡、孟買、雅加達(dá)這些亞太節(jié)點(diǎn)尤其值得留意。
![]()
出海 AI 創(chuàng)業(yè)者的第三種選擇
Akamai 從 CDN 到安全,再到云計(jì)算和 AI 推理的轉(zhuǎn)型路徑,本身就是互聯(lián)網(wǎng)基礎(chǔ)設(shè)施演進(jìn)的一個(gè)切面。它在這條賽道上的差異化在于,不是從零建數(shù)據(jù)中心,而是把已經(jīng)運(yùn)行了近三十年的全球分布式網(wǎng)絡(luò)變成了 AI 推理的底座。
這步棋能走多遠(yuǎn),取決于它能不能跟上 AI 硬件更新的速度,也取決于邊緣推理的市場(chǎng)需求能否如預(yù)期般爆發(fā)。
但對(duì)中國(guó)出海 AI 創(chuàng)業(yè)者來說,一件事正在變得越來越清楚,全球化部署推理能力正在從“以后再說”變成“現(xiàn)在就得解決”。
合規(guī)(數(shù)據(jù)主權(quán)、不出境)、延遲(用戶體驗(yàn)的硬門檻)、成本(egress 和 GPU 租用的真實(shí)賬單),這是出海時(shí)最現(xiàn)實(shí)的三座山。Akamai 的邊緣推理平臺(tái)提供了一種此前不太存在的選擇,不必自建全球基礎(chǔ)設(shè)施,也不必把雞蛋全放在幾家超大規(guī)模云上,而是可以借助一張已經(jīng)覆蓋 130 多個(gè)國(guó)家的分布式網(wǎng)絡(luò),把推理跑到離用戶最近的地方去。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.