140萬億Token背后：誰在定義AI時代的"電價"？

2026-04-15 12:05:34　來源: 固件更新中

北京舉報

分享至

中國國家數(shù)據(jù)局3月底公布了一個數(shù)字：中國日均Token調(diào)用量突破140萬億，兩年增長超千倍。但支撐這個數(shù)字運(yùn)轉(zhuǎn)的定價系統(tǒng)，依然建立在兩年前聊天機(jī)器人的假設(shè)之上——那個假設(shè)認(rèn)為，用戶的使用量可以被歷史數(shù)據(jù)預(yù)測，輕度用戶會自然覆蓋重度用戶，整體成本可以被攤平。

智能體（Agent，能自主完成任務(wù)的AI程序）正在打破這個假設(shè)的每一個前提。Anthropic最近停止允許訂閱用戶通過第三方工具接入Claude API，因?yàn)閱蝹€代理運(yùn)行一天消耗的算力成本在1000到5000美元之間，而用戶每月只付200美元。這不是訂閱設(shè)計的漏洞，而是舊定價邏輯面對新使用模式的系統(tǒng)性失效。

Token消耗正在脫離任何可建模的軌道

要理解當(dāng)前的混亂，需要先建立量級感。36氪報道，OpenAI API日均處理約21.6萬億Token，谷歌Gemini日均約43萬億，而中國的140萬億約為前兩者之和的兩倍有余。摩根大通預(yù)測，僅中國的AI推理Token消耗，五年內(nèi)將再增370倍。

無問芯穹CEO夏立雪在行業(yè)論壇上描述這個增速時，提到了一個參照：3G時代手機(jī)流量從每月100MB開始普及的時候，上一次看到類似的曲線。當(dāng)時沒人預(yù)料到，流量放開之后會跑出抖音、微信和外賣。

但Token與流量有一個關(guān)鍵差異。流量是同質(zhì)化的，1MB視頻和1MB文字在計費(fèi)層面沒有區(qū)別。Token的價值卻完全由使用場景決定。同樣一百萬個Token，用于閑聊市場價約0.01美元，用于代碼生成可以值200美元，用于法律文件審查可能超過1000美元——價值差距達(dá)十萬倍。

耶魯大學(xué)研究者將這一特征描述為Token的"可合同化"屬性：數(shù)量可以精確計量，但價值取決于它被編程去做什么。當(dāng)整個行業(yè)用同一個價格邏輯去覆蓋價值差距十萬倍的使用場景時，系統(tǒng)性的定價混亂就不是偶然，而是必然。

更隱蔽的數(shù)字藏在公有云統(tǒng)計之外。金融機(jī)構(gòu)在本地服務(wù)器跑票據(jù)識別，車端智能座艙的對話在車內(nèi)閉環(huán)完成，工業(yè)機(jī)器人的視覺模型以毫秒級響應(yīng)運(yùn)行在邊緣設(shè)備上——這些都不會出現(xiàn)在任何公開數(shù)據(jù)里。一位從業(yè)者估算，非公有云API的調(diào)用量至少是公有云的五到十倍。

三個窗口的開啟與關(guān)閉

過去兩年，Token市場的競爭優(yōu)勢經(jīng)歷了三次轉(zhuǎn)移。每一個窗口的受益者，都在無意識中為下一個顛覆者鋪路。

2025年初，算法是第一個窗口。DeepSeek V3發(fā)布后，混合專家架構(gòu)（MoE，一種讓模型只激活部分參數(shù)進(jìn)行推理的技術(shù)）將同等能力的推理成本壓低了一個數(shù)量級。模型內(nèi)部包含多個專家子模塊，每次推理只激活其中一小部分，在保留完整能力的同時大幅壓縮實(shí)際計算量。

但算法窗口的悖論在于，打開它的那把鑰匙，同時也是關(guān)上它的鎖。DeepSeek選擇了開源，將核心模型權(quán)重和架構(gòu)設(shè)計公開。這個選擇在短期內(nèi)快速擴(kuò)大市場份額，在中長期則主動壓縮了算法領(lǐng)先的窗口期。當(dāng)架構(gòu)創(chuàng)新被開源，整個行業(yè)的Token成本基準(zhǔn)被同步重置，算法優(yōu)勢也就從專有壁壘變成了公共基礎(chǔ)設(shè)施。

同年底，規(guī)模成為第二個窗口。火山引擎將互聯(lián)網(wǎng)流量戰(zhàn)的打法平移過來，用大規(guī)模機(jī)場廣告宣告自己在Token市場的存在。字節(jié)跳動旗下火山引擎總裁譚待在4月2日的業(yè)務(wù)進(jìn)展分享中提到，兩年之內(nèi)，火山引擎的Token調(diào)用量增長了1000倍，萬億級Token消耗企業(yè)增至140家。

但譚待在接受《第一財經(jīng)》采訪時也坦承，大規(guī)模調(diào)用量中包含了大量無效算力。他以解數(shù)學(xué)題為例：枚舉法計算量大，模型能力不足就會采用類似方式，造成無謂消耗；更優(yōu)秀的模型能找到簡潔解法，優(yōu)化空間很大。規(guī)模數(shù)字的背面，是大量本可以避免的算力浪費(fèi)。

當(dāng)競爭從"消耗了多少"轉(zhuǎn)向"每個Token創(chuàng)造了多少價值"時，規(guī)模窗口就開始關(guān)閉。

場景爭奪：阿里字節(jié)的"圍獵"與智譜MiniMax的處境

場景，是當(dāng)前Token競爭最激烈的地方。智譜、MiniMax等獨(dú)立大模型公司，正面臨阿里、字節(jié)等云廠商的正面擠壓。

這場"圍獵"的本質(zhì)是定價權(quán)的爭奪。云廠商擁有三重優(yōu)勢：一是算力基礎(chǔ)設(shè)施的自建能力，可以將Token成本壓到獨(dú)立公司難以企及的低位；二是現(xiàn)有客戶群的交叉銷售，企業(yè)客戶已經(jīng)在使用云服務(wù)，切換到大模型API的摩擦成本極低；三是流量分發(fā)能力，可以將模型能力嵌入已有的產(chǎn)品矩陣。

但獨(dú)立模型公司并非沒有還手之力。它們的壁壘在于垂直場景的深度優(yōu)化——針對金融、法律、醫(yī)療等特定領(lǐng)域的模型微調(diào)，以及與客戶業(yè)務(wù)流程的緊密耦合。這種深度需要時間積累，短期內(nèi)難以被大平臺的分發(fā)能力碾壓。

真正的危險在于定價邏輯的錯位。當(dāng)云廠商用"虧本換市場"的互聯(lián)網(wǎng)打法進(jìn)入Token市場時，獨(dú)立公司被迫在兩條路之間選擇：要么跟進(jìn)降價，犧牲利潤空間換取市場份額；要么堅守價值定價，但面臨客戶流失的風(fēng)險。

這不是簡單的價格戰(zhàn)。Token經(jīng)濟(jì)的特殊性在于，它的成本結(jié)構(gòu)高度動態(tài)。模型能力每提升一代，推理成本曲線就會重構(gòu)；新的推理模式（如深度思考）出現(xiàn)，單次調(diào)用的Token消耗量可能暴漲數(shù)十倍。在這種環(huán)境下，靜態(tài)的定價策略本身就是風(fēng)險。

Token的真正成本藏在哪

黃仁勛今年3月在一篇署名文章里把AI產(chǎn)業(yè)拆成五層：能源、芯片、基礎(chǔ)設(shè)施、模型、應(yīng)用，并將Token定義為現(xiàn)代AI的基本單位，也是AI的語言和貨幣。這個定義同時指向Token的兩種屬性：作為語言，它是計算過程的原子；作為貨幣，它是價值流通的媒介。

但生產(chǎn)一個Token的代價，遠(yuǎn)比這個定義看起來復(fù)雜。據(jù)Sam Altman和Epoch AI披露，ChatGPT發(fā)送一條文本提示大約消耗0.3瓦時。谷歌搜索的耗電量（0.03瓦時）僅為其一小部分。谷歌2025年也曾披露，Gemini發(fā)送一條典型的文本提示大約消耗0.24瓦時，并產(chǎn)生約0.03克二氧化碳。

隨著模型復(fù)雜度增加，推理成本急劇上升。GPT-5級別的系統(tǒng)每次查詢可能消耗約18瓦時，而進(jìn)行擴(kuò)展推理時則可能消耗高達(dá)40瓦時。差距來自兩個地方：一是模型大小，參數(shù)越多，生成每個Token所需的計算量越大；二是推理模式，新一代模型在輸出每個可見Token之前，會在內(nèi)部進(jìn)行大量隱式推演。

用戶看到一個字，模型內(nèi)部可能已經(jīng)"想"了上百步。單個可見Token的真實(shí)成本，被這個思考過程成倍放大。

這是Token與電力、石油這類生產(chǎn)要素的根本區(qū)別。Token的價值并不由生產(chǎn)成本決定，而完全由使用場景決定。所謂平均Token價格，就像用平均客單價來描述一個既有路邊攤又有米其林餐廳的商圈——即便數(shù)字正確，也毫無意義。

Collis和Brynjolfsson在2025年的估算顯示，生成式AI在2024年僅為美國消費(fèi)者創(chuàng)造的消費(fèi)者剩余就高達(dá)約970億美元，用戶實(shí)際獲得的價值遠(yuǎn)超過他們支付的金額。這個數(shù)字的絕大部分，集中在高價值應(yīng)用場景。

Anthropic的體系化嘗試

縱觀過去兩年Token市場的演化，每一個優(yōu)勢窗口的終結(jié)，都由同一個邏輯驅(qū)動：當(dāng)競爭者能夠復(fù)制優(yōu)勢——規(guī)模可以被追趕，算法可以被開源，場景可以被大平臺的分發(fā)能力碾壓。

目前唯一難以被快速復(fù)制的，是將Token效率內(nèi)化為產(chǎn)品架構(gòu)、定價邏輯和工程文化的能力。而在這件事上真正做到體系化的，只有Anthropic。

Claude Code負(fù)責(zé)人Boris Cherny在聲明里說，訂閱服務(wù)"并非為這些第三方工具的使用模式而設(shè)計"。這句話的潛臺詞是：Anthropic正在嘗試一種不同的定價邏輯——不是基于使用量預(yù)測，而是基于使用模式的明確邊界。

這種體系化的核心，是把Token效率從成本中心轉(zhuǎn)化為產(chǎn)品特性。Claude的"擴(kuò)展思考"模式、Artifacts的交互設(shè)計、Projects的上下文管理，本質(zhì)上都是在優(yōu)化特定場景下的Token使用效率。用戶為這種效率付費(fèi)，而不是為原始的Token數(shù)量付費(fèi)。

這指向Token經(jīng)濟(jì)的終極問題：當(dāng)可編程性讓同一個生產(chǎn)要素的價值波動十萬倍時，定價權(quán)應(yīng)該交給誰？是擁有算力基礎(chǔ)設(shè)施的云廠商，是掌握模型能力的AI公司，還是定義使用場景的最終用戶？

140萬億日均調(diào)用量背后，真正的博弈才剛剛開始。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.