中國國家數(shù)據(jù)局3月底公布了一個數(shù)字:中國日均Token調(diào)用量突破140萬億,兩年增長超千倍。但支撐這個數(shù)字運(yùn)轉(zhuǎn)的定價系統(tǒng),依然建立在兩年前聊天機(jī)器人的假設(shè)之上——那個假設(shè)認(rèn)為,用戶的使用量可以被歷史數(shù)據(jù)預(yù)測,輕度用戶會自然覆蓋重度用戶,整體成本可以被攤平。
智能體(Agent,能自主完成任務(wù)的AI程序)正在打破這個假設(shè)的每一個前提。Anthropic最近停止允許訂閱用戶通過第三方工具接入Claude API,因?yàn)閱蝹€代理運(yùn)行一天消耗的算力成本在1000到5000美元之間,而用戶每月只付200美元。這不是訂閱設(shè)計的漏洞,而是舊定價邏輯面對新使用模式的系統(tǒng)性失效。
![]()
Token消耗正在脫離任何可建模的軌道
要理解當(dāng)前的混亂,需要先建立量級感。36氪報道,OpenAI API日均處理約21.6萬億Token,谷歌Gemini日均約43萬億,而中國的140萬億約為前兩者之和的兩倍有余。摩根大通預(yù)測,僅中國的AI推理Token消耗,五年內(nèi)將再增370倍。
無問芯穹CEO夏立雪在行業(yè)論壇上描述這個增速時,提到了一個參照:3G時代手機(jī)流量從每月100MB開始普及的時候,上一次看到類似的曲線。當(dāng)時沒人預(yù)料到,流量放開之后會跑出抖音、微信和外賣。
但Token與流量有一個關(guān)鍵差異。流量是同質(zhì)化的,1MB視頻和1MB文字在計費(fèi)層面沒有區(qū)別。Token的價值卻完全由使用場景決定。同樣一百萬個Token,用于閑聊市場價約0.01美元,用于代碼生成可以值200美元,用于法律文件審查可能超過1000美元——價值差距達(dá)十萬倍。
耶魯大學(xué)研究者將這一特征描述為Token的"可合同化"屬性:數(shù)量可以精確計量,但價值取決于它被編程去做什么。當(dāng)整個行業(yè)用同一個價格邏輯去覆蓋價值差距十萬倍的使用場景時,系統(tǒng)性的定價混亂就不是偶然,而是必然。
更隱蔽的數(shù)字藏在公有云統(tǒng)計之外。金融機(jī)構(gòu)在本地服務(wù)器跑票據(jù)識別,車端智能座艙的對話在車內(nèi)閉環(huán)完成,工業(yè)機(jī)器人的視覺模型以毫秒級響應(yīng)運(yùn)行在邊緣設(shè)備上——這些都不會出現(xiàn)在任何公開數(shù)據(jù)里。一位從業(yè)者估算,非公有云API的調(diào)用量至少是公有云的五到十倍。
三個窗口的開啟與關(guān)閉
過去兩年,Token市場的競爭優(yōu)勢經(jīng)歷了三次轉(zhuǎn)移。每一個窗口的受益者,都在無意識中為下一個顛覆者鋪路。
2025年初,算法是第一個窗口。DeepSeek V3發(fā)布后,混合專家架構(gòu)(MoE,一種讓模型只激活部分參數(shù)進(jìn)行推理的技術(shù))將同等能力的推理成本壓低了一個數(shù)量級。模型內(nèi)部包含多個專家子模塊,每次推理只激活其中一小部分,在保留完整能力的同時大幅壓縮實(shí)際計算量。
但算法窗口的悖論在于,打開它的那把鑰匙,同時也是關(guān)上它的鎖。DeepSeek選擇了開源,將核心模型權(quán)重和架構(gòu)設(shè)計公開。這個選擇在短期內(nèi)快速擴(kuò)大市場份額,在中長期則主動壓縮了算法領(lǐng)先的窗口期。當(dāng)架構(gòu)創(chuàng)新被開源,整個行業(yè)的Token成本基準(zhǔn)被同步重置,算法優(yōu)勢也就從專有壁壘變成了公共基礎(chǔ)設(shè)施。
同年底,規(guī)模成為第二個窗口。火山引擎將互聯(lián)網(wǎng)流量戰(zhàn)的打法平移過來,用大規(guī)模機(jī)場廣告宣告自己在Token市場的存在。字節(jié)跳動旗下火山引擎總裁譚待在4月2日的業(yè)務(wù)進(jìn)展分享中提到,兩年之內(nèi),火山引擎的Token調(diào)用量增長了1000倍,萬億級Token消耗企業(yè)增至140家。
但譚待在接受《第一財經(jīng)》采訪時也坦承,大規(guī)模調(diào)用量中包含了大量無效算力。他以解數(shù)學(xué)題為例:枚舉法計算量大,模型能力不足就會采用類似方式,造成無謂消耗;更優(yōu)秀的模型能找到簡潔解法,優(yōu)化空間很大。規(guī)模數(shù)字的背面,是大量本可以避免的算力浪費(fèi)。
當(dāng)競爭從"消耗了多少"轉(zhuǎn)向"每個Token創(chuàng)造了多少價值"時,規(guī)模窗口就開始關(guān)閉。
場景爭奪:阿里字節(jié)的"圍獵"與智譜MiniMax的處境
場景,是當(dāng)前Token競爭最激烈的地方。智譜、MiniMax等獨(dú)立大模型公司,正面臨阿里、字節(jié)等云廠商的正面擠壓。
這場"圍獵"的本質(zhì)是定價權(quán)的爭奪。云廠商擁有三重優(yōu)勢:一是算力基礎(chǔ)設(shè)施的自建能力,可以將Token成本壓到獨(dú)立公司難以企及的低位;二是現(xiàn)有客戶群的交叉銷售,企業(yè)客戶已經(jīng)在使用云服務(wù),切換到大模型API的摩擦成本極低;三是流量分發(fā)能力,可以將模型能力嵌入已有的產(chǎn)品矩陣。
但獨(dú)立模型公司并非沒有還手之力。它們的壁壘在于垂直場景的深度優(yōu)化——針對金融、法律、醫(yī)療等特定領(lǐng)域的模型微調(diào),以及與客戶業(yè)務(wù)流程的緊密耦合。這種深度需要時間積累,短期內(nèi)難以被大平臺的分發(fā)能力碾壓。
真正的危險在于定價邏輯的錯位。當(dāng)云廠商用"虧本換市場"的互聯(lián)網(wǎng)打法進(jìn)入Token市場時,獨(dú)立公司被迫在兩條路之間選擇:要么跟進(jìn)降價,犧牲利潤空間換取市場份額;要么堅守價值定價,但面臨客戶流失的風(fēng)險。
這不是簡單的價格戰(zhàn)。Token經(jīng)濟(jì)的特殊性在于,它的成本結(jié)構(gòu)高度動態(tài)。模型能力每提升一代,推理成本曲線就會重構(gòu);新的推理模式(如深度思考)出現(xiàn),單次調(diào)用的Token消耗量可能暴漲數(shù)十倍。在這種環(huán)境下,靜態(tài)的定價策略本身就是風(fēng)險。
Token的真正成本藏在哪
黃仁勛今年3月在一篇署名文章里把AI產(chǎn)業(yè)拆成五層:能源、芯片、基礎(chǔ)設(shè)施、模型、應(yīng)用,并將Token定義為現(xiàn)代AI的基本單位,也是AI的語言和貨幣。這個定義同時指向Token的兩種屬性:作為語言,它是計算過程的原子;作為貨幣,它是價值流通的媒介。
但生產(chǎn)一個Token的代價,遠(yuǎn)比這個定義看起來復(fù)雜。據(jù)Sam Altman和Epoch AI披露,ChatGPT發(fā)送一條文本提示大約消耗0.3瓦時。谷歌搜索的耗電量(0.03瓦時)僅為其一小部分。谷歌2025年也曾披露,Gemini發(fā)送一條典型的文本提示大約消耗0.24瓦時,并產(chǎn)生約0.03克二氧化碳。
隨著模型復(fù)雜度增加,推理成本急劇上升。GPT-5級別的系統(tǒng)每次查詢可能消耗約18瓦時,而進(jìn)行擴(kuò)展推理時則可能消耗高達(dá)40瓦時。差距來自兩個地方:一是模型大小,參數(shù)越多,生成每個Token所需的計算量越大;二是推理模式,新一代模型在輸出每個可見Token之前,會在內(nèi)部進(jìn)行大量隱式推演。
用戶看到一個字,模型內(nèi)部可能已經(jīng)"想"了上百步。單個可見Token的真實(shí)成本,被這個思考過程成倍放大。
這是Token與電力、石油這類生產(chǎn)要素的根本區(qū)別。Token的價值并不由生產(chǎn)成本決定,而完全由使用場景決定。所謂平均Token價格,就像用平均客單價來描述一個既有路邊攤又有米其林餐廳的商圈——即便數(shù)字正確,也毫無意義。
Collis和Brynjolfsson在2025年的估算顯示,生成式AI在2024年僅為美國消費(fèi)者創(chuàng)造的消費(fèi)者剩余就高達(dá)約970億美元,用戶實(shí)際獲得的價值遠(yuǎn)超過他們支付的金額。這個數(shù)字的絕大部分,集中在高價值應(yīng)用場景。
Anthropic的體系化嘗試
縱觀過去兩年Token市場的演化,每一個優(yōu)勢窗口的終結(jié),都由同一個邏輯驅(qū)動:當(dāng)競爭者能夠復(fù)制優(yōu)勢——規(guī)模可以被追趕,算法可以被開源,場景可以被大平臺的分發(fā)能力碾壓。
目前唯一難以被快速復(fù)制的,是將Token效率內(nèi)化為產(chǎn)品架構(gòu)、定價邏輯和工程文化的能力。而在這件事上真正做到體系化的,只有Anthropic。
Claude Code負(fù)責(zé)人Boris Cherny在聲明里說,訂閱服務(wù)"并非為這些第三方工具的使用模式而設(shè)計"。這句話的潛臺詞是:Anthropic正在嘗試一種不同的定價邏輯——不是基于使用量預(yù)測,而是基于使用模式的明確邊界。
這種體系化的核心,是把Token效率從成本中心轉(zhuǎn)化為產(chǎn)品特性。Claude的"擴(kuò)展思考"模式、Artifacts的交互設(shè)計、Projects的上下文管理,本質(zhì)上都是在優(yōu)化特定場景下的Token使用效率。用戶為這種效率付費(fèi),而不是為原始的Token數(shù)量付費(fèi)。
這指向Token經(jīng)濟(jì)的終極問題:當(dāng)可編程性讓同一個生產(chǎn)要素的價值波動十萬倍時,定價權(quán)應(yīng)該交給誰?是擁有算力基礎(chǔ)設(shè)施的云廠商,是掌握模型能力的AI公司,還是定義使用場景的最終用戶?
140萬億日均調(diào)用量背后,真正的博弈才剛剛開始。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.