![]()
核心觀點:
Token工廠的提出,引發(fā)了學(xué)術(shù)界和產(chǎn)業(yè)界極大的關(guān)注。當(dāng)前,對AI基礎(chǔ)設(shè)施的討論仍沿用“數(shù)據(jù)中心”“算力中心”這樣的傳統(tǒng)概念。但是這些概念是無法精準(zhǔn)的描述token工廠的。事實上,token工廠正在成為AI世界的基礎(chǔ)貨幣。但圍繞它的生產(chǎn)、定價、交易、消耗等內(nèi)容都處于初期階段,尚未成型。
Token的生產(chǎn)是token工廠的核心目標(biāo),不再是泛泛的計算或存儲,而是聚焦于AI模型推理與訓(xùn)練所產(chǎn)生Token。
Token工廠的運營成本中,電力占比可達(dá)50-70%,其次是芯片折舊、液冷散熱、網(wǎng)絡(luò)互聯(lián)和運維人力。與功耗產(chǎn)出對應(yīng),單位Token成本與單位功耗產(chǎn)出成反比——功耗產(chǎn)出越高,單位Token成本越低。
現(xiàn)實層面看,token工廠的能源策略對于電力能源的要求極高,傳統(tǒng)研究視角將算力和電力視為獨立的兩個問題,但是token工廠的運行模式,兩者必須作為一個耦合系統(tǒng)來研究。電力系統(tǒng)如何配合與供應(yīng)成為了當(dāng)前的關(guān)注點。
![]()
(1)行業(yè)定義概念界定
Token工廠(token factory)是指大規(guī)模、高效率、低成本生產(chǎn)token為核心目標(biāo),通過算—電—熱—網(wǎng)深度協(xié)同的技術(shù)架構(gòu),電力、芯片、數(shù)據(jù)等輸入要素轉(zhuǎn)化為標(biāo)準(zhǔn)化智能服務(wù)輸出(token)的新型基礎(chǔ)設(shè)施。
Token的生產(chǎn)是token工廠的核心目標(biāo),不再是泛泛的計算或存儲,而是聚焦于AI模型推理與訓(xùn)練所產(chǎn)生Token。它更強調(diào)工業(yè)化的規(guī)模經(jīng)濟(jì)效應(yīng),實現(xiàn)高效率、低成本的生產(chǎn)模式。將計算、電力、散熱、網(wǎng)絡(luò)視為一個有機整體進(jìn)行優(yōu)化,而非割裂的子系統(tǒng)。對于Token工廠來說,電力、芯片和數(shù)據(jù)才是他的原材料,產(chǎn)出可計量、可定價、具有交易屬性的Token則是它的產(chǎn)出物,也就是為客戶提供標(biāo)準(zhǔn)化的智能服務(wù)(Token)。
相較于傳統(tǒng)的數(shù)據(jù)中心、算力中心,Token工廠的核心是“生產(chǎn)token”這個工業(yè)化過程,而不僅僅是提供計算資源。
具體區(qū)別如下:
表格1 Token工廠與傳統(tǒng)數(shù)據(jù)中心、算力中心的對比
![]()
數(shù)據(jù)來源:公開資料,融中研究
(2)市場規(guī)模及競爭格局
1)行業(yè)市場規(guī)模
Token工廠目前還沒有官方統(tǒng)計口徑,這一概念是英偉達(dá)在2026年的GTC大會上正式提出的。因此,融中研究根據(jù)Token消耗量、AI推理市場、AI數(shù)據(jù)中心市場等不同口徑來進(jìn)行市場規(guī)模推測。
消耗端:根據(jù)國家數(shù)據(jù)局披露的數(shù)據(jù),中國日均Token調(diào)用量從2024年初的1000億增長到2026年3月的140萬億,兩年增長超過1000倍。
產(chǎn)業(yè)端:2026年3月,阿里云、百度智能云、騰訊云等相繼上調(diào)AI算力相關(guān)產(chǎn)品價格,部分模型Token計費漲幅超過400%。英偉達(dá)預(yù)測2026-2027年全球AI算力采購訂單積壓規(guī)模將突破1萬億美元。阿里宣布未來三年投入超千億元用于云和AI硬件基礎(chǔ)設(shè)施建設(shè)。
2)競爭格局
作為2026年3月英偉達(dá)GTC大會上正式提出的新概念,token工廠的競爭格局正在快速形成中。英偉達(dá)CEO黃仁勛在GTC 2026大會上明確指出,AI競爭的核心已從模型訓(xùn)練轉(zhuǎn)向Token生產(chǎn)效率(即推理)。衡量標(biāo)準(zhǔn)不再是“峰值算力”,而是“每瓦token吞吐量”和“每百萬token成本”。
從全球來看,中美走向兩條側(cè)重不同的發(fā)展道路。美國側(cè)重于前沿突破,驅(qū)動力來自資本與頂尖研發(fā)的良性循環(huán)。目前,英偉達(dá)Vera Rubin平臺七顆芯片全部投產(chǎn),從3nm走向1.6nm,從地面延伸至太空,從GPU擴(kuò)展至LPU。
中國則更重視向深處扎根,驅(qū)動力來自國家戰(zhàn)略和產(chǎn)業(yè)升級的現(xiàn)實需求。應(yīng)用空間廣闊,工業(yè)場景和商業(yè)鏈路完整,要優(yōu)先解決算力如何真正用起來。
Token工廠概念的提出,使得AI行業(yè)內(nèi)的企業(yè)更加清晰了自己的行業(yè)定位,同時也開始了進(jìn)一步的行業(yè)布局。英偉達(dá)的角色不再是單純的芯片供應(yīng)商,而是token工廠的全棧方案提供商。芯片層的競爭正在從單性能芯片轉(zhuǎn)向系統(tǒng)解決方案。從云服務(wù)和模型層來看,調(diào)用量排名前十中,中國模型占據(jù)四席并包攬前三名:MiniMax M2.5、階躍星辰Step 3.5 Flash、DeepSeek V3.2,Kimi K2.5位列第九,中國模型的核心競爭力在于極致性價比——Token價格僅為國外競品的1/6至1/10。
(3)產(chǎn)業(yè)鏈圖譜
Token工廠產(chǎn)業(yè)鏈的傳導(dǎo)邏輯是:下游應(yīng)用爆發(fā),大模型、AI智能體等的大規(guī)模應(yīng)用,使得Token需求激增,從而導(dǎo)致算力開始漲價,上游硬件開始擴(kuò)產(chǎn)。
表格2 Token工廠產(chǎn)業(yè)鏈?zhǔn)崂?/p>
![]()
數(shù)據(jù)來源:公開資料,融中研究
注:電力供應(yīng)環(huán)節(jié)因企業(yè)較為分散(如核電、綠電、電網(wǎng)調(diào)度等),且此前未列出具體代表企業(yè),故暫未納入表格。如有需要,可補充國家電網(wǎng)、南方電網(wǎng)、中廣核等。
(4)影響與意義
Token工廠的出現(xiàn),標(biāo)志著AI產(chǎn)業(yè)從“模型競賽”轉(zhuǎn)向“生產(chǎn)競賽”,價值錨點從模型智能水平轉(zhuǎn)移至Token的生產(chǎn)效率與成本。模型正從稀缺品變?yōu)榇笞谏唐罚偁幗裹c變?yōu)椤罢l生產(chǎn)Token更快、更便宜、更穩(wěn)定”,AI由此從實驗室經(jīng)濟(jì)走向工廠經(jīng)濟(jì)。同時,能源與算力深度耦合,“算電協(xié)同”成為新范式:電力從成本項升級為戰(zhàn)略資源,占比高達(dá)50-70%,Token工廠通過柔性負(fù)載調(diào)度、自建微電網(wǎng)甚至捆綁核電,將算力從“云”變?yōu)榕c地理、能源、電網(wǎng)綁定的重資產(chǎn),徹底改寫了數(shù)據(jù)中心選址與運營邏輯。
全球競爭格局正被重塑,Token成為新型戰(zhàn)略商品。中國憑借極致性價比,在Token調(diào)用量上已反超美國,形成“Token出海”這一智能服務(wù)出口模式,中美分化出自主可控與前沿技術(shù)兩條路徑。經(jīng)濟(jì)模式上,Token演變?yōu)榭捎媰r、可交易的“智能貨幣”,黃仁勛提出五級定價模型,商業(yè)模式從“賣資源”(按卡時)升級為“賣產(chǎn)品”(按Token),2026年集體漲價潮宣告賣方市場來臨。垂直整合與重資產(chǎn)化成為巨頭戰(zhàn)略,Token工廠使AI真正成為千行百業(yè)的生產(chǎn)力工具,開啟了智能的工業(yè)化大生產(chǎn)時代。
![]()
(1)生產(chǎn)核心:芯片與集群
1)芯片
從“單芯片性能競賽”轉(zhuǎn)向“全棧系統(tǒng)級協(xié)同”。芯片不再是孤立元件,而是與互聯(lián)、存儲、網(wǎng)絡(luò)深度綁定的平臺化解決方案。
表格3 關(guān)鍵玩家與策略
![]()
數(shù)據(jù)來源:融中研究
2)集群
當(dāng)集群從千卡邁向萬卡/十萬卡,芯片間通信效率成為整體算力利用率的關(guān)鍵瓶頸。供電、散熱、網(wǎng)絡(luò)拓?fù)洹⑴c電網(wǎng)協(xié)同共同決定系統(tǒng)上限。
表格4 集群架構(gòu)分層
![]()
數(shù)據(jù)來源:融中研究
(2)生產(chǎn)流程
1)輸入階段
Token工廠的輸入主要包括三類核心資源:電力、數(shù)據(jù)、算力基礎(chǔ)設(shè)施。
表格5 Token工廠的輸入
![]()
數(shù)據(jù)來源:融中研究
輸入環(huán)節(jié)的競爭已從“單純堆砌算力”升級為“算-電-熱-網(wǎng)”四位一體的資源整合能力。誰能以更低成本獲得穩(wěn)定電力和高質(zhì)量數(shù)據(jù),誰就占據(jù)Token生產(chǎn)的成本優(yōu)勢。
2)加工階段
加工環(huán)節(jié)是將輸入轉(zhuǎn)化為Token的核心過程,分為訓(xùn)練和推理兩大階段,目前重心正從訓(xùn)練向推理遷移。
表格6 Token的加工環(huán)節(jié)
![]()
數(shù)據(jù)來源:融中研究
最新架構(gòu)趨勢:
Prefill-Decode分離:英偉達(dá)將推理拆分為預(yù)填充(GPU負(fù)責(zé))和解碼(Groq LPU負(fù)責(zé)),延遲降至0.1毫秒以下,性能提升35倍。
MoE(混合專家模型):僅激活部分參數(shù),大幅降低推理成本。DeepSeek等模型已廣泛應(yīng)用。
投機解碼:用小模型快速生成候選Token,大模型并行驗證,顯著提升推理速度。
加工環(huán)節(jié)正從“通用計算”走向“場景化分工”。不同模型架構(gòu)、不同任務(wù)類型需要定制化的計算流水線,單一芯片難以包攬全局。
3)輸出階段
輸出環(huán)節(jié)是將加工產(chǎn)生的Token封裝為可交付、可計價的標(biāo)準(zhǔn)化產(chǎn)品,并通過API或應(yīng)用層送達(dá)用戶。
表格7 Token的輸出環(huán)節(jié)
![]()
數(shù)據(jù)來源:融中研究
輸出環(huán)節(jié)的本質(zhì)是將無形的“智能”轉(zhuǎn)化為可交易的商品。Token作為標(biāo)準(zhǔn)化計量單位,使AI服務(wù)能夠像水電一樣按需付費,極大地降低了應(yīng)用門檻。
(3)核心生產(chǎn)效率指標(biāo)
Token工廠的核心生產(chǎn)效率指標(biāo)是衡量其競爭力的關(guān)鍵標(biāo)尺。與傳統(tǒng)數(shù)據(jù)中心看重資源利用率(如CPU利用率、存儲利用率)不同,Token工廠的價值產(chǎn)出完全圍繞“Token”展開——評價標(biāo)準(zhǔn)已從“擁有多少芯片”轉(zhuǎn)變?yōu)椤懊客吣芎哪墚a(chǎn)出多少高質(zhì)量Token”。
1)單位功耗產(chǎn)出
核心指標(biāo)定義:Tokens per second per watt(每秒每瓦產(chǎn)出的Token數(shù)),或更宏觀的Tokens per second per megawatt(每兆瓦每秒產(chǎn)出的Token數(shù))。這一指標(biāo)直接反映了Token工廠將電力轉(zhuǎn)化為智能產(chǎn)品的核心生產(chǎn)效率。
背景與意義:AI數(shù)據(jù)中心的能耗正以驚人的速度攀升,供電能力、散熱可持續(xù)性、網(wǎng)絡(luò)拓?fù)湫誓酥僚c公共電網(wǎng)的協(xié)同能力,開始共同決定整個系統(tǒng)的上限。因此,“每瓦Token產(chǎn)出效率(Token per Watt)”正取代傳統(tǒng)的峰值算力與單卡性能,成為新的核心KPI。這意味著評價對象已經(jīng)從“芯片”轉(zhuǎn)向“系統(tǒng)”——供電、冷卻、網(wǎng)絡(luò)、調(diào)度乃至建筑交付周期,都會被納入同一個經(jīng)濟(jì)模型進(jìn)行統(tǒng)一優(yōu)化。
提升單位功耗產(chǎn)出的核心路徑已從芯片優(yōu)化擴(kuò)展到“算-電-熱-網(wǎng)”四位一體的協(xié)同優(yōu)化。英偉達(dá)在GTC 2026上推出了Vera Rubin DSX AI Factory參考設(shè)計,其核心目標(biāo)就是實現(xiàn)“每瓦最大Token產(chǎn)出”。該參考設(shè)計覆蓋計算、網(wǎng)絡(luò)與存儲,并配套開放、模塊化、可組合的軟件棧,將集群硬件與供電、冷卻系統(tǒng)聯(lián)動起來,從而在整體層面獲取更高的Token per watt。
2)單位成本產(chǎn)出
核心指標(biāo)定義:Cost per million tokens(每百萬Token的成本),以及Token吞吐量帶來的每GPU每秒Token數(shù)(TPS per GPU)所對應(yīng)的總擁有成本(TCO)。它直接決定了Token工廠的盈利能力和市場競爭力。
成本構(gòu)成:Token工廠的運營成本中,電力占比可達(dá)50-70%,其次是芯片折舊、液冷散熱、網(wǎng)絡(luò)互聯(lián)和運維人力。與功耗產(chǎn)出對應(yīng),單位Token成本與單位功耗產(chǎn)出成反比——功耗產(chǎn)出越高,單位Token成本越低。
表格8 定價體系:Token作為“智能貨幣”
![]()
數(shù)據(jù)來源:融中研究
單位成本產(chǎn)出是Token工廠的“利潤核心”。在固定功耗下,誰的每瓦Token產(chǎn)出更高,誰的Token成本就更低,誰就能獲得更高的利潤空間。分級定價體系將Token從技術(shù)術(shù)語轉(zhuǎn)變?yōu)榭捎媰r、可交易的商品,使AI服務(wù)能夠像水電一樣按需付費,極大地降低了應(yīng)用門檻。
3)時間效率
核心指標(biāo)定義:Token吞吐量(Tokens per second,TPS)、首Token延遲(Time To First Token,TTFT)、每Token生成時間(Time Per Output Token,TPOT)。這些指標(biāo)直接決定了用戶體驗和AI系統(tǒng)的可用性。
吞吐量基準(zhǔn)(Tokens per Second)
吞吐量是Token工廠在單位時間內(nèi)能夠生成的Token總數(shù),決定了系統(tǒng)能同時服務(wù)多少用戶請求。
AMD MLPerf突破:2026年4月,AMD在MLPerf Inference v6.0基準(zhǔn)測試中首次突破每秒100萬Token的吞吐量里程碑,在Llama 2 70B和GPT-OSS-120B等模型上均達(dá)到百萬級Token/秒的性能。AMD MI355X單GPU在Llama 2 70B上實現(xiàn)100,282 Token/秒,是上一代MI325X的3.1倍。
英偉達(dá)Blackwell Ultra:GB300 NVL72的最大單GPU吞吐量達(dá)到226.2 Token/秒,比上一代GB200有顯著提升。GB300在延遲敏感型工作負(fù)載上的性能提升約1.4-1.5倍,延遲改善約1.58倍。
極致案例:字節(jié)跳動豆包的日均Token消耗量已達(dá)120萬億Token,折合每秒并發(fā)處理約13.9億Token。這已不是實驗室壓力測試,而是真實生產(chǎn)環(huán)境的持續(xù)負(fù)載,代表了Token工廠吞吐能力的極限邊界。
延遲指標(biāo)(TTFT與TPOT)
首Token延遲(TTFT):從用戶發(fā)送請求到收到第一個Token的時間。對于交互式應(yīng)用(如聊天機器人),這是最關(guān)鍵的體驗指標(biāo)。Lambda等廠商通過Smart Expert Routing技術(shù)將TTFT的P99延遲降低了31%。
Prefill-Decode分離:英偉達(dá)將推理拆分為預(yù)填充(Prefill,GPU負(fù)責(zé))和解碼(Decode,Groq LPU負(fù)責(zé)),通過分工協(xié)作將延遲降至0.1毫秒以下,推理性能提升35倍。
表格9 三大指標(biāo)的聯(lián)動關(guān)系
![]()
數(shù)據(jù)來源:融中研究
![]()
(1)成本結(jié)構(gòu)
表格10 Token工廠成本結(jié)構(gòu)
![]()
數(shù)據(jù)來源:融中研究
電力成本是Token工廠最大的單項支出,占比過半且持續(xù)上升。控制Token成本的核心在于提升“每瓦Token產(chǎn)出效率”,而非單純壓降電價。自建微電網(wǎng)、捆綁核電、液冷普及是主要降本手段。
(2)收入模式(定價方式)
表格11 Token工廠收入模式
![]()
數(shù)據(jù)來源:融中研究
Token已成為可計價的“智能貨幣”,收入模式從單一按量計費走向分層定價。頭部云廠商通過漲價(2026年3月漲幅30%-400%)掌握了定價權(quán),市場進(jìn)入賣方市場。未來收入增長依賴智能體驅(qū)動的Token消耗量指數(shù)級上升。
(3)商業(yè)模式
表格12 Token工廠商業(yè)模式
![]()
數(shù)據(jù)來源:融中研究
Token工廠推動商業(yè)模式從“賣資源”向“賣智能”升級,垂直整合成為巨頭首選。英偉達(dá)從芯片商轉(zhuǎn)型為“AI工廠架構(gòu)師”,阿里、字節(jié)則打通從生產(chǎn)到應(yīng)用的全鏈條。未來可能出現(xiàn)專業(yè)化的Token生產(chǎn)商與交易平臺,進(jìn)一步細(xì)化分工。
Token工廠的經(jīng)濟(jì)本質(zhì)是將電力、芯片、數(shù)據(jù)轉(zhuǎn)化為可交易的智能商品。成本端以電力為核心瓶頸,收入端依賴Token分層定價與消耗量增長,商業(yè)模式正從資源出租走向智能產(chǎn)品交付。三者協(xié)同決定了Token工廠的盈利能力和競爭壁壘。
![]()
(1)電力供應(yīng)側(cè)
電力供給側(cè)的挑戰(zhàn):從“成本項”到“產(chǎn)能瓶頸”的質(zhì)變
Token工廠的電力需求已從傳統(tǒng)數(shù)據(jù)中心的數(shù)十兆瓦躍升至數(shù)百兆瓦乃至吉瓦級,電力不再是可替代的運營成本,而是決定Token總產(chǎn)量的“硬天花板”。更嚴(yán)峻的是,AI芯片對電壓波動極度敏感,而風(fēng)光綠電的間歇性與Token工廠7×24小時連續(xù)生產(chǎn)的要求形成根本矛盾。部分地區(qū)電網(wǎng)容量已耗盡,新建Token工廠面臨“有GPU、無供電”的尷尬。黃仁勛直言:“數(shù)據(jù)中心受電力限制,1GW工廠永遠(yuǎn)不會變成2GW。”電力供給側(cè)正成為制約AI產(chǎn)業(yè)擴(kuò)張的最短木板。
(2)解決方案:算電協(xié)同
算電協(xié)同的解決方案:從“被動用電”到“柔性共生”
破解電力瓶頸的關(guān)鍵在于讓Token工廠與電力系統(tǒng)深度協(xié)同,而非單向依賴。一方面,工廠作為“柔性負(fù)載”,可根據(jù)電網(wǎng)電價和綠電波動動態(tài)調(diào)整算力分配——電價低時全力訓(xùn)練模型,電價高時僅維持推理服務(wù);另一方面,頭部企業(yè)正自建微電網(wǎng),捆綁核電(微軟重啟三哩島)、地?zé)幔ü雀瑁┑确€(wěn)定清潔能源,甚至部署小型模塊化反應(yīng)堆(SMR)實現(xiàn)“離網(wǎng)運行”。液冷普及和余熱回收進(jìn)一步提升了能源利用效率,使Token工廠從“電老虎”轉(zhuǎn)型為電網(wǎng)的“調(diào)峰伙伴”。
(3)未來趨勢
Token工廠未來的發(fā)展趨勢:從“算力堆砌”到“系統(tǒng)效率”的終極競爭
未來Token工廠的競爭將圍繞三大趨勢展開:一是推理主導(dǎo),隨著AI智能體爆發(fā),推理算力占比將超60%,低延遲、高吞吐的推理專用芯片(如LPU)和Prefill-Decode分離架構(gòu)成為新焦點;二是能效為王,每瓦Token產(chǎn)出(Token per Watt)取代峰值算力成為核心KPI,液冷、CPO互聯(lián)、算電協(xié)同等系統(tǒng)級優(yōu)化決定生死;三是垂直整合與分化并存,巨頭自建全鏈條Token工廠(如阿里ATH),而中小玩家轉(zhuǎn)向?qū)I(yè)化分工(算力租賃、Token交易平臺)。最終,Token將像水電一樣成為普惠智能服務(wù),其生產(chǎn)成本無限逼近物理極限——電力轉(zhuǎn)化效率。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.