![]()
▲本文圖片均來自網絡,如有侵權請聯系刪除
科技巨頭們正在收縮Token支出
本文 首發于影子備忘錄
文 陌影笙
一家未具名的科技巨頭,因為忘了給員工的Claude使用許可證設置上限,短短一個月內在AI上的支出高達5億美元——折合人民幣約33億元,相當于每天燒掉超1億元。
這家公司是誰,至今沒人確認,但社交媒體上的猜測幾乎都指向了亞馬遜,一個在2026年資本支出高達約兩千億美元的龐然大物。
五億美元意味著什么?足夠一家中等規模科技公司干一整年營收的錢,只夠這家巨頭在AI大模型上點一個月“外賣”。
更令人咋舌的是,這并非孤例。Uber的CTO在內部備忘錄中坦承,公司將Claude Code部署給約5000名工程師后,短短四個月內就用光了全年的AI預算。
單個工程師每月產生的API成本高達500到2000美元,即便對于這家市值1500億美元的企業,賬單依然讓高管措手不及。
微軟也在同一時間緊急收緊了內部AI工具的使用權限,逐步關停大部分Claude Code授權,要求數以千計的工程師強制遷移回自家的GitHub Copilot。
Meta、亞馬遜同樣在最近幾周收緊了內部AI Token消耗指標——數以十億美元計的計算資源被消耗,卻幾乎沒有可衡量的業務產出。
如果說此前市場上關于AI泡沫的討論還停留在口頭辯論,那么此時此刻,真金白銀的賬單已經給出了答案:巨頭真的燒不動Token了。
![]()
![]()
Token是如何從“白菜價”
變成“奢侈品”的
兩年前,Token還不是個問題。
2024年,大模型廠商瘋狂燒錢訓練更大的模型,通過免費送Token、低價傾銷搶占市場。當時甚至有人說“賣Token不如賣礦泉水”——百萬元級的輸入Token只要幾毛錢,貴一點的模型不過一兩美元。
整個行業沉浸在“成本將持續下降”的敘事里,所有人都相信規模效應會像互聯網一樣將邊際成本無限攤薄。
然而,2025年下半年開始,風向變了。
根據OpenRouter的統計,過去一年全球周度Token消耗量從2.1T激增至24.5T,2026年以來周度消耗同比增幅達280%。
在國內,日均Token調用量從2024年初的1000億飆升至2026年3月的140萬億,兩年增長超1000倍,僅2026年第一季度就較2025年底增長了40%。
需求端的急劇膨脹,瞬間撕開了供給端的缺口。
Epoch AI發布的報告算了一筆簡單的賬:全球Blackwell芯片的算力增速是每年約3.4倍,而全球Token需求增速是每年約10倍。3.4對10,差距在逐年撕裂。
更致命的是,一旦上下文窗口拉長到128k,吞吐量會暴跌50倍。而當企業級應用普及后,絕大多數任務恰恰需要處理海量上下文,這就意味著有效供給比理論值還要緊俏。
供給端的瓶頸是結構性且短中期無解的。HBM高帶寬內存是AI服務器的“心臟”,三星、SK海力士和美光三家占據了全球95%以上的產能,其擴產周期長達24到36個月。
2025年下半年以來,HBM價格漲幅超過50%,直接推高了AI芯片的成本。CoWoS封裝產能同樣嚴重不足,臺積電即便在2025年將產能翻倍,2026年的訂單依然排到了年底。
受此擠壓,普通DDR5內存半年的漲價幅度高達300%,256G服務器內存單條報價已突破4萬元。
算力租賃市場率先反映了這種緊張。自2026年2月以來,租用英偉達最先進的B200芯片的費用已翻了一番,接近每小時6美元。
即使是舊款的H100,一年期租賃合約價格也從2025年10月的約1.7美元/小時,上漲至2026年3月的2.35美元/小時,漲幅近四成。
一臺8卡的英偉達B300服務器,報價從3月份前的不到400萬元,飆升至約700萬元,而且“到貨就被掃光”。
傳導到模型層,結果就是全線漲價。GPT-5.5定價翻倍,Gemini部分場景漲價3倍,Claude的API價格水漲船高。曾幾何時被津津樂道的“AI成本將持續下降”的神話,已經被現實擊得粉碎。
![]()
為什么越燒Token,產出越少?
如果說成本上漲是外部環境的“天災”,那么企業內部的管理問題,則是讓賬單更加觸目驚心的“人禍”。
亞馬遜、Meta等巨頭此前推崇的AI使用量內部排行榜,催生了一個被稱為“Tokenmaxxing”的現象——員工通過AI代理執行毫無意義的任務來消耗Token,目的只是為了在排行榜上獲得更高的排名。亞馬遜工程高級副總裁事后不得不公開告誡員工:“請不要為了用AI而用AI”。
Meta類似的管理指標催生了幾乎同樣的問題。該公司約8.5萬名員工每月消耗60萬億Token,換算下來每位員工每天燒掉約100萬輸出Token。
部分工程團隊被允許每天在Token上花費300美元,夠一個人一天生成2500萬輸出Token。
蘋果的案例更讓人咋舌,部分工程團隊被允許每天在Token上花費300美元——按當時的價格算,夠一個人一天生成2500萬輸出Token。
最荒謬的是那筆5億美元的賬單——由于沒有設置使用上限,導致AI工具被毫無節制地濫用。高額Token賬單迅速堆積,財務部門收到時,數據甚至已經過時了三天。
但比管理失控更值得追問的是:這些燒掉的Token,到底創造了多少真實價值?
開發者生產力平臺Entelligence.AI匯總了2444家企業的數據,給出了一個令人警醒的答案:每投入1美元AI Token費用,只有18美分產生了觸達用戶的實際價值。
高達44美分被用來修復AI自身引入的Bug,27美分流向返工,11美分被審查摩擦所消耗。這意味著大部分Token不僅沒有提升效率,反而成為了效率的損耗源。
洋蔥集團創始人甚至直言:“很多員工,其實在拿公司的Token摸魚,甚至接私活。白天在公司上班,同時接外面的私活——開發單、設計單、運營單”。
甚至閑魚等二手平臺上,大量賣家正在利用公司配發的模型額度對外接單。AI還沒淘汰人類,人類倒先把公司的AI預算給報銷了。
Uber的遭遇同樣揭示了這種困局。該公司將Claude Code部署給約5000名工程師后,月使用率飆升至95%,全員AI素養得到了極大提升,但單月成本卻超出了全年的預算規劃。
Uber不得不緊急制定嚴苛的分級管理制度,像當年節省紙張一樣精打細算每一個Token的成本。
一個更加反常識的結論正在被越來越多的企業意識到:在某些場景下,AI不僅沒有提升效率,甚至反而拖慢了效率。
METR的最新研究顯示,Claude Code在實測中讓資深開發者的完成速度慢了19%。投入Token,修復Bug,返工,審查摩擦——這個循環正在吞噬原本應該被創造出來的效率空間。
當巨頭們把Token使用量納入KPI考核,員工們唯一能理性做的事情,就是無限制地消耗Token來刷分數。這套激勵機制本身就是對“效率最大化”最大的諷刺。
![]()
![]()
效率越高,燒錢越快
當人們談論AI的效率提升時,通常談論的是“單位Token產出的價值”。但這個公式存在一個被有意無意忽略的前提——Token總量是有限的。
實際上,隨著AI性能的提升,用戶的使用頻率和單次任務的復雜度只會越來越高。這是一個內在的、不可調和的悖論。
中信證券的報告數據顯示,AI計算需求已呈指數級擴張。從核心廠商的消耗數據來看,國內字節跳動(豆包)2025年12月的日均Token消耗量達到63萬億,與OpenAI的52萬億、谷歌的65萬億處于同一量級。
到2026年3月,這一數字突破120萬億,三個月內實現了翻倍增長。豆包日均Token調用量相比2024年5月增長了整整1000倍。
僅2026年前四個月,部分企業就已經耗盡了全年的Token預算。
谷歌在I/O大會上宣布,Gemini的使用量已從2025年5月的每月480萬億Token躍升至2026年5月的每月3200萬億Token,增幅超過6倍,主要驅動因素正是代理型AI(Agent)和編碼工具——這兩者消耗的計算資源遠超基本的聊天機器人查詢。
在英偉達內部的一次交流中,甚至有員工坦率地提出擔憂:“對我的團隊而言,AI成本已超過了人力成本”。
當AI比人還貴的時候,“用AI替代人力”的邏輯起點就不復存在了。
這就引出了一個根本性的問題:AI的邊際成本結構,和傳統工業是截然不同的。
過去工業革命的底層邏輯是“買斷制”——建工廠、買設備需要極高的初始投入,但一旦機器運轉起來,多生產一件產品的邊際成本幾乎為零。機器不需要按時薪結算,產量越大,平攤到單件上的成本就越低。
而到了AI時代,邏輯變成了“租賃制”。初始成本幾乎為零,你只需要按Token付費來“租賃”AI的思考能力。
但這種模式的致命弱點在于:當任務變得復雜時,Token消耗會呈指數級爆炸。一個樸素的算術題擺在了所有人面前:AI省下的那點人力成本,未必填得上Token的賬單。
具體來看技術維度的錯配也相當明顯。在大模型的推理成本結構中,約60%到70%來自工具調用和上下文處理,這一比例在復雜Agent任務中會更高。
以“訂機票+酒店+租車”的復合任務為例:用戶輸入占比不足1%,模型內部推理(思考鏈)約占5%到10%,工具調用(API交互)約占85%到90%,最終輸出不足5%。這意味著僅僅通過優化模型推理來降本的空間極為有限,真正的大頭消耗來自Agent與外部環境的反復交互。
當AI從“一問一答”變為“自主執行”,消耗的Token量級從幾百躍升到幾十萬甚至上百萬,這就是為什么開源模型和閉源模型之間曾經的價格差距,在企業級用量面前幾乎毫無意義——問題是用了多少,而不是單價多便宜。
就連微軟這樣擁有充沛云資源和完整AI產業鏈的巨頭,也開始反思這一悖論。微軟停用了內部對Anthropic旗下Claude Code的使用授權,因為按照Token按量計費的模式,哪怕是自家云資源配合使用,依然覺得成本高到難以承受。
這釋放了一個危險的信號:當基礎設施的提供者自己都燒不起Token的時候,第三方企業用戶的日子只會更難過。
![]()
成本劇烈增加,趨勢不可逆增加
AI行業曾以一種近乎天真的樂觀主義堅信“摩爾定律”能持續適用于大模型成本。但事實正在給出不同的答案。
盡管技術優化一直在路上,但在需求爆發的浪潮面前,一切優化都被稀釋了。NVIDIA在2025年GTC大會上公布的公開數據顯示,通過量化和KV Cache優化,推理成本理論上可以降低50%到70%。
但同期,GPT-4到GPT-4o的推理成本下降了約50%,而用戶調用量增長了5倍。技術優化的幅度遠遠追不上需求膨脹的速度。
更進一步的數據顯示,自2024年以來,谷歌處理的Token量年增10倍,其他供應商的增速也差不多。而全球AI算力每年只增長3.4倍,芯片內存帶寬每年增長4.1倍。
3.4對10的巨大鴻溝,意味著算力需求的增長在可預見的未來都將領先于供給,而這將不可避免地推動Token價格繼續走高。
從整個產業來看,Token成本正在重構AI經濟的底層邏輯。中信證券指出,供需失衡將推動云產業鏈進入量價齊升周期。
優刻得因硬件成本結構性上漲上調服務價格;阿里云宣布AI算力、存儲產品最高漲價34%。國內頭部大模型企業單月收入突破10億元,部分企業20天的收入就超過了2025年全年。
這組數據的背后,是Token已經從“獲客成本”變成了企業必須嚴肅對待的“硬成本”。
算力需求的全球競爭也在加速推高成本。據統計,美國四大云服務商(微軟、亞馬遜、谷歌、Meta)2025至2026年計劃資本開支合計分別達到4002億、6500億美元。
國內阿里、騰訊、百度、字節同期合計投入507.16億、669.71億美元。全球范圍內的算力軍備競賽,使得任何一家企業都難以獨善其身。
在成本端,高盛預計到2030年,AI Agent所消耗的Token用量將增長24倍,達每月120千萬億個Token。
每日數億元的Token“燃燒”,意味著Token已經從一個技術細節,上升為企業財務模型中最不可忽視的變量。AI的推理成本,正在成為這個時代最昂貴的賬單之一。
技術的進步還帶來了另一重悖論:模型變得更強大,意味著單次調用消耗更多資源。
以Anthropic最新開放的百萬級上下文窗口為例,一個90萬Token的請求與一個9千Token的請求單價完全一致。
表面上看這似乎是降價,但前提是你確實需要90萬Token。當多模態處理和完整代碼庫分析成為標準配置,單次請求的Token消耗自然水漲船高。技術的發展并未減少Token消耗,反而在功能上為更大量的消耗提供了空間。
這一現實的連鎖反應已經開始顯現,據IT桔子數據,2026年第一季度,已有超過10家AI應用初創公司停止運營或轉型。
純API創業公司既無自有流量生態,也無算力囤貨,更無私有化部署能力,它們成為Token成本上漲沖擊下最先倒下的群體。這并非短期的價格波動,而是AI產業結構性洗牌的開始。
![]()
出路在哪里?
面對天價Token賬單,整個行業正在經歷一場深刻的反思。
第一條出路,是技術層面的降本。以DeepSeek為代表的新一代開源模型,正在用稀疏注意力等架構創新大幅壓低推理成本。
DeepSeek R1的API調用價格低至$0.001/千token,僅為GPT-4 Turbo的十分之一,成本來源于三大技術優化:量化壓縮使模型體積縮減75%;動態批處理算法將GPU利用率提升至92%;架構級優化使計算量減少50%。
這種“性能不減、成本腰斬”的技術路徑,為整個行業提供了可借鑒的降本范式。DeepSeek V3的訓練成本僅為前沿模型的十分之一到二十分之一,API價格低至同類的十六分之一,在Hacker News等開發者社區引發了廣泛討論。這也說明,AI算力的普及并不必然等同于高成本,關鍵在于技術架構的革新。
第二條出路,是企業內部的管理重構。亞馬遜已經在行動,他們關閉了鼓勵Tokenmaxxing的內部排行榜KiroRank,轉而采用名為“標準化部署”的指標,衡量的是實際交付的AI輔助代碼,而非消耗的Token數量。
Uber也制定了嚴格的分級管理制度,限制工程師的AI工具使用流量。從“用量考核”到“結果考核”,這一轉變意味著企業對AI的態度已經從“追求普及率”轉向“追求投資回報率”。
正如Uber的遭遇所揭示的那樣,讓全員用上AI并不難,難的是讓AI為業務創造價值。
第三條出路,是商業模式的重構。國內豆包開始推出付費訂閱,從每月68元到500元不等;百度文心一言也推出49.9元/月會員;Kimi試水每月49元至199元檔位。
雖然用戶對收費反應不一,但一個事實已經明確:靠資本輸血維持免費模式的階段已經走到了盡頭。
同時,Anthropic將Claude企業版的定價模式從固定訂閱轉向“基礎費+按實際算力消耗付費”的混合模式。
舊模式下最高需為每位授權用戶支付每月200美元,新模式下則在每用戶每月20美元的基礎費之上額外按實際消耗的算力付費。在此背景下,AI成本的最終承擔者,將從風險投資和企業IT預算,逐漸轉移至最終用戶。
技術降本、管理增效、商業變現——這三條路沒有一條是輕松的,但它們合在一起,構成了AI經濟走向可持續的唯一路徑。
![]()
結語
當人們回顧2026年的這個夏天,很可能會發現,這是AI從神話回歸常識的轉折點。
“AI一定比人便宜”,這句過去兩年被無數次重復的信念,如今終于迎來了審視。
簡單任務上AI確實遠比人工廉價,但當任務變得復雜、當循環思考上線、當Agent開始“永不下班”,昂貴的API賬單終將反超人類薪資。
Token的稀缺不是技術問題,而是經濟問題。它提醒所有人:算力雖大,但不是無限的;效率雖高,但不是免費的;創新雖好,但不是無代價的。
AI帶來的效率提升是真實的,但同時伴隨著成本的劇烈增加——這才是完整的、不被有意忽略的經濟賬。
巨頭們收縮AI預算并不意味著放棄AI,而是一次健康的回調。
從“燒Token競賽”回歸到“價值創造”,從“為了用AI而用AI”回到“AI是工具不是目的”——這些判斷雖然聽起來像是常識,但在狂熱的市場中,常識往往是最容易被遺忘的東西。
下一次,當你打開對話框問AI一個簡單的問題,消耗幾百個Token時,不妨想一想那些在后臺循環思考數萬次的Agent,那些反復調用外部工具去完成一個任務的自動化流程,那些為了一個代碼Bug而繞了無數彎路的復雜推理——每一個Token的背后,都是一筆真實賬。
AI的賬,終究要有人來付。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.