網易首頁 > 網易號 > 正文申請入駐

巨頭開始“燒不動Token”了

2026-06-04 16:48:41　來源: 影子聊科技

廣東舉報

分享至

▲本文圖片均來自網絡，如有侵權請聯系刪除

科技巨頭們正在收縮Token支出

本文首發于影子備忘錄

文陌影笙

一家未具名的科技巨頭，因為忘了給員工的Claude使用許可證設置上限，短短一個月內在AI上的支出高達5億美元——折合人民幣約33億元，相當于每天燒掉超1億元。

這家公司是誰，至今沒人確認，但社交媒體上的猜測幾乎都指向了亞馬遜，一個在2026年資本支出高達約兩千億美元的龐然大物。

五億美元意味著什么？足夠一家中等規模科技公司干一整年營收的錢，只夠這家巨頭在AI大模型上點一個月“外賣”。

更令人咋舌的是，這并非孤例。Uber的CTO在內部備忘錄中坦承，公司將Claude Code部署給約5000名工程師后，短短四個月內就用光了全年的AI預算。

單個工程師每月產生的API成本高達500到2000美元，即便對于這家市值1500億美元的企業，賬單依然讓高管措手不及。

微軟也在同一時間緊急收緊了內部AI工具的使用權限，逐步關停大部分Claude Code授權，要求數以千計的工程師強制遷移回自家的GitHub Copilot。

Meta、亞馬遜同樣在最近幾周收緊了內部AI Token消耗指標——數以十億美元計的計算資源被消耗，卻幾乎沒有可衡量的業務產出。

如果說此前市場上關于AI泡沫的討論還停留在口頭辯論，那么此時此刻，真金白銀的賬單已經給出了答案：巨頭真的燒不動Token了。

Token是如何從“白菜價”

變成“奢侈品”的

兩年前，Token還不是個問題。

2024年，大模型廠商瘋狂燒錢訓練更大的模型，通過免費送Token、低價傾銷搶占市場。當時甚至有人說“賣Token不如賣礦泉水”——百萬元級的輸入Token只要幾毛錢，貴一點的模型不過一兩美元。

整個行業沉浸在“成本將持續下降”的敘事里，所有人都相信規模效應會像互聯網一樣將邊際成本無限攤薄。

然而，2025年下半年開始，風向變了。

根據OpenRouter的統計，過去一年全球周度Token消耗量從2.1T激增至24.5T，2026年以來周度消耗同比增幅達280%。

在國內，日均Token調用量從2024年初的1000億飆升至2026年3月的140萬億，兩年增長超1000倍，僅2026年第一季度就較2025年底增長了40%。

需求端的急劇膨脹，瞬間撕開了供給端的缺口。

Epoch AI發布的報告算了一筆簡單的賬：全球Blackwell芯片的算力增速是每年約3.4倍，而全球Token需求增速是每年約10倍。3.4對10，差距在逐年撕裂。

更致命的是，一旦上下文窗口拉長到128k，吞吐量會暴跌50倍。而當企業級應用普及后，絕大多數任務恰恰需要處理海量上下文，這就意味著有效供給比理論值還要緊俏。

供給端的瓶頸是結構性且短中期無解的。HBM高帶寬內存是AI服務器的“心臟”，三星、SK海力士和美光三家占據了全球95%以上的產能，其擴產周期長達24到36個月。

2025年下半年以來，HBM價格漲幅超過50%，直接推高了AI芯片的成本。CoWoS封裝產能同樣嚴重不足，臺積電即便在2025年將產能翻倍，2026年的訂單依然排到了年底。

受此擠壓，普通DDR5內存半年的漲價幅度高達300%，256G服務器內存單條報價已突破4萬元。

算力租賃市場率先反映了這種緊張。自2026年2月以來，租用英偉達最先進的B200芯片的費用已翻了一番，接近每小時6美元。

即使是舊款的H100，一年期租賃合約價格也從2025年10月的約1.7美元/小時，上漲至2026年3月的2.35美元/小時，漲幅近四成。

一臺8卡的英偉達B300服務器，報價從3月份前的不到400萬元，飆升至約700萬元，而且“到貨就被掃光”。

傳導到模型層，結果就是全線漲價。GPT-5.5定價翻倍，Gemini部分場景漲價3倍，Claude的API價格水漲船高。曾幾何時被津津樂道的“AI成本將持續下降”的神話，已經被現實擊得粉碎。

為什么越燒Token，產出越少？

如果說成本上漲是外部環境的“天災”，那么企業內部的管理問題，則是讓賬單更加觸目驚心的“人禍”。

亞馬遜、Meta等巨頭此前推崇的AI使用量內部排行榜，催生了一個被稱為“Tokenmaxxing”的現象——員工通過AI代理執行毫無意義的任務來消耗Token，目的只是為了在排行榜上獲得更高的排名。亞馬遜工程高級副總裁事后不得不公開告誡員工：“請不要為了用AI而用AI”。

Meta類似的管理指標催生了幾乎同樣的問題。該公司約8.5萬名員工每月消耗60萬億Token，換算下來每位員工每天燒掉約100萬輸出Token。

部分工程團隊被允許每天在Token上花費300美元，夠一個人一天生成2500萬輸出Token。

蘋果的案例更讓人咋舌，部分工程團隊被允許每天在Token上花費300美元——按當時的價格算，夠一個人一天生成2500萬輸出Token。

最荒謬的是那筆5億美元的賬單——由于沒有設置使用上限，導致AI工具被毫無節制地濫用。高額Token賬單迅速堆積，財務部門收到時，數據甚至已經過時了三天。

但比管理失控更值得追問的是：這些燒掉的Token，到底創造了多少真實價值？

開發者生產力平臺Entelligence.AI匯總了2444家企業的數據，給出了一個令人警醒的答案：每投入1美元AI Token費用，只有18美分產生了觸達用戶的實際價值。

高達44美分被用來修復AI自身引入的Bug，27美分流向返工，11美分被審查摩擦所消耗。這意味著大部分Token不僅沒有提升效率，反而成為了效率的損耗源。

洋蔥集團創始人甚至直言：“很多員工，其實在拿公司的Token摸魚，甚至接私活。白天在公司上班，同時接外面的私活——開發單、設計單、運營單”。

甚至閑魚等二手平臺上，大量賣家正在利用公司配發的模型額度對外接單。AI還沒淘汰人類，人類倒先把公司的AI預算給報銷了。

Uber的遭遇同樣揭示了這種困局。該公司將Claude Code部署給約5000名工程師后，月使用率飆升至95%，全員AI素養得到了極大提升，但單月成本卻超出了全年的預算規劃。

Uber不得不緊急制定嚴苛的分級管理制度，像當年節省紙張一樣精打細算每一個Token的成本。

一個更加反常識的結論正在被越來越多的企業意識到：在某些場景下，AI不僅沒有提升效率，甚至反而拖慢了效率。

METR的最新研究顯示，Claude Code在實測中讓資深開發者的完成速度慢了19%。投入Token，修復Bug，返工，審查摩擦——這個循環正在吞噬原本應該被創造出來的效率空間。

當巨頭們把Token使用量納入KPI考核，員工們唯一能理性做的事情，就是無限制地消耗Token來刷分數。這套激勵機制本身就是對“效率最大化”最大的諷刺。

效率越高，燒錢越快

當人們談論AI的效率提升時，通常談論的是“單位Token產出的價值”。但這個公式存在一個被有意無意忽略的前提——Token總量是有限的。

實際上，隨著AI性能的提升，用戶的使用頻率和單次任務的復雜度只會越來越高。這是一個內在的、不可調和的悖論。

中信證券的報告數據顯示，AI計算需求已呈指數級擴張。從核心廠商的消耗數據來看，國內字節跳動（豆包）2025年12月的日均Token消耗量達到63萬億，與OpenAI的52萬億、谷歌的65萬億處于同一量級。

到2026年3月，這一數字突破120萬億，三個月內實現了翻倍增長。豆包日均Token調用量相比2024年5月增長了整整1000倍。

僅2026年前四個月，部分企業就已經耗盡了全年的Token預算。

谷歌在I/O大會上宣布，Gemini的使用量已從2025年5月的每月480萬億Token躍升至2026年5月的每月3200萬億Token，增幅超過6倍，主要驅動因素正是代理型AI（Agent）和編碼工具——這兩者消耗的計算資源遠超基本的聊天機器人查詢。

在英偉達內部的一次交流中，甚至有員工坦率地提出擔憂：“對我的團隊而言，AI成本已超過了人力成本”。

當AI比人還貴的時候，“用AI替代人力”的邏輯起點就不復存在了。

這就引出了一個根本性的問題：AI的邊際成本結構，和傳統工業是截然不同的。

過去工業革命的底層邏輯是“買斷制”——建工廠、買設備需要極高的初始投入，但一旦機器運轉起來，多生產一件產品的邊際成本幾乎為零。機器不需要按時薪結算，產量越大，平攤到單件上的成本就越低。

而到了AI時代，邏輯變成了“租賃制”。初始成本幾乎為零，你只需要按Token付費來“租賃”AI的思考能力。

但這種模式的致命弱點在于：當任務變得復雜時，Token消耗會呈指數級爆炸。一個樸素的算術題擺在了所有人面前：AI省下的那點人力成本，未必填得上Token的賬單。

具體來看技術維度的錯配也相當明顯。在大模型的推理成本結構中，約60%到70%來自工具調用和上下文處理，這一比例在復雜Agent任務中會更高。

以“訂機票+酒店+租車”的復合任務為例：用戶輸入占比不足1%，模型內部推理（思考鏈）約占5%到10%，工具調用（API交互）約占85%到90%，最終輸出不足5%。這意味著僅僅通過優化模型推理來降本的空間極為有限，真正的大頭消耗來自Agent與外部環境的反復交互。

當AI從“一問一答”變為“自主執行”，消耗的Token量級從幾百躍升到幾十萬甚至上百萬，這就是為什么開源模型和閉源模型之間曾經的價格差距，在企業級用量面前幾乎毫無意義——問題是用了多少，而不是單價多便宜。

就連微軟這樣擁有充沛云資源和完整AI產業鏈的巨頭，也開始反思這一悖論。微軟停用了內部對Anthropic旗下Claude Code的使用授權，因為按照Token按量計費的模式，哪怕是自家云資源配合使用，依然覺得成本高到難以承受。

這釋放了一個危險的信號：當基礎設施的提供者自己都燒不起Token的時候，第三方企業用戶的日子只會更難過。

成本劇烈增加，趨勢不可逆增加

AI行業曾以一種近乎天真的樂觀主義堅信“摩爾定律”能持續適用于大模型成本。但事實正在給出不同的答案。

盡管技術優化一直在路上，但在需求爆發的浪潮面前，一切優化都被稀釋了。NVIDIA在2025年GTC大會上公布的公開數據顯示，通過量化和KV Cache優化，推理成本理論上可以降低50%到70%。

但同期，GPT-4到GPT-4o的推理成本下降了約50%，而用戶調用量增長了5倍。技術優化的幅度遠遠追不上需求膨脹的速度。

更進一步的數據顯示，自2024年以來，谷歌處理的Token量年增10倍，其他供應商的增速也差不多。而全球AI算力每年只增長3.4倍，芯片內存帶寬每年增長4.1倍。

3.4對10的巨大鴻溝，意味著算力需求的增長在可預見的未來都將領先于供給，而這將不可避免地推動Token價格繼續走高。

從整個產業來看，Token成本正在重構AI經濟的底層邏輯。中信證券指出，供需失衡將推動云產業鏈進入量價齊升周期。

優刻得因硬件成本結構性上漲上調服務價格；阿里云宣布AI算力、存儲產品最高漲價34%。國內頭部大模型企業單月收入突破10億元，部分企業20天的收入就超過了2025年全年。

這組數據的背后，是Token已經從“獲客成本”變成了企業必須嚴肅對待的“硬成本”。

算力需求的全球競爭也在加速推高成本。據統計，美國四大云服務商（微軟、亞馬遜、谷歌、Meta）2025至2026年計劃資本開支合計分別達到4002億、6500億美元。

國內阿里、騰訊、百度、字節同期合計投入507.16億、669.71億美元。全球范圍內的算力軍備競賽，使得任何一家企業都難以獨善其身。

在成本端，高盛預計到2030年，AI Agent所消耗的Token用量將增長24倍，達每月120千萬億個Token。

每日數億元的Token“燃燒”，意味著Token已經從一個技術細節，上升為企業財務模型中最不可忽視的變量。AI的推理成本，正在成為這個時代最昂貴的賬單之一。

技術的進步還帶來了另一重悖論：模型變得更強大，意味著單次調用消耗更多資源。

以Anthropic最新開放的百萬級上下文窗口為例，一個90萬Token的請求與一個9千Token的請求單價完全一致。

表面上看這似乎是降價，但前提是你確實需要90萬Token。當多模態處理和完整代碼庫分析成為標準配置，單次請求的Token消耗自然水漲船高。技術的發展并未減少Token消耗，反而在功能上為更大量的消耗提供了空間。

這一現實的連鎖反應已經開始顯現，據IT桔子數據，2026年第一季度，已有超過10家AI應用初創公司停止運營或轉型。

純API創業公司既無自有流量生態，也無算力囤貨，更無私有化部署能力，它們成為Token成本上漲沖擊下最先倒下的群體。這并非短期的價格波動，而是AI產業結構性洗牌的開始。

出路在哪里？

面對天價Token賬單，整個行業正在經歷一場深刻的反思。

第一條出路，是技術層面的降本。以DeepSeek為代表的新一代開源模型，正在用稀疏注意力等架構創新大幅壓低推理成本。

DeepSeek R1的API調用價格低至$0.001/千token，僅為GPT-4 Turbo的十分之一，成本來源于三大技術優化：量化壓縮使模型體積縮減75%；動態批處理算法將GPU利用率提升至92%；架構級優化使計算量減少50%。

這種“性能不減、成本腰斬”的技術路徑，為整個行業提供了可借鑒的降本范式。DeepSeek V3的訓練成本僅為前沿模型的十分之一到二十分之一，API價格低至同類的十六分之一，在Hacker News等開發者社區引發了廣泛討論。這也說明，AI算力的普及并不必然等同于高成本，關鍵在于技術架構的革新。

第二條出路，是企業內部的管理重構。亞馬遜已經在行動，他們關閉了鼓勵Tokenmaxxing的內部排行榜KiroRank，轉而采用名為“標準化部署”的指標，衡量的是實際交付的AI輔助代碼，而非消耗的Token數量。

Uber也制定了嚴格的分級管理制度，限制工程師的AI工具使用流量。從“用量考核”到“結果考核”，這一轉變意味著企業對AI的態度已經從“追求普及率”轉向“追求投資回報率”。

正如Uber的遭遇所揭示的那樣，讓全員用上AI并不難，難的是讓AI為業務創造價值。

第三條出路，是商業模式的重構。國內豆包開始推出付費訂閱，從每月68元到500元不等；百度文心一言也推出49.9元/月會員；Kimi試水每月49元至199元檔位。

雖然用戶對收費反應不一，但一個事實已經明確：靠資本輸血維持免費模式的階段已經走到了盡頭。

同時，Anthropic將Claude企業版的定價模式從固定訂閱轉向“基礎費+按實際算力消耗付費”的混合模式。

舊模式下最高需為每位授權用戶支付每月200美元，新模式下則在每用戶每月20美元的基礎費之上額外按實際消耗的算力付費。在此背景下，AI成本的最終承擔者，將從風險投資和企業IT預算，逐漸轉移至最終用戶。

技術降本、管理增效、商業變現——這三條路沒有一條是輕松的，但它們合在一起，構成了AI經濟走向可持續的唯一路徑。

結語

當人們回顧2026年的這個夏天，很可能會發現，這是AI從神話回歸常識的轉折點。

“AI一定比人便宜”，這句過去兩年被無數次重復的信念，如今終于迎來了審視。

簡單任務上AI確實遠比人工廉價，但當任務變得復雜、當循環思考上線、當Agent開始“永不下班”，昂貴的API賬單終將反超人類薪資。

Token的稀缺不是技術問題，而是經濟問題。它提醒所有人：算力雖大，但不是無限的；效率雖高，但不是免費的；創新雖好，但不是無代價的。

AI帶來的效率提升是真實的，但同時伴隨著成本的劇烈增加——這才是完整的、不被有意忽略的經濟賬。

巨頭們收縮AI預算并不意味著放棄AI，而是一次健康的回調。

從“燒Token競賽”回歸到“價值創造”，從“為了用AI而用AI”回到“AI是工具不是目的”——這些判斷雖然聽起來像是常識，但在狂熱的市場中，常識往往是最容易被遺忘的東西。

下一次，當你打開對話框問AI一個簡單的問題，消耗幾百個Token時，不妨想一想那些在后臺循環思考數萬次的Agent，那些反復調用外部工具去完成一個任務的自動化流程，那些為了一個代碼Bug而繞了無數彎路的復雜推理——每一個Token的背后，都是一筆真實賬。

AI的賬，終究要有人來付。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

影子聊科技

帶你了解前沿科技資訊

28文章數 1關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

本地

數碼

時尚

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

巨頭開始“燒不動Token”了

DeepSeek融資500億，梁文鋒牢牢握住控制權

歐盟稱已核實"中方訓練俄軍人員在烏作戰" 外交部回應

歐盟稱已核實"中方訓練俄軍人員在烏作戰" 外交部回應

身價5萬的門將，擋住了12億歐元的狂轟濫炸

吳文忻葬禮：2個女兒在靈堂內茫然失措

2萬億存款去哪兒了？

smart #6上市后 竟然很少被討論參數

態度原創

粽子一次吃多少不傷胃？專家講解

這屆年輕人為什么都在找心流時刻？

618鼠標熱銷榜來了！哪款才是你的本命裝備

專訪丨重排版《青蛇》：“戀愛腦”還是“完美主義”？

smart #6上市后竟然很少被討論參數