![]()
?潮涌AI編輯部
文|HAL
關(guān)于AI到底能不能“降本增效”,前不久Uber總裁兼COO安德魯·麥克唐納在一檔播客里講了一個細(xì)節(jié)。
他說,今年4月,Uber CTO普拉文·內(nèi)帕利·納加發(fā)現(xiàn)公司四個月就用光了2026全年的Claude Code預(yù)算。那一刻被他形容為“腦袋爆炸”。
得知這一噩耗之后,公司內(nèi)部開始認(rèn)真討論一件以前沒人當(dāng)回事的事:Token到底花了多少錢,這些錢換回了什么。
麥克唐納給出的結(jié)論很冷靜。他和高級工程負(fù)責(zé)人交流之后意識到,更高的Token消耗,并沒有換來同比例更多的、對用戶真正有用的功能。
那條“投入越多、產(chǎn)出越多”的曲線,他畫不出來。
他還有一句話說得很直接:AI不是免費(fèi)的。
![]()
圖源:網(wǎng)絡(luò)
這件事值得說,原因不在于Uber小氣不想花錢——它一年R&D投入三十多億美元,不差這點(diǎn)預(yù)算。關(guān)鍵在于,一家把AI用得這么猛、采用率這么高的公司,第一次公開承認(rèn)自己算不清這筆賬。
當(dāng)然,Uber也不是孤例。
微軟正在收回自家部門里大部分Claude Code的授權(quán),要求員工改用GitHub Copilot;擅長整活的語言學(xué)習(xí)平臺Duolingo也撤回了把AI使用量納入績效考核的做法,因?yàn)閱T工質(zhì)疑這個指標(biāo)獎勵的是“為用而用”;而在國內(nèi),米哈游的一位技術(shù)leader也在近期分享中無奈說道一次“慘痛”事件,由于工程師沒有設(shè)置Token消耗上限就下班離開,結(jié)果智能體連續(xù)運(yùn)行13小時,消耗了價值200萬元人民幣的Token,而這200萬在網(wǎng)友看來是無意義;甚至社交媒體上有消息表示,騰訊開始縮水員工的Token福利……
今年還未過半,企業(yè)們已經(jīng)要集體開始算Token賬了。
有意思的地方在這里——
所有人都覺得AI還在持續(xù)進(jìn)化:模型還在變強(qiáng)、Token單價還在跌、采用率還在漲。一切看起來都還在爬坡,離頂點(diǎn)還有距離。
可泡沫已經(jīng)先一步冒出來了。
Token越來越便宜,賬單卻越來越貴
先看一個反直覺的事實(shí)。
過去一年,主流廠商每百萬Token的平均成本從大約10美元跌到2.5美元;再往前看,2024年初要達(dá)到GPT-4級別的性能,每百萬Token大約要60美元;到2026年初,這個數(shù)字下降了超過98%,高效模型只要0.3到0.75美元。
Token在快速變便宜。但同一批看著Token價格下跌的企業(yè),月度賬單卻在成倍增長。
原因不復(fù)雜。
單價下跌只說了一半的故事。
企業(yè)消費(fèi)AI的方式變了。按2024年的Token費(fèi)率做的預(yù)算表,遇上2026年的用法,消耗的是預(yù)算的好幾倍。
國內(nèi)這邊,降幅比海外更大。
4月底,DeepSeek在兩天內(nèi)兩次降價,先給V4-Pro開了2.5折限時優(yōu)惠,又把全系輸入緩存命中價降到首發(fā)價的十分之一。原本說好5月31日恢復(fù)原價,結(jié)果5月22日宣布:2.5折不再限時,轉(zhuǎn)為永久。降價之后,V4-Pro緩存命中輸入每百萬Token只要0.025元。
緊接著是小米。5月27日MiMo-V2.5系列API宣布永久降價,最高降幅99%,同時取消了上下文窗口的分檔。雷軍轉(zhuǎn)發(fā)了這則消息,歡迎開發(fā)者接入。其緩存命中輸入價從每百萬Token 2.8元降到0.025元,與DeepSeek基本持平。
![]()
算下來,2026上半年中國各家大模型公司一共下調(diào)了六次API價格,其中三次宣布為永久降價。
但同一個市場里,還有另一批廠商在漲價。
字節(jié)豆包推出付費(fèi)訂閱,智譜三次上調(diào)API價格,阿里云和騰訊云相繼宣布漲價5%。一邊是DeepSeek、小米把價格壓到很低,一邊是另一批廠商往上調(diào)。同一個賽道,同一段時間,降價和漲價同時發(fā)生。
這一點(diǎn)比單純降價更值得琢磨。如果這個生意已經(jīng)有穩(wěn)定的盈利模型,價格應(yīng)該收斂到一個區(qū)間,而不會分成兩個方向。
價格分化,說明廠商對這東西該賣多少錢并沒有共識——有人想用補(bǔ)貼換規(guī)模,有人想靠漲價緩口氣,背后是同一個問題:還沒找到一條能站得住的成本線。
其中最大的變量其實(shí)是Agent。
聊天機(jī)器人時代,你問一句,它答一句,Token按單次調(diào)用計(jì)費(fèi)。Agent時代不同,它會自己拆解任務(wù)、調(diào)用工具、反復(fù)試錯,一個任務(wù)背后是幾十上百輪調(diào)用。同樣一件事,agentic工作流消耗的Token是聊天機(jī)器人的5到30倍,極端情況能到幾百倍甚至上千倍。
![]()
圖源:網(wǎng)絡(luò)
這才是Uber那筆賬算不清的根源。問題不在某一次漲價,而在整個使用范式換擋,把成本曲線整體抬高了一個量級。
這件事也對一個流行說法構(gòu)成了挑戰(zhàn):AI是基礎(chǔ)設(shè)施,邊際成本會趨近于零。
傳統(tǒng)軟件確實(shí)是這個邏輯。寫一次,托管成本極低,每多一個客戶的邊際成本接近于零,所以能做出75%到80%的毛利率。AI不適用這套邏輯。每一次推理、每一條回復(fù)、每一個代碼建議,背后都要消耗實(shí)際的算力。
而Agent把這個問題進(jìn)一步放大。如今推理已經(jīng)占到企業(yè)AI預(yù)算的85%,占AI總算力消耗的八到九成。產(chǎn)業(yè)越往Agent走,賬單越高,而不是越低。
所以,Uber現(xiàn)在做的事,是把Token消耗的成本,直接拿去和招人的成本作對比。一邊是工程師的工資,一邊是模型的賬單,擺在同一張表上比。
這是一個信號。
當(dāng)一家公司開始把算力賬單和招人成本放在一起核算的時候,意味著它已經(jīng)把AI當(dāng)成一項(xiàng)需要權(quán)衡的常規(guī)成本,而不再是無條件投入的戰(zhàn)略項(xiàng)目。
買方覺得貴了,但賣方自己也在虧
更值得注意的問題在供給這一端。
Uber們現(xiàn)在還覺得Token便宜,是因?yàn)檫@個價格本身被補(bǔ)貼過。它并不反映真實(shí)成本,更像一張還沒到期的優(yōu)惠券。
看毛利率。
據(jù)The Information報(bào)道,OpenAI去年毛利率從40%跌到33%,遠(yuǎn)低于自己46%的預(yù)測;Anthropic 2025年的毛利率預(yù)計(jì)只有40%,比目標(biāo)低了10個百分點(diǎn)——兩家都沒達(dá)標(biāo),主因都是同一個:推理成本失控,遠(yuǎn)超預(yù)期。
看絕對虧損。
OpenAI 2025年虧損約90億美元,2026年預(yù)計(jì)170億,2027年570億。有分析師把訓(xùn)練成本也計(jì)入后估算,OpenAI在每一塊“算力美元”上只收回大約0.68美元——也就是說,在支付任何工資和銷售費(fèi)用之前,僅硬件成本一項(xiàng),每1美元就要虧掉0.32美元。
![]()
圖源:網(wǎng)絡(luò)
這意味著用戶每發(fā)一條復(fù)雜查詢,AI公司實(shí)際上就在這筆交易上虧錢;而那些低價訂閱,恰恰是補(bǔ)貼力度最大的部分。
當(dāng)然這個劇本也并不陌生。
所謂“千禧一代生活方式補(bǔ)貼”,就是VC的錢幫你補(bǔ)貼了便宜的Uber打車和DoorDash外賣。今天你用的每一個Token,本質(zhì)上是這套補(bǔ)貼的AI版本。
補(bǔ)貼還有更隱蔽的一層。
這些AI大廠通過戰(zhàn)略合作拿到打折算力,華爾街有時候管這叫“循環(huán)融資”——微軟據(jù)報(bào)道以低于市場價向OpenAI供應(yīng)算力。可即便吃著這些折扣,OpenAI和Anthropic還是在虧錢。
補(bǔ)貼不會一直持續(xù)。已經(jīng)有從業(yè)者明確預(yù)告:當(dāng)前API定價是被補(bǔ)貼的,做2027年預(yù)算時應(yīng)該保守假設(shè)未來18個月API價格上漲30%到50%,因?yàn)閺S商遲早要轉(zhuǎn)向能盈利的單位經(jīng)濟(jì)學(xué)。
很多唱空者說得更直白,當(dāng)前這些價格戰(zhàn),是風(fēng)險(xiǎn)投資和超大規(guī)模廠商的交叉補(bǔ)貼撐起來的,一旦資本收緊,就難以為繼。
比如現(xiàn)在很多大公司發(fā)現(xiàn)Token賬單和產(chǎn)出對不上,開始算賬;賣方本身就在虧本經(jīng)營,遲早要漲價;漲價之后,買方的賬更難算。兩頭都還在虧生意,顯然中間總是有一些環(huán)節(jié)出了問題。
當(dāng)然,也有人不認(rèn)同這套判斷。
有一派的“餐巾紙算法”認(rèn)為推理其實(shí)是賺錢的——輸入Token的處理成本比輸出Token低近千倍,靠這種不對稱,API業(yè)務(wù)的毛利率可以達(dá)到軟件級別,即便估算偏差三倍也依然盈利。
但問題恰恰在這里。“單Token更便宜”不等于“整體更便宜”。
當(dāng)Agent把每個任務(wù)的Token消耗抬高5到30倍,毛利能否擴(kuò)張,取決于成本下降的速度是否快過需求上升的速度。
這是一個還沒有答案的賭注。
而泡沫常常就出現(xiàn)在沒有答案的地方。
互聯(lián)網(wǎng)時代“先圈用戶、再談變現(xiàn)”的邏輯能成立,前提是邊際成本真的可以做到趨近于零,規(guī)模上來之后成本會被攤薄。
Token經(jīng)濟(jì)沒有這個前提——規(guī)模越大,消耗越多,所以,它可能比許多行業(yè)都更早,在自身還沒真正成熟的階段,就先遇上泡沫。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.