![]()
2026年4月12日,智譜Coding Plan(海外版)月付價格幾乎翻倍。
第二天,阿里云宣布取消百煉平臺基礎(chǔ)套餐的續(xù)費入口。
其他廠商并沒有在漲價上落后,4月9日,騰訊云AI算力全線上調(diào)5%。
這場漲價潮,代表著AI產(chǎn)業(yè)正從"流量獲客"的互聯(lián)網(wǎng)時代,迅速滑向"算力通貨緊縮"的重工業(yè)時代。
之前為了吸引用戶,大模型大打價格戰(zhàn)。現(xiàn)在token使用量猛增,從大模型到云廠商,都看到了賣token能夠跑通的盈利模式,也該提價收回此前的成本了。
在洶涌增長的token需求面前,算力供應(yīng)極度吃緊,漲價就順著產(chǎn)業(yè)鏈不斷向下游傳導(dǎo),承受成本的終端就是中小型開發(fā)者和普通用戶。
智能體撞開了算力閘門
我國日均token調(diào)用量,今年三月已經(jīng)超過了140萬億,相比2024年初的1000億增長了1000多倍,比起2025年底的100萬億,三個月內(nèi)也增長了40%。
最近三個月的猛漲,主要得益于以O(shè)penClaw為代表的智能體,讓它們自動工作要消耗大量token,以至于有相當一批人體驗了OpenClaw后,大呼token消耗太厲害,快沒錢燒了,只好卸載了事。
token消耗量猛增,意味著算力大幅消耗,傳導(dǎo)到上游就是AI芯片遭到哄搶。
根據(jù)SemiAnalysis,英偉達H100的一年期租賃合同價格從2025年10月的1.70美元/小時/GPU飆升至2026年3月的2.35美元,漲幅近40%。
上漲的可不只有GPU價格,就連AI服務(wù)器調(diào)度與推理核心的CPU也在被搶購,2026年3月下旬,英特爾與AMD相繼通知客戶上調(diào)處理器價格,這兩家今年服務(wù)器CPU產(chǎn)能已基本售罄。
成本壓力沿著"芯片-云廠商-模型廠商-應(yīng)用廠商-企業(yè)客戶"的鏈條層層下傳。
Cursor是全球最大的獨立AI代碼生成平臺,2026年2月年化收入突破20億美元,看似風(fēng)光,實則2025年虧損至少1.5億美元。
其幾乎所有收入都被用于調(diào)用Anthropic和OpenAI的模型,毛利率被壓縮至令人窒息的水平。
傳統(tǒng)SaaS軟件公司毛利率中位數(shù)高達77%,現(xiàn)在AI大模型和應(yīng)用卷死了傳統(tǒng)軟件公司,可AI應(yīng)用的平均毛利率僅為25%至60%。
所以大模型只能漲價,把成本繼續(xù)往下游傳導(dǎo),此前價格戰(zhàn)給的福利要收回,這一風(fēng)氣也不是國內(nèi)先開始的。
2026年4月初,全球領(lǐng)先的大模型廠商,已經(jīng)估值數(shù)百億美元的AI巨頭Anthropic,突然切斷訂閱用戶通過OpenClaw等第三方工具接入Claude API的許可。
官方解釋直白赤裸,部分重度用戶每月僅支付200美元訂閱費,卻消耗了價值5000美元的算力資源。
一個OpenClaw代理運行一天,背后的算力成本在1000至5000美元之間,用戶還是趁早別白嫖自家服務(wù),該去切換至按用量付費的API模式,不然連Anthropic都頂不住。
token浪費觸目驚心
大模型漲價,用戶肉疼之余也在疑惑,這token就非得燒這么多嗎?
今年3月,就有一位名為shelvenzhou的開發(fā)者在GitHub上進行了一項基準測試,記錄自己使用OpenClaw處理日常工作的Token消耗軌跡。
第一輪對話成本0.0050美元,很是省錢。
第五輪飆升至0.0665美元,不大對勁。
第十輪達到0.13美元,是個人意識到了,燒的錢根本不是一點點增長,而是指數(shù)級爆炸。
像癌細胞一樣,每一輪分裂都在加速吞噬算力資源。
為什么token消耗會隨著對話次數(shù)增多而指數(shù)爆炸呢?
了解OpenClaw等智能體的工作原理,就能理解token消耗量指數(shù)增長,是因為“上下文的無序膨脹”。
隨著對話輪次增長,歷史文件、對話記錄不斷累積,智能體為了尋找相關(guān)信息,往往只能采取"寧可錯殺一千"的策略,把所有文件都讀一遍。
用戶每次輸入后,Agent甚至可能需要重新計算完整的對話記錄和文件數(shù)據(jù)。這導(dǎo)致智能體成本指數(shù)級增長,正如shelvenzhou測試的那樣,第10輪對話的成本已是第1輪的26倍。
聰明的你自然會想到,這么多消耗的token里有相當一部分是浪費掉了。
《財經(jīng)》統(tǒng)計,今年一季度,GitHub上有關(guān)“Token Waste”(token浪費)的問題,數(shù)量沖到了超過4000多個,比起上個季度增長了快五倍。
![]()
☉數(shù)據(jù)來源:財經(jīng)
天下苦token浪費久矣。
讓人人都能用得起智能體
想要用token少花錢,一個辦法是多提供芯片,把芯片成本降下來。
然而國產(chǎn)AI芯片產(chǎn)能仍然被卡脖子,3月底華為昇騰服務(wù)器系列也漲價了,910C(A3)1TB內(nèi)存版本單臺大概上漲16萬至32萬元,2TB版本漲幅在32萬至48萬元之間。
還有一個辦法,就是優(yōu)化智能體,讓它不要再浪費那么多token了。
目前有個成熟做法是“KV Cache”(鍵值緩存)技術(shù)。
這項技術(shù)原理也簡單,模型對已計算上下文的結(jié)果進行緩存,以免下次調(diào)用重復(fù)計算消耗token。
還有一個辦法,就是做好模型分工,token用在刀刃上。
復(fù)雜規(guī)劃用旗艦?zāi)P捅WC準確,簡單的高頻執(zhí)行交給輕量模型即可。
OpenAI的Codex升級已經(jīng)體現(xiàn)了這種分層邏輯:GPT-5.4負責規(guī)劃、協(xié)調(diào)與最終判斷,而GPT-5.4 Mini子智能體則并行處理代碼庫檢索、大文件審閱等細粒度任務(wù)。
不管哪種方法,都說明目前的智能體仍然處于起步階段,還很不成熟,就像一批天不怕地不怕的小馬駒,雖然最終能跑到終點,但過程中會到處亂跑消耗體力。
所以最近harness在AI圈子里火了。
Harness原意是馬具,放在這里就是指約束智能體,讓它更省力地跑到終點,這涉及到給模型調(diào)用什么工具、如何做分層的上下文工程、如何管理長記憶、如何設(shè)計工作流。
從這個意義上說,在智能體從"能跑"進化到"越跑越穩(wěn)"的harness時代,能做的工作還有很多。誰能用更少的token完成同樣的任務(wù),誰就能在AI產(chǎn)業(yè)的殘酷洗牌中存活。
token經(jīng)濟的正向循環(huán)不會自動形成,想要用戶用得起,還是得減少浪費,讓大家都玩起來。
否則,2026年智能體普及年的狂歡,將在算力不足,擠出普通用戶的過程中落幕。
![]()
AI漲價潮:智譜海外版“直逼”Claude,阿里云取消基礎(chǔ)套餐,四年前的H100也賣光了 https://mp.weixin.qq.com/s/VJzaTh9rHAawssltU3FaFQ
阿里、騰訊、百度集體調(diào)價,Token第一股年內(nèi)狂飆547%,算力漲價潮來了 https://mp.weixin.qq.com/s/s6LoLAD3WvhN1-QdNi_hDg
從“龍蝦”到“愛馬仕”,Agent越能干Token越費錢 https://mp.weixin.qq.com/s/40lUY9JWuxq6EryEkImK-Q
Elephant走紅:AI開始為“Token浪費”算細賬 https://mp.weixin.qq.com/s/7e0WXmZl2Ar25vd-RiNHbg
今天,50%的Token正在被浪費 https://mp.weixin.qq.com/s/r7LMwCArMtDfejJbrPJC5w
我國日均Token的調(diào)用量三個月增長超40% 目前已超140萬億_媒體聚焦_數(shù)字中國建設(shè)峰會 https://www.digitalchina.gov.cn/2026/xwzx/mtjj/202603/t20260325_5300141.htm
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.