AI支出管理正在成為企業IT治理的新戰場。隨著AI Agent和代碼工具的普及,Token賬單正式進入CFO視野,企業的應對方式正在重塑AI產業鏈的受益格局。
據追風交易臺,瑞銀證券分析師Karl Keirstead團隊在6月23日發布的AI研究報告中給出核心判斷:Token支出優化的激增可能暫時拖累AI收入增長,但長期趨勢依然強勁。其前期調研顯示,約60%的企業已以某種方式限制AI開支,核心動作是為Token使用加設護欄。這一比例意味著,AI支出的成本治理已從個別企業的自發行為演變為更廣泛的行業現象。
變化的直接影響正在傳導至產業鏈。高價前沿模型面臨降檔使用與開源替代的壓力,中國開源模型——包括阿里Qwen、DeepSeek、MiniMax、智譜GLM等——開始進入企業采購與部署選項,一家大型全球銀行已在本地部署Qwen以平衡Claude等高端模型的使用。
云廠商和硬件層所受沖擊相對有限,軟件公司則處于最為復雜的位置:既面臨客戶預算壓縮,又有機會將自身定位為Token優化平臺。
企業沒有停用AI,只是開始看Token賬單
企業AI使用的早期階段以粗放為主要特征——鼓勵員工盡量試用,優先追求采用率,成本紀律普遍較弱。隨著AI Agent和AI Coding工具的普及,Token消耗從聊天機器人式的小流量演變為持續跑任務的大流量,"Token-maxxing"問題開始浮出水面。
從調研中可見具體案例的極端性:有公司年內Token預算被大量消耗,不得不將內部AI工具從5個收縮至2個;有企業在AWS Bedrock上出現單個用戶單月花費3.5萬美元的情況;還有DevOps團隊成員每周Token用量達到配額的100%至200%,但企業暫未明確干預。
這并非一個統一的"踩剎車"故事。部分企業因AI已深度嵌入產品工作流,目標不是少用Token,而是提升每一美元的產出;還有企業將員工薪酬目標與AI使用掛鉤,CFO的降本訴求與CEO的推廣目標之間形成張力。Databricks CEO對這一輪變化的描述是:"這是一個大減速帶,不是小減速帶。"
真正被壓縮的往往是ROI不清晰的使用場景。軟件工程師代碼產出提升、客服AI Agent帶來的呼叫量減少、研發流程提速,這些指標讓部分公司沒有動力強行限用,企業愿意忍受高Token賬單的前提是ROI看得見。
模型路由讓高端模型從"默認項"變成"奢侈項"
Token優化最重要的技術動作不是簡單限額,而是模型路由:將不同任務分配給不同模型,只有復雜推理、關鍵代碼和長上下文分析才調用最貴的模型。
價格差異是推動這一行為的直接驅動力。以Anthropic模型定價為例,Haiku 4.5輸出價格為每百萬Token 5美元,Opus 4.5-4.8為25美元,Fable/Mythos 5則高達50美元——從最低端升至最高端,輸出Token價格相差10倍。這一價差使得"按任務選模型"具有顯著的成本意義。
更合理的計算維度是"每個成功結果的有效成本":高端模型若能一次生成高質量結果,可能比低端模型反復迭代更劃算,但這也意味著高端模型必須持續證明自身溢價的合理性。以前將所有任務都提交給最強模型的團隊,現在開始追問:這個任務真的需要最大上下文窗口嗎?
微軟近期推出的MAI小語言模型也踩中了這一方向。MAI "Thinking"被描述為350億參數的中等規模模型,Code-1則定位低端前沿模型,目標是為企業提供"夠用但更便宜"的選項。
中國開源模型進入企業成本曲線
降檔不只發生在同一家模型供應商內部。企業正在更大規模地評估開源模型,尤其是來自中國的開源模型,包括阿里Qwen、DeepSeek、MiniMax、智譜GLM以及Moonshot旗下的Kimi。
據描述的案例,一家大型全球銀行為管理Token支出,開始在本地部署Qwen,以平衡Claude等高端模型的使用。本地化部署將成本結構從按Token付費轉變為本地硬件容量配置,同時規避了使用外部托管中國模型的合規風險。
云平臺已將上述模型納入標準菜單。AWS Bedrock的模型選項中已包含MiniMax、Kimi、Qwen、DeepSeek、GLM;微軟方面通過Azure AI Foundry提供DeepSeek,并在多模型策略下持續評估不同模型的性能與成本組合。
對中國模型提供商而言,這是機會,但邊界同樣清晰。開源模型通常免費或低價,直接貨幣化空間有限,更現實的路徑可能類似BMW與阿里圍繞Qwen展開合作的項目模式。
云和芯片受到的不是同一種壓力
模型層是此輪成本壓力的直接承壓點,云和硬件層的沖擊則需繞道傳導。
AWS、Azure、Google Cloud已是多模型平臺,并未單押某一家前沿模型公司。客戶從高價模型切換至小模型或開源模型,可能影響云廠商的模型API收入增速,但只要推理仍在云上運行,算力需求便不會消失。企業越重視成本管理,反而越可能將模型選擇、部署、安全和計費統一托管至云平臺。
對GPU云和AI基礎設施定價權的影響是需要持續觀察的變量:若模型公司因客戶價格敏感而下調每Token價格,云算力是否仍具提價能力?這一問題已進入投資者討論,但當前算力供給仍然偏緊,AI滲透仍處早期,訓練與推理需求并未因優化行為而中斷。
硬件層的判斷整體偏向樂觀。GB200/GB300等新一代算力剛開始形成規模,基于這些芯片訓練和推理的模型有望帶來更好的Token經濟性。音頻、視頻、物理AI等多模態數據流需求仍在持續擴展算力邊界。
軟件公司:預算壓力與"優化器"機會并存
AI Token支出上升后,企業預算并非可以無限擴張。目前可觀察到的幾個資金來源方向包括:放緩招聘、減少外部IT服務支出、壓縮SaaS和應用軟件預算增長。
Uber的例子具有代表性:AI使用繼續推進,但通過放緩內部人員增長來抵消Token成本。這一框架也被用來解讀IT服務公司和部分SaaS公司的疲弱表現。
大型席位制SaaS公司處境尤為復雜。Salesforce、ServiceNow、Workday等公司一方面面對客戶預算重排,另一方面仍在推動從席位收費向"席位加使用量"的計費模式過渡——而當客戶剛剛被AI賬單沖擊時,接受另一個使用量計費模型的意愿明顯下降。
但軟件公司也有一張反牌。Palantir約一個月前商業化AIP Evolve,幫助客戶選擇最適合任務的模型、調優Prompt、改善數據調用。據披露,Evolve在一個案例中推薦更換模型后,Token成本下降97%,上線前三周采用率達到90%。
軟件公司的結構性優勢在于"不綁定單一模型"——可將自身定位為模型中立的調度平臺,在Claude、Qwen、Llama及各類小模型之間為客戶做成本與性能調度,邏輯與多云數據庫公司類似。
AI增長邏輯未變,斜率之爭才剛開始
當前最難量化的變量是Token增速究竟會被壓低多少。許多企業自身尚未完全摸清Token花在哪里,可靠的全行業數據更加稀缺。
一個較為保守的路徑假設是:若某企業原本AI Token支出為100,且預計數月后增長至150,優化后實際可能落在120至130區間,而非倒退至80。也就是說,增速被壓低,而非需求逆轉。
瑞銀旗下Evidence Lab對約130家企業的最新調查顯示,僅8%的企業已在生產環境中大規模部署AI Agent,37%是生產中有限規模使用,29%仍在試點,26%只是使用Copilot或AI Coding等產品但尚未部署Agent應用。AI Agent真正大規模消耗Token的階段才剛開始。
![]()
頭部AI原生公司的數據印證了這一判斷。法律AI公司Harvey披露,其Token消耗從1月的1萬億增長至5月的12萬億至13萬億,說明優化與擴張可以同時發生:企業會更精細地分配支出,但AI使用場景仍在持續向外擴展。
此輪Token優化與2022年至2024年后疫情時代云與軟件的"預算回撤"存在本質差異:后者是成熟用量被砍,前者更接近新技術擴散早期的成本治理。其結果不是AI需求消失,而是重塑贏家排序——高價模型收入增速受壓,低成本模型和路由工具受益,云平臺繼續吃多模型部署需求,軟件公司則站在被砍預算與成為省錢工具的岔路口上。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.