網易首頁 > 網易號 > 正文申請入駐

瑞銀發現：60%已開始控制AI支出，企業轉向低成本模型與開源中國模型

2026-06-25 12:30:19　來源: 華爾街見聞官方

上海舉報

分享至

AI支出管理正在成為企業IT治理的新戰場。隨著AI Agent和代碼工具的普及，Token賬單正式進入CFO視野，企業的應對方式正在重塑AI產業鏈的受益格局。

據追風交易臺，瑞銀證券分析師Karl Keirstead團隊在6月23日發布的AI研究報告中給出核心判斷：Token支出優化的激增可能暫時拖累AI收入增長，但長期趨勢依然強勁。其前期調研顯示，約60%的企業已以某種方式限制AI開支，核心動作是為Token使用加設護欄。這一比例意味著，AI支出的成本治理已從個別企業的自發行為演變為更廣泛的行業現象。

變化的直接影響正在傳導至產業鏈。高價前沿模型面臨降檔使用與開源替代的壓力，中國開源模型——包括阿里Qwen、DeepSeek、MiniMax、智譜GLM等——開始進入企業采購與部署選項，一家大型全球銀行已在本地部署Qwen以平衡Claude等高端模型的使用。

云廠商和硬件層所受沖擊相對有限，軟件公司則處于最為復雜的位置：既面臨客戶預算壓縮，又有機會將自身定位為Token優化平臺。

企業沒有停用AI，只是開始看Token賬單

企業AI使用的早期階段以粗放為主要特征——鼓勵員工盡量試用，優先追求采用率，成本紀律普遍較弱。隨著AI Agent和AI Coding工具的普及，Token消耗從聊天機器人式的小流量演變為持續跑任務的大流量，"Token-maxxing"問題開始浮出水面。

從調研中可見具體案例的極端性：有公司年內Token預算被大量消耗，不得不將內部AI工具從5個收縮至2個；有企業在AWS Bedrock上出現單個用戶單月花費3.5萬美元的情況；還有DevOps團隊成員每周Token用量達到配額的100%至200%，但企業暫未明確干預。

這并非一個統一的"踩剎車"故事。部分企業因AI已深度嵌入產品工作流，目標不是少用Token，而是提升每一美元的產出；還有企業將員工薪酬目標與AI使用掛鉤，CFO的降本訴求與CEO的推廣目標之間形成張力。Databricks CEO對這一輪變化的描述是："這是一個大減速帶，不是小減速帶。"

真正被壓縮的往往是ROI不清晰的使用場景。軟件工程師代碼產出提升、客服AI Agent帶來的呼叫量減少、研發流程提速，這些指標讓部分公司沒有動力強行限用，企業愿意忍受高Token賬單的前提是ROI看得見。

模型路由讓高端模型從"默認項"變成"奢侈項"

Token優化最重要的技術動作不是簡單限額，而是模型路由：將不同任務分配給不同模型，只有復雜推理、關鍵代碼和長上下文分析才調用最貴的模型。

價格差異是推動這一行為的直接驅動力。以Anthropic模型定價為例，Haiku 4.5輸出價格為每百萬Token 5美元，Opus 4.5-4.8為25美元，Fable/Mythos 5則高達50美元——從最低端升至最高端，輸出Token價格相差10倍。這一價差使得"按任務選模型"具有顯著的成本意義。

更合理的計算維度是"每個成功結果的有效成本"：高端模型若能一次生成高質量結果，可能比低端模型反復迭代更劃算，但這也意味著高端模型必須持續證明自身溢價的合理性。以前將所有任務都提交給最強模型的團隊，現在開始追問：這個任務真的需要最大上下文窗口嗎？

微軟近期推出的MAI小語言模型也踩中了這一方向。MAI "Thinking"被描述為350億參數的中等規模模型，Code-1則定位低端前沿模型，目標是為企業提供"夠用但更便宜"的選項。

中國開源模型進入企業成本曲線

降檔不只發生在同一家模型供應商內部。企業正在更大規模地評估開源模型，尤其是來自中國的開源模型，包括阿里Qwen、DeepSeek、MiniMax、智譜GLM以及Moonshot旗下的Kimi。

據描述的案例，一家大型全球銀行為管理Token支出，開始在本地部署Qwen，以平衡Claude等高端模型的使用。本地化部署將成本結構從按Token付費轉變為本地硬件容量配置，同時規避了使用外部托管中國模型的合規風險。

云平臺已將上述模型納入標準菜單。AWS Bedrock的模型選項中已包含MiniMax、Kimi、Qwen、DeepSeek、GLM；微軟方面通過Azure AI Foundry提供DeepSeek，并在多模型策略下持續評估不同模型的性能與成本組合。

對中國模型提供商而言，這是機會，但邊界同樣清晰。開源模型通常免費或低價，直接貨幣化空間有限，更現實的路徑可能類似BMW與阿里圍繞Qwen展開合作的項目模式。

云和芯片受到的不是同一種壓力

模型層是此輪成本壓力的直接承壓點，云和硬件層的沖擊則需繞道傳導。

AWS、Azure、Google Cloud已是多模型平臺，并未單押某一家前沿模型公司。客戶從高價模型切換至小模型或開源模型，可能影響云廠商的模型API收入增速，但只要推理仍在云上運行，算力需求便不會消失。企業越重視成本管理，反而越可能將模型選擇、部署、安全和計費統一托管至云平臺。

對GPU云和AI基礎設施定價權的影響是需要持續觀察的變量：若模型公司因客戶價格敏感而下調每Token價格，云算力是否仍具提價能力？這一問題已進入投資者討論，但當前算力供給仍然偏緊，AI滲透仍處早期，訓練與推理需求并未因優化行為而中斷。

硬件層的判斷整體偏向樂觀。GB200/GB300等新一代算力剛開始形成規模，基于這些芯片訓練和推理的模型有望帶來更好的Token經濟性。音頻、視頻、物理AI等多模態數據流需求仍在持續擴展算力邊界。

軟件公司：預算壓力與"優化器"機會并存

AI Token支出上升后，企業預算并非可以無限擴張。目前可觀察到的幾個資金來源方向包括：放緩招聘、減少外部IT服務支出、壓縮SaaS和應用軟件預算增長。

Uber的例子具有代表性：AI使用繼續推進，但通過放緩內部人員增長來抵消Token成本。這一框架也被用來解讀IT服務公司和部分SaaS公司的疲弱表現。

大型席位制SaaS公司處境尤為復雜。Salesforce、ServiceNow、Workday等公司一方面面對客戶預算重排，另一方面仍在推動從席位收費向"席位加使用量"的計費模式過渡——而當客戶剛剛被AI賬單沖擊時，接受另一個使用量計費模型的意愿明顯下降。

但軟件公司也有一張反牌。Palantir約一個月前商業化AIP Evolve，幫助客戶選擇最適合任務的模型、調優Prompt、改善數據調用。據披露，Evolve在一個案例中推薦更換模型后，Token成本下降97%，上線前三周采用率達到90%。

軟件公司的結構性優勢在于"不綁定單一模型"——可將自身定位為模型中立的調度平臺，在Claude、Qwen、Llama及各類小模型之間為客戶做成本與性能調度，邏輯與多云數據庫公司類似。

AI增長邏輯未變，斜率之爭才剛開始

當前最難量化的變量是Token增速究竟會被壓低多少。許多企業自身尚未完全摸清Token花在哪里，可靠的全行業數據更加稀缺。

一個較為保守的路徑假設是：若某企業原本AI Token支出為100，且預計數月后增長至150，優化后實際可能落在120至130區間，而非倒退至80。也就是說，增速被壓低，而非需求逆轉。

瑞銀旗下Evidence Lab對約130家企業的最新調查顯示，僅8%的企業已在生產環境中大規模部署AI Agent，37%是生產中有限規模使用，29%仍在試點，26%只是使用Copilot或AI Coding等產品但尚未部署Agent應用。AI Agent真正大規模消耗Token的階段才剛開始。

頭部AI原生公司的數據印證了這一判斷。法律AI公司Harvey披露，其Token消耗從1月的1萬億增長至5月的12萬億至13萬億，說明優化與擴張可以同時發生：企業會更精細地分配支出，但AI使用場景仍在持續向外擴展。

此輪Token優化與2022年至2024年后疫情時代云與軟件的"預算回撤"存在本質差異：后者是成熟用量被砍，前者更接近新技術擴散早期的成本治理。其結果不是AI需求消失，而是重塑贏家排序——高價模型收入增速受壓，低成本模型和路由工具受益，云平臺繼續吃多模型部署需求，軟件公司則站在被砍預算與成為省錢工具的岔路口上。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.