周三下午四點,財務(wù)總監(jiān)點開月度賬單,咖啡杯停在半空——一家無從知曉名字的公司,單月向Anthropic的Claude API支付了5億美元。不是50萬,不是500萬,是整整5億。正因為沒人給消費設(shè)個上限。
同一周內(nèi),Uber燒光了整個2026年度的AI編碼預(yù)算,才剛到四月。四個月,錢花干凈了。微軟則悄悄砍掉了內(nèi)部Claude Code許可證,讓工程師退回GitHub Copilot。三則消息幾乎同時炸開,指向同一個問題:按Token計費的API,交到一個沒有治理的團隊手上,就是架在自己公司脖子上的一把財務(wù)刀。每個提示詞、每個上下文窗口、每個智能體循環(huán)都要付錢。一位工程師認(rèn)認(rèn)真真跑Claude Code,一個月就能燒掉500到2000美元,只因為他把手頭的活兒干得好。
這引出兩派截然對立的觀點。正方說,用API本身就是最經(jīng)濟的選擇:按需付費,免去硬件采購、運維、散熱和人員成本,彈性伸縮,上手即用。模型由廠商持續(xù)迭代,工程師永遠(yuǎn)用上最新最強的版本。反方則認(rèn)為,按Token計費的財務(wù)模型本質(zhì)上是“租用別人的計價器”,使用越頻繁、用得越好,成本就越失控。Uber工程師對Claude Code的采納率從32%飆升至84%,這本該是一則成功故事,卻迅速演變成預(yù)算危機。而且每一次請求,數(shù)據(jù)都要離開公司的邊界。
我的判斷很明確:對于一支百人規(guī)模的工程師團隊,答案不是出臺更嚴(yán)的審批流程,而是把基礎(chǔ)設(shè)施掌握在自己手里,讓Token免費。一旦擁有底層算力,工程師用得越好,你就從已付過錢的硬件中榨出越多價值,而不是為每一次進步向外部供應(yīng)商交稅。
自建私有AI的設(shè)定很直接:一次性購買GPU服務(wù)器,下載一套頂尖的開源模型,跑一個兼容OpenAI API格式的推理服務(wù),然后把Claude Code、Cursor或任何智能體工具指向本地端點。工程師獲得無限量Token,唯一的持續(xù)成本只是電費。數(shù)據(jù)從頭到尾不離開公司大樓。
以2026年第一季度真實硬件價格算筆賬:一塊H100 PCIe 80GB的售價在2.5萬到3萬美元之間。一臺完整配置的8卡服務(wù)器,價格約在21.6萬到25萬美元。對百人級別、承擔(dān)較重智能體編碼工作的團隊,推薦至少部署兩臺服務(wù)器,才能保持舒服的并發(fā)體驗,避免排隊等待。如果要實現(xiàn)完全冗余,三臺服務(wù)器輪值,一臺下線維護時另兩臺照常服務(wù),總投入可控制在100萬美元以內(nèi)。
模型方面,不用訓(xùn)練任何東西,只下載權(quán)重。2026年的開源編碼模型生態(tài)已足夠成熟。例如DeepSeek V4 Pro等前沿模型,工具調(diào)用能力強、智能體編碼表現(xiàn)亮眼,且提供開放權(quán)重。團隊可根據(jù)實測效果選擇最適合自身技術(shù)棧的版本,模型更新時只需拉取新權(quán)重即可熱切換,推理服務(wù)始終保持本地優(yōu)先。
這套自建方案并非要抹殺API存在的意義,而是為重度工程使用場景提供一個真實可落地的替代路徑。當(dāng)Token計費與使用深度牢牢綁定,擁有基礎(chǔ)設(shè)施就不僅僅是為了省賬單,更是把“用好AI”這件事從成本中心扭轉(zhuǎn)為資產(chǎn)杠桿。某家不被外人所知的公司,用5億美金換來了一個月的API使用權(quán);而用不到100萬美元,你至少能讓一百名工程師在無限Token的世界里跑上一整年。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.