我一直聽到人工智能(AI)是個(gè)燒錢的行業(yè),尤其是在推理(inference)方面。雖然表面上看起來(lái)合理,但我對(duì)這類說(shuō)法一直持懷疑態(tài)度,因此決定深入研究一下。
目前還沒有人真正嘗試拆解大規(guī)模推理的成本,而這背后的經(jīng)濟(jì)問題讓我非常感興趣。
這篇文章是基于粗略估算(napkin math)完成的。我沒有運(yùn)行前沿模型的經(jīng)驗(yàn),但對(duì)在云端運(yùn)行高吞吐量服務(wù)的成本和經(jīng)濟(jì)性有深入了解,也知道超大規(guī)模云服務(wù)商與裸機(jī)(bare metal)相比的驚人利潤(rùn)率。歡迎指正我的錯(cuò)誤。
01
一些假設(shè)
我將僅考慮原始計(jì)算成本。這顯然是過(guò)于簡(jiǎn)化的,但考慮到當(dāng)前模型的實(shí)用性——即使假設(shè)沒有進(jìn)一步改進(jìn)——我想測(cè)試“推理成本高到完全不可持續(xù)”這一觀點(diǎn)是否站得住腳。
我假設(shè)單個(gè)H100 GPU的成本為每小時(shí)2美元。這實(shí)際上高于當(dāng)前按需租賃的零售價(jià)格,我希望大型AI公司能以更低的價(jià)格獲取這些資源。
H100租賃價(jià)格比較
其次,我將以DeepSeek R1的架構(gòu)作為基準(zhǔn):總計(jì)6710億參數(shù),通過(guò)專家混合(MoE)激活370億參數(shù)。考慮到其性能與Claude Sonnet 4和GPT-5相當(dāng),我認(rèn)為這是一個(gè)合理的假設(shè)。
02
從第一性原理推導(dǎo):H100的計(jì)算成本
生產(chǎn)環(huán)境設(shè)置
讓我們從一個(gè)現(xiàn)實(shí)的生產(chǎn)環(huán)境開始。假設(shè)一個(gè)包含72個(gè)H100 GPU的集群,每個(gè)GPU每小時(shí)2美元,總成本為每小時(shí)144美元。
為了滿足生產(chǎn)環(huán)境的延遲要求,我假設(shè)每個(gè)模型實(shí)例的批量大小為32個(gè)并發(fā)請(qǐng)求,這比基準(zhǔn)測(cè)試中可能使用的大批量更現(xiàn)實(shí)。通過(guò)在8個(gè)GPU上進(jìn)行張量并行(tensor parallelism),我們可以在72個(gè)GPU上同時(shí)運(yùn)行9個(gè)模型實(shí)例。
預(yù)填充階段(輸入處理)
H100的HBM內(nèi)存帶寬約為每GPU 3.35TB/s,這是大多數(shù)工作負(fù)載的限制因素。對(duì)于370億活躍參數(shù),在FP16精度下需要74GB內(nèi)存,我們可以計(jì)算出每秒大約能處理3,350GB/s ÷ 74GB = 45次前向傳播(forward passes)。
關(guān)鍵點(diǎn)在于:每次前向傳播會(huì)同時(shí)處理所有序列中的所有token。
假設(shè)我們的32個(gè)序列批次平均每個(gè)序列包含1000個(gè)token,即每次前向傳播處理32,000個(gè)token。這意味著每個(gè)實(shí)例每秒可處理45次傳播 × 32,000token = 144萬(wàn)個(gè)輸入token。在9個(gè)實(shí)例上,這相當(dāng)于每秒1300萬(wàn)個(gè)輸入token,或每小時(shí)468億個(gè)輸入token。
在MoE架構(gòu)中,批次中不同token可能需要加載不同的專家組合,這可能導(dǎo)致吞吐量降低2-3倍,尤其當(dāng)token路由到不同專家時(shí)。然而,實(shí)際中路由模式通常會(huì)集中在熱門專家上,且現(xiàn)代實(shí)現(xiàn)使用專家并行(expert parallelism)和容量因子(capacity factors)等技術(shù)來(lái)保持效率,因此實(shí)際影響可能僅為30-50%的吞吐量降低,而非最壞情況。
解碼階段(輸出生成)
輸出生成的場(chǎng)景完全不同。這里我們是按順序生成token——每次前向傳播每個(gè)序列生成一個(gè)token。因此,45次前向傳播每秒僅生成45 × 32 = 1,440個(gè)輸出token。9個(gè)實(shí)例總計(jì)每秒12,960個(gè)輸出token,或每小時(shí)4670萬(wàn)個(gè)輸出token。
token的原始成本
輸入和輸出的成本差異非常明顯:144美元 ÷ 468億 = 每百萬(wàn)輸入token0.003美元,而144美元 ÷ 4670萬(wàn) = 每百萬(wàn)輸出token3.08美元。這是一個(gè)千倍的差距!
當(dāng)計(jì)算成為瓶頸
我們的計(jì)算假設(shè)內(nèi)存帶寬是限制因素,這在典型工作負(fù)載中是正確的。但在某些場(chǎng)景下,計(jì)算能力會(huì)成為瓶頸。對(duì)于長(zhǎng)上下文序列,注意力機(jī)制的計(jì)算量隨序列長(zhǎng)度呈平方增長(zhǎng)。大批量大小和更多并行注意力頭也可能使系統(tǒng)從內(nèi)存受限轉(zhuǎn)為計(jì)算受限。
當(dāng)上下文長(zhǎng)度達(dá)到128k以上時(shí),注意力矩陣變得非常龐大,系統(tǒng)從內(nèi)存受限轉(zhuǎn)為計(jì)算受限。這可能使成本增加2-10倍,尤其是在超長(zhǎng)上下文場(chǎng)景下。
這解釋了一些有趣的產(chǎn)品決策。例如,Claude Code將上下文限制在200ktoken,不僅是為了性能,也是為了保持在成本較低的內(nèi)存受限模式,避免昂貴的計(jì)算受限長(zhǎng)上下文場(chǎng)景。
這也是為什么服務(wù)商對(duì)200k+上下文窗口額外收費(fèi)——經(jīng)濟(jì)模型發(fā)生了根本變化。
03
現(xiàn)實(shí)世界的用戶經(jīng)濟(jì)
根據(jù)我對(duì)成本的逆向推算(再次提醒,這是基于H100的零售租賃價(jià)格),我推測(cè)情況如下:
- 輸入處理
幾乎免費(fèi)(約每百萬(wàn) token 0.001美元)
- 輸出生成
有顯著成本(約每百萬(wàn) token 3美元)
這些成本與DeepInfra對(duì)R1托管的收費(fèi)相符,只是輸入token的加價(jià)更高。
DeepInfra R1定價(jià),見下圖:
A. 消費(fèi)者計(jì)劃
ChatGPT Pro用戶(每月20美元):重度日常使用,但受token限制
每天10萬(wàn) token
假設(shè)70%輸入/30%輸出:實(shí)際成本約每月3美元
OpenAI的加價(jià)為5-6倍
這是典型的重度用戶,每天使用模型進(jìn)行寫作、編碼和常規(guī)查詢。這里的經(jīng)濟(jì)性很強(qiáng)。
B. 開發(fā)者使用
Claude Code Max 5用戶(每月100美元):每天2小時(shí)重度編碼
約200萬(wàn)輸入 token ,3萬(wàn)輸出 token /天
大量輸入 token (便宜的并行處理)+少量輸出
實(shí)際成本:約每月4.92美元 → 20.3倍加價(jià)
Claude Code Max 10用戶(每月200美元):每天6小時(shí)極重度使用
約1000萬(wàn)輸入 token ,10萬(wàn)輸出 token /天
大量輸入 token ,但生成 token 相對(duì)較少
實(shí)際成本:約每月16.89美元 → 11.8倍加價(jià)
開發(fā)者用例的經(jīng)濟(jì)性尤為突出。像Claude Code這樣的編碼助手天然具有高度不對(duì)稱的使用模式——輸入整個(gè)代碼庫(kù)、文檔、堆棧跟蹤、多個(gè)文件和廣泛上下文(廉價(jià)輸入token),但只需要相對(duì)較小的輸出,如代碼片段或解釋。這完美契合了輸入幾乎免費(fèi)而輸出昂貴的成本結(jié)構(gòu)。
C. API利潤(rùn)率
當(dāng)前API定價(jià):每百萬(wàn) token 3美元/15美元 vs 實(shí)際成本約0.01美元/3美元
毛利率:80-95%+
API業(yè)務(wù)幾乎是印鈔機(jī)。這里的毛利率更像是軟件而非基礎(chǔ)設(shè)施。
04
結(jié)論
我們的分析基于許多假設(shè),有些可能不準(zhǔn)確。
但即使假設(shè)我們高估了3倍,經(jīng)濟(jì)性仍然看起來(lái)非常有利可圖。即使按H100的零售價(jià)格計(jì)算,原始計(jì)算成本表明,AI推理并非許多人宣稱的不可持續(xù)的燒錢坑。
最關(guān)鍵的洞察是,輸入處理的成本比輸出生成低得多——大約千倍的差距:輸入token約每百萬(wàn)0.005美元,而輸出token超過(guò)每百萬(wàn)3美元。
這種成本不對(duì)稱解釋了為什么某些用應(yīng)用其有利可圖,而其他應(yīng)用可能面臨挑戰(zhàn):
重度閱讀類應(yīng)用——消耗大量上下文但生成少量輸出的場(chǎng)景——幾乎在計(jì)算成本上處于免費(fèi)層。像對(duì)話代理、處理整個(gè)代碼庫(kù)的編碼助手、文檔分析工具和研究應(yīng)用都極大地受益于這種動(dòng)態(tài)。
視頻生成則完全相反——一個(gè)視頻模型可能只輸入50個(gè)token的簡(jiǎn)單文本提示,但需要生成數(shù)百萬(wàn)token來(lái)表示每個(gè)幀。當(dāng)從極少輸入生成大量輸出時(shí),經(jīng)濟(jì)性變得非常苛刻,這解釋了為什么視頻生成仍然昂貴,服務(wù)商要么收取高價(jià),要么嚴(yán)格限制使用。
“AI成本不可持續(xù)”的說(shuō)法可能更多服務(wù)于現(xiàn)有大公司的利益,而非反映經(jīng)濟(jì)現(xiàn)實(shí)。當(dāng)行業(yè)巨頭強(qiáng)調(diào)巨額成本和技術(shù)復(fù)雜性時(shí),會(huì)阻礙競(jìng)爭(zhēng)和對(duì)替代方案的投資。但如果我們的計(jì)算哪怕有一點(diǎn)準(zhǔn)確,尤其是在輸入密集型工作負(fù)載上,盈利性AI推理的門檻可能遠(yuǎn)低于普遍認(rèn)為的水平。
讓我們不要過(guò)分夸大成本,以至于人們忽視了原始經(jīng)濟(jì)性。十多年前,大家對(duì)超大規(guī)模云服務(wù)商的云計(jì)算成本信以為真,讓它們變成了印鈔機(jī)。如果我們“不小心”,AI推理可能會(huì)重蹈覆轍。(作者:Martin Alderson)
轉(zhuǎn)載開白 | 商務(wù)合作 | 加群交流
請(qǐng)?zhí)砑游⑿牛篶utstill
添加微信請(qǐng)備注姓名公司與來(lái)意
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.