網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

我測(cè)算了DeepSeek的計(jì)算成本，AI應(yīng)用距離規(guī)模性盈利應(yīng)該不遠(yuǎn)了

2025-09-05 07:44:41　來(lái)源: 硅基星芒AI

北京舉報(bào)

分享至

我一直聽到人工智能（AI）是個(gè)燒錢的行業(yè)，尤其是在推理（inference）方面。雖然表面上看起來(lái)合理，但我對(duì)這類說(shuō)法一直持懷疑態(tài)度，因此決定深入研究一下。

目前還沒有人真正嘗試拆解大規(guī)模推理的成本，而這背后的經(jīng)濟(jì)問題讓我非常感興趣。

這篇文章是基于粗略估算（napkin math）完成的。我沒有運(yùn)行前沿模型的經(jīng)驗(yàn)，但對(duì)在云端運(yùn)行高吞吐量服務(wù)的成本和經(jīng)濟(jì)性有深入了解，也知道超大規(guī)模云服務(wù)商與裸機(jī)（bare metal）相比的驚人利潤(rùn)率。歡迎指正我的錯(cuò)誤。

一些假設(shè)

我將僅考慮原始計(jì)算成本。這顯然是過(guò)于簡(jiǎn)化的，但考慮到當(dāng)前模型的實(shí)用性——即使假設(shè)沒有進(jìn)一步改進(jìn)——我想測(cè)試“推理成本高到完全不可持續(xù)”這一觀點(diǎn)是否站得住腳。

我假設(shè)單個(gè)H100 GPU的成本為每小時(shí)2美元。這實(shí)際上高于當(dāng)前按需租賃的零售價(jià)格，我希望大型AI公司能以更低的價(jià)格獲取這些資源。

H100租賃價(jià)格比較

其次，我將以DeepSeek R1的架構(gòu)作為基準(zhǔn)：總計(jì)6710億參數(shù)，通過(guò)專家混合（MoE）激活370億參數(shù)。考慮到其性能與Claude Sonnet 4和GPT-5相當(dāng)，我認(rèn)為這是一個(gè)合理的假設(shè)。

從第一性原理推導(dǎo)：H100的計(jì)算成本

生產(chǎn)環(huán)境設(shè)置

讓我們從一個(gè)現(xiàn)實(shí)的生產(chǎn)環(huán)境開始。假設(shè)一個(gè)包含72個(gè)H100 GPU的集群，每個(gè)GPU每小時(shí)2美元，總成本為每小時(shí)144美元。

為了滿足生產(chǎn)環(huán)境的延遲要求，我假設(shè)每個(gè)模型實(shí)例的批量大小為32個(gè)并發(fā)請(qǐng)求，這比基準(zhǔn)測(cè)試中可能使用的大批量更現(xiàn)實(shí)。通過(guò)在8個(gè)GPU上進(jìn)行張量并行（tensor parallelism），我們可以在72個(gè)GPU上同時(shí)運(yùn)行9個(gè)模型實(shí)例。

預(yù)填充階段（輸入處理）

H100的HBM內(nèi)存帶寬約為每GPU 3.35TB/s，這是大多數(shù)工作負(fù)載的限制因素。對(duì)于370億活躍參數(shù)，在FP16精度下需要74GB內(nèi)存，我們可以計(jì)算出每秒大約能處理3,350GB/s ÷ 74GB = 45次前向傳播（forward passes）。

關(guān)鍵點(diǎn)在于：每次前向傳播會(huì)同時(shí)處理所有序列中的所有token。

假設(shè)我們的32個(gè)序列批次平均每個(gè)序列包含1000個(gè)token，即每次前向傳播處理32,000個(gè)token。這意味著每個(gè)實(shí)例每秒可處理45次傳播 × 32,000token = 144萬(wàn)個(gè)輸入token。在9個(gè)實(shí)例上，這相當(dāng)于每秒1300萬(wàn)個(gè)輸入token，或每小時(shí)468億個(gè)輸入token。

在MoE架構(gòu)中，批次中不同token可能需要加載不同的專家組合，這可能導(dǎo)致吞吐量降低2-3倍，尤其當(dāng)token路由到不同專家時(shí)。然而，實(shí)際中路由模式通常會(huì)集中在熱門專家上，且現(xiàn)代實(shí)現(xiàn)使用專家并行（expert parallelism）和容量因子（capacity factors）等技術(shù)來(lái)保持效率，因此實(shí)際影響可能僅為30-50%的吞吐量降低，而非最壞情況。

解碼階段（輸出生成）

輸出生成的場(chǎng)景完全不同。這里我們是按順序生成token——每次前向傳播每個(gè)序列生成一個(gè)token。因此，45次前向傳播每秒僅生成45 × 32 = 1,440個(gè)輸出token。9個(gè)實(shí)例總計(jì)每秒12,960個(gè)輸出token，或每小時(shí)4670萬(wàn)個(gè)輸出token。

token的原始成本

輸入和輸出的成本差異非常明顯：144美元 ÷ 468億 = 每百萬(wàn)輸入token0.003美元，而144美元 ÷ 4670萬(wàn) = 每百萬(wàn)輸出token3.08美元。這是一個(gè)千倍的差距！

當(dāng)計(jì)算成為瓶頸

我們的計(jì)算假設(shè)內(nèi)存帶寬是限制因素，這在典型工作負(fù)載中是正確的。但在某些場(chǎng)景下，計(jì)算能力會(huì)成為瓶頸。對(duì)于長(zhǎng)上下文序列，注意力機(jī)制的計(jì)算量隨序列長(zhǎng)度呈平方增長(zhǎng)。大批量大小和更多并行注意力頭也可能使系統(tǒng)從內(nèi)存受限轉(zhuǎn)為計(jì)算受限。

當(dāng)上下文長(zhǎng)度達(dá)到128k以上時(shí)，注意力矩陣變得非常龐大，系統(tǒng)從內(nèi)存受限轉(zhuǎn)為計(jì)算受限。這可能使成本增加2-10倍，尤其是在超長(zhǎng)上下文場(chǎng)景下。

這解釋了一些有趣的產(chǎn)品決策。例如，Claude Code將上下文限制在200ktoken，不僅是為了性能，也是為了保持在成本較低的內(nèi)存受限模式，避免昂貴的計(jì)算受限長(zhǎng)上下文場(chǎng)景。

這也是為什么服務(wù)商對(duì)200k+上下文窗口額外收費(fèi)——經(jīng)濟(jì)模型發(fā)生了根本變化。

現(xiàn)實(shí)世界的用戶經(jīng)濟(jì)

根據(jù)我對(duì)成本的逆向推算（再次提醒，這是基于H100的零售租賃價(jià)格），我推測(cè)情況如下：

輸入處理
幾乎免費(fèi)（約每百萬(wàn) token 0.001美元）
輸出生成
有顯著成本（約每百萬(wàn) token 3美元）

這些成本與DeepInfra對(duì)R1托管的收費(fèi)相符，只是輸入token的加價(jià)更高。

DeepInfra R1定價(jià)，見下圖:

A. 消費(fèi)者計(jì)劃

ChatGPT Pro用戶（每月20美元）：重度日常使用，但受token限制

每天10萬(wàn) token
假設(shè)70%輸入/30%輸出：實(shí)際成本約每月3美元
OpenAI的加價(jià)為5-6倍

這是典型的重度用戶，每天使用模型進(jìn)行寫作、編碼和常規(guī)查詢。這里的經(jīng)濟(jì)性很強(qiáng)。

B. 開發(fā)者使用

Claude Code Max 5用戶（每月100美元）：每天2小時(shí)重度編碼

約200萬(wàn)輸入 token ，3萬(wàn)輸出 token /天
大量輸入 token （便宜的并行處理）+少量輸出
實(shí)際成本：約每月4.92美元 → 20.3倍加價(jià)

Claude Code Max 10用戶（每月200美元）：每天6小時(shí)極重度使用

約1000萬(wàn)輸入 token ，10萬(wàn)輸出 token /天
大量輸入 token ，但生成 token 相對(duì)較少
實(shí)際成本：約每月16.89美元 → 11.8倍加價(jià)

開發(fā)者用例的經(jīng)濟(jì)性尤為突出。像Claude Code這樣的編碼助手天然具有高度不對(duì)稱的使用模式——輸入整個(gè)代碼庫(kù)、文檔、堆棧跟蹤、多個(gè)文件和廣泛上下文（廉價(jià)輸入token），但只需要相對(duì)較小的輸出，如代碼片段或解釋。這完美契合了輸入幾乎免費(fèi)而輸出昂貴的成本結(jié)構(gòu)。

C. API利潤(rùn)率

當(dāng)前API定價(jià)：每百萬(wàn) token 3美元/15美元 vs 實(shí)際成本約0.01美元/3美元
毛利率：80-95%+

API業(yè)務(wù)幾乎是印鈔機(jī)。這里的毛利率更像是軟件而非基礎(chǔ)設(shè)施。

結(jié)論

我們的分析基于許多假設(shè)，有些可能不準(zhǔn)確。

但即使假設(shè)我們高估了3倍，經(jīng)濟(jì)性仍然看起來(lái)非常有利可圖。即使按H100的零售價(jià)格計(jì)算，原始計(jì)算成本表明，AI推理并非許多人宣稱的不可持續(xù)的燒錢坑。

最關(guān)鍵的洞察是，輸入處理的成本比輸出生成低得多——大約千倍的差距：輸入token約每百萬(wàn)0.005美元，而輸出token超過(guò)每百萬(wàn)3美元。

這種成本不對(duì)稱解釋了為什么某些用應(yīng)用其有利可圖，而其他應(yīng)用可能面臨挑戰(zhàn)：

重度閱讀類應(yīng)用——消耗大量上下文但生成少量輸出的場(chǎng)景——幾乎在計(jì)算成本上處于免費(fèi)層。像對(duì)話代理、處理整個(gè)代碼庫(kù)的編碼助手、文檔分析工具和研究應(yīng)用都極大地受益于這種動(dòng)態(tài)。

視頻生成則完全相反——一個(gè)視頻模型可能只輸入50個(gè)token的簡(jiǎn)單文本提示，但需要生成數(shù)百萬(wàn)token來(lái)表示每個(gè)幀。當(dāng)從極少輸入生成大量輸出時(shí)，經(jīng)濟(jì)性變得非常苛刻，這解釋了為什么視頻生成仍然昂貴，服務(wù)商要么收取高價(jià)，要么嚴(yán)格限制使用。

“AI成本不可持續(xù)”的說(shuō)法可能更多服務(wù)于現(xiàn)有大公司的利益，而非反映經(jīng)濟(jì)現(xiàn)實(shí)。當(dāng)行業(yè)巨頭強(qiáng)調(diào)巨額成本和技術(shù)復(fù)雜性時(shí)，會(huì)阻礙競(jìng)爭(zhēng)和對(duì)替代方案的投資。但如果我們的計(jì)算哪怕有一點(diǎn)準(zhǔn)確，尤其是在輸入密集型工作負(fù)載上，盈利性AI推理的門檻可能遠(yuǎn)低于普遍認(rèn)為的水平。

讓我們不要過(guò)分夸大成本，以至于人們忽視了原始經(jīng)濟(jì)性。十多年前，大家對(duì)超大規(guī)模云服務(wù)商的云計(jì)算成本信以為真，讓它們變成了印鈔機(jī)。如果我們“不小心”，AI推理可能會(huì)重蹈覆轍。（作者：Martin Alderson）

轉(zhuǎn)載開白 | 商務(wù)合作 | 加群交流
請(qǐng)?zhí)砑游⑿牛篶utstill
添加微信請(qǐng)備注姓名公司與來(lái)意

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.