无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

重新思考 AI TCO:為何每 Token 成本才是唯一重要的指標

0
分享至


作者 | 冬梅

傳統數據中心過去主要用于數據的存儲、檢索與處理。但在生成式 AI 與代理式 AI 時代,這些設施已演變為 AI Token 工廠。隨著 AI 推理成為其核心工作負載,它們的主要產出已轉變為以 Token 形式制造的智能。

這一轉變也需要對包括總體擁有成本(TCO)在內的 AI 基礎設施的經濟效益評估的方式相應地進行調整。然而,在評估 AI 基礎設施時,企業仍過于關注芯片峰值規格、計算成本,或每美元所能獲得的浮點運算性能,即每美元 FLOPS。

關鍵區別在于:

  • 算力成本是企業為 AI 基礎設施所支付的費用,無論是從云服務提供商租用,還是在本地自建部署。

  • 每美元 FLOPS 衡量的是企業每投入一美元所獲得的原始算力,但原始算力并不等同于現實世界中的 Token 產出。

  • 每 Token 成本指的是企業生成并交付每一個 Token 的綜合成本,通常以每百萬 Token 成本來表示。

前兩者僅是投入指標。但當業務圍繞產出運轉時,只針對投入優化,本質上是一種根本性的錯配。

每 Token 成本決定了企業能否實現 AI 的規模化盈利。它是唯一能夠直接綜合反映硬件性能、軟件優化、生態系統支持以及實際利用率的 TCO 指標,而 NVIDIA 在這一指標上實現了行業最低的每 Token 成本。

能夠降低每 Token 成本的因素有哪些?

要理解如何優化每 Token 成本,首先需要了解用于計算“每百萬 Token 成本”的計算公式。


在這個公式中,許多評估 AI 基礎設施的企業往往只關注分子項,即每 GPU 每小時成本。對于云部署而言,這對應支付給云服務提供商的小時費用;而對于本地部署,則是通過攤銷自有基礎設施得到的等效小時成本。然而,降低每 Token 成本的關鍵在于分母,即最大化實際交付的 Token 產出。

這個分母傳遞了兩層商業含義:

  • 最小化每 Token 成本:當 Token 產出增加被代入公式時,將降低每 Token 成本,從而提升每一次交互服務的利潤空間。

  • 最大化收入:每秒交付更多 Token,也意味著每兆瓦產出更多的 Token,這將帶來更高的智能供給能力,使 AI 驅動的產品與服務能夠在相同基礎設施投入下創造更高收入。

因此,如果只關注分子,就會忽視真正決定分母的因素??梢詫⑵淅斫鉃橐粋€“推理冰山”:分子位于水面之上,直觀可見且易于橫向比較;而分母則隱藏在水面之下,那才是決定實際 Token 產出的關鍵因素。對 AI 基礎設施的準確評估,應從探究水面之下的部分開始。


表層問題:

  • 每 GPU 小時的成本是多少?

  • 峰值 PetaFLOPS 性能和高帶寬內存容量是多少?

  • 每美元可獲得多少 FLOPS?

深度成本分析:

  • 每百萬 Token 的成本是多少?尤其是針對大規?;旌蠈<遥∕oE)推理模型(當前部署最廣泛的一類 AI 模型),其每百萬 Token 成本是多少?*

  • 每兆瓦可交付多少 Token 產出?尤其是對本地部署而言,由于在土地、電力與基礎設施上的資本投入較大,最大化每兆瓦所產生的智能產出至關重要。*

  • 縱向擴展(scale-up)互連是否能夠支撐 MoE 模型所需的“all-to-all”通信模式?

  • 是否支持 FP4 精度?推理棧是否能夠在保持高精度的同時充分利用 FP4?*

  • 推理運行時是否支持 投機解碼或多 Token 預測,以提升用戶交互體驗?

  • 服務層是否支持 解耦服務、KV 感知路由、KV 緩存卸載* 以及其他優化?

  • 平臺是否支持代理式 AI 的獨特工作負載需求,包括超低延遲、高吞吐以及長輸入序列長度等?

  • 平臺是否支持從訓練、后訓練到大規模推理的完整生命周期,并覆蓋所有模型架構,從而實現基礎設施可互換性與高利用率?

這些算法、硬件與軟件化中的每一項優化都必須有效并且是可以相互集成的,否則分母項將無法成立。一塊看似“更便宜”的 GPU,如果其每秒 Token 產出數量明顯更低,反而會導致更高的每 Token 成本。能夠做到全棧真正優化的 AI 基礎設施,才能夠確保每項優化都相互增強,從而持續提升整體效率。

為什么每 Token 成本比每美元 FLOPS 更重要?

以下 DeepSeek-R1 AI 模型的數據展示了理論指標與實際商業結果之間的差異。

僅從算力成本來看,NVIDIA Blackwell 平臺的成本似乎約為 NVIDIA Hopper 的 2 倍,但算力成本并不能說明這項投入究竟能帶來多少實際產出。如果僅以每美元 FLOPS 進行分析,相較于 NVIDIA Hopper 架構,NVIDIA Blackwell 僅有約 2 倍優勢。然而,實際結果卻呈現出數量級差異:Blackwell 每瓦的 Token 產出量是 Hopper 的 50 倍以上,每百萬 Token 的成本降低至其 1/35 左右。


注:數據來源于 NVIDIA 分析報道及 SemiAnalysis InferenceX v2 基準測試。

這一懸殊差異表明,相較于上一代 Hopper,NVIDIA Blackwell 在商業價值上實現了巨大的躍遷,其提升幅度遠超系統成本的增加。

如何選擇合適的 AI 基礎設施?

僅憑算力成本或每美元理論 FLOPS 來比較 AI 基礎設施,不僅是不充分的,也無法真實反映推理經濟學。正如數據所展示的,要準確評估 AI 基礎設施的營收潛力與盈利能力,需將衡量維度從輸入指標轉向每 Token 成本和實際 Token 產出量。

NVIDIA 通過在計算、網絡、內存、存儲、軟件以及合作伙伴技術上的 極致協同設計,實現了業內最低的 Token 成本與最高的 Token 吞吐量。此外,諸如 vLLM、SGLang、NVIDIA TensorRT-LLM 以及 NVIDIA Dynamo 等基于 NVIDIA 平臺構建的開源推理軟件的持續優化,意味著在現有 NVIDIA 基礎設施部署后,Token 產出仍可不斷提升,每 Token 成本會持續下降。

一些云服務提供商與 NVIDIA 云合作伙伴,已在規?;渴鹬谐浞煮w現這一優勢。包括 CoreWeave、Nebius、Nscale 與 Together AI 在內的合作伙伴,已部署 NVIDIA Blackwell 基礎設施,并對其技術棧進行了優化,為企業提供當前最低的 Token 成本,同時充分發揮 NVIDIA 在硬件、軟件與生態系統協同設計方面的全部優勢,使每一次 AI 交互的處理都建立在這一完整體系之上。

會議推薦

世界模型的下一個突破在哪?Agent 從 Demo 到工程化還差什么?安全與可信這道坎怎么過?研發體系不重構,還能撐多久?

AICon 上海站 2026,4 大核心專題等你來:世界模型與多模態智能突破、Agent 架構與工程化實踐、Agent 安全與可信治理、企業級研發體系重構。14 個專題全面開放征稿。

誠摯邀請你登臺分享實戰經驗。AICon 2026,期待與你同行。

今日薦文


你也「在看」嗎?

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
Shams:沙梅特4年2400萬美元重返尼克斯

Shams:沙梅特4年2400萬美元重返尼克斯

懂球帝
2026-06-30 05:18:27
老板娘問我她身材好不好?我該怎么回答?

老板娘問我她身材好不好?我該怎么回答?

太急張三瘋
2026-06-30 11:28:57
世界杯驚天大瓜!3-3 離譜平局徹底翻車,馬赫雷斯一番話直接自爆

世界杯驚天大瓜!3-3 離譜平局徹底翻車,馬赫雷斯一番話直接自爆

奶蓋熊本熊
2026-06-30 04:07:10
名嘴葉惠賢:開創境外綜藝先河,隨女兒在澳洲養老,79歲晨跑種菜

名嘴葉惠賢:開創境外綜藝先河,隨女兒在澳洲養老,79歲晨跑種菜

白面書誏
2026-06-29 16:36:06
天津凌晨突發!抓了!

天津凌晨突發!抓了!

天津族
2026-06-30 08:58:03
老外搶瘋了!中國分體空調席卷歐洲市場!這只是冰山一角……

老外搶瘋了!中國分體空調席卷歐洲市場!這只是冰山一角……

時尚的弄潮
2026-06-30 01:35:51
聯盟大結局!詹庫在勇士聯手,濃眉加盟組三巨頭

聯盟大結局!詹庫在勇士聯手,濃眉加盟組三巨頭

湖人侃球師
2026-06-30 13:11:51
戰友二婚我隨禮88888,他回我一盒假煙,我心寒丟進垃圾桶,次日民警敲門:那盒煙你抽了嗎?

戰友二婚我隨禮88888,他回我一盒假煙,我心寒丟進垃圾桶,次日民警敲門:那盒煙你抽了嗎?

背包旅行
2026-06-29 12:18:19
中國44年來首次試射洲際導彈,全球反應堪比好萊塢大片

中國44年來首次試射洲際導彈,全球反應堪比好萊塢大片

烽火三月佳人三千
2026-06-25 14:21:42
中國共產黨成立105周年 對話越南駐華大使

中國共產黨成立105周年 對話越南駐華大使

中國日報網
2026-06-30 13:40:10
鐵三女神褲衩開叉 10 厘米!五年被罵上熱搜,裁判卻說是合規的?

鐵三女神褲衩開叉 10 厘米!五年被罵上熱搜,裁判卻說是合規的?

十點體壇
2026-06-09 21:58:11
哈佛10年追蹤:俯臥撐比血壓更準!每周2-3次力竭,給全身換系統

哈佛10年追蹤:俯臥撐比血壓更準!每周2-3次力竭,給全身換系統

健身狂人
2026-06-13 20:30:47
張雪峰女兒張姩菡:否認自己不用讀大學,也不可以躺平

張雪峰女兒張姩菡:否認自己不用讀大學,也不可以躺平

金牌娛樂
2026-06-30 09:36:46
項立剛評馮小剛:飯局跳舞事件后我就不看他電影了,太惡心了

項立剛評馮小剛:飯局跳舞事件后我就不看他電影了,太惡心了

映射生活的身影
2026-06-29 16:37:52
日本心慌了,韓國著急了,如今的中國烏魯木齊,先進制造悄然成勢

日本心慌了,韓國著急了,如今的中國烏魯木齊,先進制造悄然成勢

科技故事聚焦
2026-06-30 09:14:02
董卿:母親因癌離世3個多月,余生我會托起父親的晚年

董卿:母親因癌離世3個多月,余生我會托起父親的晚年

苗苗情感說
2026-06-29 18:11:07
刑偵大案口述紀實:塵封28年,南醫大女學生命案終告偵破!

刑偵大案口述紀實:塵封28年,南醫大女學生命案終告偵破!

橘仔看世界
2026-06-23 09:09:12
中國出手,菲親華派絕地翻盤!憋了17天,菲防長送中方一句狠話

中國出手,菲親華派絕地翻盤!憋了17天,菲防長送中方一句狠話

墨子翟的日記y
2026-06-30 13:34:22
日媒:日本決定暫不把“算數”科目名稱改為“數學”

日媒:日本決定暫不把“算數”科目名稱改為“數學”

隨波蕩漾的漂流瓶
2026-06-29 20:28:56
今晚開始!央一央八愛奇藝等4部王炸劇來襲!眾星云集,先追哪部

今晚開始!央一央八愛奇藝等4部王炸劇來襲!眾星云集,先追哪部

小椰的奶奶
2026-06-30 01:19:29
2026-06-30 14:15:03
AI前線 incentive-icons
AI前線
面向AI愛好者、開發者和科學家,提供AI領域技術資訊。
1586文章數 160關注度
往期回顧 全部

科技要聞

DeepSeek V4正式版要來 高峰期API價格翻倍

頭條要聞

荷蘭隊連續3屆倒在點球大戰 此前9次點球大戰只贏兩場

頭條要聞

荷蘭隊連續3屆倒在點球大戰 此前9次點球大戰只贏兩場

體育要聞

德國足球,臉都不要了

娛樂要聞

韓紅稱要退出公益,多位名人挽留

財經要聞

韓國萬億"芯"基建:存儲能否成AI時代油田

汽車要聞

誰懂啊家人們!爹味和班味一點都沒,這臺底盤最硬國產大獵裝太上頭!

態度原創

數碼
教育
游戲
時尚
健康

數碼要聞

內存漲價到頭了?20年前的DDR1被迫“復工”,還真能跑Win11

教育要聞

找出規律,填寫正確的數字

任天堂官方暖心提醒:Switch會員明日漲價!

“復古波點”又流行回來了!夏天簡單穿就很時髦

狂吃“糯嘰嘰”小心腸梗阻!

無障礙瀏覽 進入關懷版