網易首頁 > 網易號 > 正文申請入駐

家家都有DeepSeek服務，如何謊稱速度快？

2025-03-09 21:35:52　來源: 親愛的數據

北京舉報

分享至

不是人人都有“鈔能力”，我們的故事，

從用單節點方案部署DeepSeek-R1開始。

為什么是單節點呢？

因為H200單卡有140GB顯存，可用單節點（8卡）方案部署。

而H800和HI00顯存80GB，需要雙節點方案。

有卡了，就可以來玩DeepSeek。

世界是場游戲，是游戲就有作弊的玩家。

怎么作弊呢？等下說，

先看看芯片廠商AMD的官網技術博客。

網址在此：https://rocm.blogs.amd.com/artificial-intelligence/DeepSeekR1_Perf/README.html

時間是25年2月21日。

我相信哪怕是這幾天的時間，AMD的性能指標也還在增長。

沒辦法，AI就是這么卷。

換個角度，這篇可以說是，

從AMD官網博客中學習大模型推理性能知識點。

下圖是兩種芯片，英偉達H200和AMD MI300X，

用一個節點（8卡）跑出來的性能。

為什么要學這些知識點呢？

答案很簡單，以防被忽悠。

話說，性能指標是一個非常關鍵的數值，

背后都是技術實力，

甚至可以說性能是技術實力的終極體現。

是騾子是馬，你拉出來溜溜。

不過，現在是技術向上震蕩期，

很多人對大模型性能指標不熟悉，

會有人借機在這個指標上面作弊。

別著急知道作弊手法，

在看懂作弊之前我們先了解如何公平，

對，公平比較兩種芯片性能。

我們先看懂圖上的“已知條件”

圖上都有什么信息呢？

我們都知道，

大模型推理分為兩個關鍵任務，

有各自的生成時間：

一個是輸入（Prefill任務）所用時間，

另一個是輸出（Decode任務）所用時間。

其實所有的性能幾乎都可以分這兩個階段來觀察。

大模型推理中有兩個關鍵指標，

兩個關鍵指標是：

吞吐量（Throughput）和延遲（Latency）

吞吐量通常指每秒生成的token數量，

而延遲是從輸入到輸出的時間。

時間非常關鍵，

每秒吞吐量越高，意味著計算機系統能在單位時間內處理更多的請求。

就是單位時間干的活越多越好。

當然，牛馬也一樣。

這張圖告訴我們：

圖中有兩種芯片，

英偉達H200型號和AMD的MI300X型號，

為了公平比較兩種芯片的性能，要統一測試，

為什么要統一測試？

這樣才能看出處理相同工作量時，

哪個芯片速度更快、效果更好。

我們要用相同的“題目量”和“回答量”來進行測試，

也就是，統一處理4000個token（題目和回答加在一起）。

圖中原話是：輸入3200個token和輸出800個token。

這樣，兩個系統都各自處理4000個token的信息量，

而且圖中已知，每個推理請求中，平均向系統問出500個問題。

這樣，測試“系統處理token數量”統一了。

這張圖還想告訴我們幾個技術概念，

吞吐量（單位：token/秒）

延遲（單位：毫秒）

下面，我們會把毫秒換算成秒。

而最大并發數（Max Concurrency）是什么呢？

就是衡量系統在同一時刻能同時服務多少個請求，

能讓我們了解AI 系統在真實環境下對大量請求的抗壓能力，

就像考場里同一時間安排多少考生一起考試的道理一樣。

最大并發數，用Batch Size表示：

我們要根據不同的請求數量，觀察系統性能分別是多少。

因為是測試，所以非常細致，

能讓我們了解 AI 系統在真實環境下對大量請求的適應能力，

就像考場里同一時間安排多少考生一起考試的道理一樣。

當推理請求數量（Batch Size），

分別是是1，2，4……128，

Batch Size1是只有1個請求，

Batch Size2，同時處理2個請求，

Batch Size4，同時處理4個請求，

以此類推，直到Batch Size128，

就是同時處理128個請求。

打個比方，當我們說Batch Size1，

代表只有1個人在考試，1個人用考試系統；

Batch Size2，代表有2個人一起考試；

以此類推，Batch Size128 ，

就意味著128個人同時在考試。

如果只有1 個人在考試（Batch Size1），

系統專心為一個考生服務，一般來說，速度慢不了；

如果有128 個考生一起考試（Batch Size128），

系統就要同時對128 個人的題目進行閱讀、思考、回答，負擔變大，

可能會增加等待時間。

我們再來看圖，

在圖上左下方讀到的第一個數字是170，

單位tokens/s。

意味著：

已知總共4000個token的信息量，

當BatchSize1的時候，每秒處理170個token，

以這種速度來處理，

那需要的時間就是4000除以170等于23.5秒。

就是用23.5秒就能把這4000個token算完。

23.5秒在時間軸橫軸上處于2萬毫秒右邊一點的位置。

沒有明確寫出來，但我們讀圖能讀出來。

圖片試圖說明AMD芯片性能很好，

然而，我對AMD的這種廣告沒有什么興趣。

我感興趣的是：AMD這個廠商很良心，

他們的性能數據很清楚地告訴我們，

輸入和輸出的字數是多少（輸入3200個token和輸出800個token），

3200+800就是系統總處理的token數，

4000除以170等于23.5秒，

也就是說，decode任務時間是23秒，

也是恒定的塞進去的信息量就這么多。

好比，東西放進大模型里面多長時間能“出鍋”，

需要測量一個客觀的時間，

也就是，系統跑出來是幾秒就是幾秒。

生成速度，也就是多少秒生成多少token是一個硬指標，

是用總吞吐量除以測量出得時間得出來的。

這里要稍微計算一下了：

用圖上的已知信息倒著推理兩個信息。

當我們跑8張卡的H200的系統（單節點），

在Batch Size1的時候，情況如下：

情況一：輸入3200，輸出800，4000=3200+800

4000tokens除以170tokens/s等于23.53秒

估計decode時間大約為23秒，

再看decode的信息處理量是800token，

decode800tokens除以23秒等于35tokens/s。

看好了，這時候我要來“作弊”了，把輸入和輸出的數據互換一下。

情況二：輸入800，輸出3200，4000=800+3200

3200tokens除以34.78tokens/s，

就是每秒跑出來34.78個token，

雖然同樣還是處理總共4000個token，

但是，用3200除以35okens/s等于91秒，

decode時間就會變得很長，91秒。

都是處理同樣的信息量，調整輸入和輸出，

decode的時間從23秒變成了91秒。

這個技術細節非常重要。

有時候，廠商提供的測試數據是prefill和decode加在一起的，

當然，也可以說混在一起。

既然“混了”，“摸魚”的機會就來了，

好比兩個長跑運動員，

一個叫prefill，一個叫decode，

prefill跑得快，decode跑得慢，

至于為什么decode慢，

這個你的去問“注意力機制”這個家伙了，

都是它干的好事，這里不展開。

同樣的一段長跑運動，

prefill和decode的速度應該分別記錄，

假如想作弊，就把盡量長的路程給prefill跑，

它速度快，時間肯定就縮短了。

要是不懂，猛一看性能，覺得還挺快嘞。

還是那句話，性能是和采購決策相關的關鍵指標。

廠商AMD很客觀，告訴你比例了（輸入3200，輸出800），

有人會把prefill的比例調高點，數值就更好看了，

因為decode跑得慢，讓decode少跑，也就是少干點活。

請注意，有些性能指標旁邊標著“僅輸出”（decode only）

這不是不可以，而是，拿“僅輸出”的指標和整個推理的吞吐指標對比，

不講武德。

總結一下：寫性能，請把prefill和decode處理的工作量標清楚，謝謝。

最后預告下，過幾天發的文章，

我會把圖上所有的指標都算出來，會有新結論。

上一篇回顧：

《DeepSeek：為了這口醋，包了這頓餃子，為了數據，我造了模型》

聲明：個人原創，僅供參考

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

張家界大庸古城將重新開業！曾因耗資24億4年虧損超10億被焦點訪談“關注”

紅星新聞 2026-06-24 19:33:08
1105 跟貼 1105
中方投下贊成票

政知新媒體 2026-06-24 09:57:23
2258 跟貼 2258

美財長貝森特：一旦烏克蘭戰爭結束，預計俄羅斯將重新回到美元體系

瀟湘晨報 2026-06-24 21:10:28
230 跟貼 230

網友吐槽“被WPS背刺了”，公司回應

南方都市報 2026-06-23 20:17:09
1861 跟貼 1861
福建高考分數線發布

央視新聞 2026-06-24 16:41:54
1025 跟貼 1025

知情人士曝因后續淘汰賽未攜帶完整裁判組，馬寧基本確定無緣主裁機會；此前FIFA官宣馬寧擔任法國VS挪威比賽第四官員

封面新聞 2026-06-24 18:54:06
28 跟貼 28

十二年異鄉求學被挖去雙眼的男孩考了個"全國第一"

新民周刊 2026-06-24 21:46:33
30 跟貼 30
豆包專業版采用三級階梯定價方案，最高一年6000元

第一財經 2026-06-24 09:14:12
1288 跟貼 1288

山東曲阜動物園被指將狗狗染成熊貓色用以宣傳引流，園方：若大家不喜歡會考慮取消

南陽日報 2026-06-24 18:34:49
71 跟貼 71
個稅飆升12%，收入只增4.2%，反差信號背后的促消費難點｜商業微史記

界面新聞 2026-06-24 14:09:58
595 跟貼 595
雙一流高校密集宣布擴招

第一財經資訊 2026-06-24 23:59:38
0 跟貼 0
乘聯分會：6月1—21日全國乘用車市場零售91.3萬輛同比下降23%

財聯社 2026-06-24 17:26:04
30 跟貼 30
多地優化政策：停車61分鐘，再不能按2小時收費了

陽泉日報 2026-06-24 16:57:00
46 跟貼 46
茶飲店打烊前接到千元訂單，00后員工沒有抱怨默默干活，店主給每人發兩千元紅包

瀟湘晨報 2026-06-24 15:49:15
80 跟貼 80
41歲C羅梅開二度創六屆進球紀錄：不想與他人比較我只希望球隊能贏｜封面頭條

封面新聞 2026-06-24 10:09:03
283 跟貼 283
深成指、創業板指雙雙漲1%

每日經濟新聞 2026-06-24 13:32:06
69 跟貼 69
張維為：中國哲學從不信奉所謂的“絕對真理”

看看新聞Knews 2026-06-24 23:22:23
1 跟貼 1
威爾遜：我想成為有史以來最偉大的球員是時候上場打球了

北青網-北京青年報 2026-06-24 21:51:28
42 跟貼 42
端午假期第二天北京市屬公園迎客超38萬人次

北青網-北京青年報 2026-06-20 14:47:09
132 跟貼 132
著名作家畢飛宇獲聘為江蘇省政府參事

澎湃新聞 2026-06-24 17:22:27
29 跟貼 29
她帶保鮮盒打包剩菜，朋友卻當場翻臉：別丟人了

淺遇時光 2026-06-25 00:57:03
0 跟貼 0
全網警告：別對自己的頭發下剪刀！25個血淚翻車現場

自愈小日子 2026-06-25 01:12:24
0 跟貼 0
洋房收了別墅價保利半山花園業主要掀桌子了？

新浪財經 2026-06-25 01:11:17
0 跟貼 0
山東一孕35周老師在學校走廊滑倒，兩學生飛奔上前扶起，事后老師買來漢堡炸雞感謝；老師：如果不是他倆，我都不知道怎么站起來

三湘都市報 2026-06-25 01:14:56
0 跟貼 0

12歲女孩患感冒服用藥店配藥后急性心衰死亡，鑒定查出一種藥物“對死亡起促進作用” 家屬質疑藥店非法行醫多部門介入

紅星新聞

2026-06-24 20:26:40

中國正式進入“超級內卷”時代！只有一種人能賺錢（深度）

新浪財經

2026-06-23 08:51:12

亞足聯慌了！亞洲球隊第二輪近乎全軍覆沒，名額可能被削減

鏗鏘格斗

2026-06-24 22:56:37

誰不信邪？2002年巴西之后，沒有一支世界杯冠軍在小組賽全勝

懂球帝

2026-06-24 18:43:05

廣德車禍事件進展：知情人稱3歲男孩“腦死亡”，36歲女司機曝光

老貓觀點

2026-06-24 17:12:27

中國罕見譴責烏克蘭！進行嚴肅表態，澤連斯基別把中國真惹毛了！

墨印齋

2026-06-24 00:05:29

浙江省紀委省監委：王俊偉被查

上觀新聞

2026-06-24 19:53:27

湖南“副院長出軌眼科主任”事件進展：女方曾某已離職，男方祖某某已恢復出診；此前官方介入，通報稱將依規依紀嚴肅處理

大風新聞

2026-06-24 20:18:21

金價，跳水！金飾克價年內大跌超460元，金店店員：金價越跌，消費者就越謹慎！已有8家國際大行下調金價展望

每日經濟新聞

2026-06-24 20:39:50

A股股王再創新高，上市2個月股價狂飆超3000%

21世紀經濟報道

2026-06-24 13:52:47

某地瑜伽館驚現印度男人教練不堪入目，網友說：瑜伽是印度房中術

黯泉

2026-06-23 17:44:53

針對巴拿馬無端指責，中方闡明立場

環球時報國際

2026-06-24 17:57:34

馬斯克身家跌破萬億美元，較高點縮水4430億美元

界面新聞

2026-06-24 16:40:41

“10億”還干不翻一個賈淺淺？

現實的聲音

2026-06-24 13:50:39

5-0過后，葡萄牙遇壞消息！下輪若不勝，淘汰賽至少碰2支奪冠熱門

十點街球體育

2026-06-25 00:40:03

基金“女神”翻車，拒不認錯！

鳴金網

2026-06-24 12:44:53

全紅嬋留長發，近170cm顏值驚人，網友：這臉，變化好大

新動察

2026-06-24 08:54:19

高考出分后，他發帖求助：中流985還是再戰一年？

娛圈觀察員

2026-06-24 00:11:16

向太小兒子直播帶貨首秀！被懷疑有唐氏綜合癥，向太又遭質疑！

情感大頭說說

2026-06-24 18:32:58

普京：行動開始前，我們已忍耐8年

參考消息

2026-06-24 13:15:40

親愛的數據

《我看見了風暴：人工智能基建革命》一書作者

695文章數 219909關注度

往期回顧全部

數碼要聞

宇樹R1人形機器人大降價：2.99萬元起！現貨發售

頭條要聞

謝鋒當眾質問巴拿馬：若契約想撕毀就撕毀誰還來投資

頭條要聞

謝鋒當眾質問巴拿馬：若契約想撕毀就撕毀誰還來投資

體育要聞

字母哥，會把凱爾特人拆了嗎？

娛樂要聞

向佐向佑兄弟合體直播！母子終于和解

財經要聞

逃稅23億：審計署年報直指七家機構

科技要聞

豆包專業版上線：定價68-500元每月

汽車要聞

施鵬澤：為什么奧迪E7X強調座艙氣味安全?

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

家居

旅游

公開課

軍事航空

神經內科專家破解中風十大謠言

家居要聞

旅游要聞

游昆明黑龍潭別錯過，四百年臨水古閣，藏一戶普通人的忠義悲歌！

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

家家都有DeepSeek服務，如何謊稱速度快？

宇樹R1人形機器人大降價：2.99萬元起！現貨發售

謝鋒當眾質問巴拿馬：若契約想撕毀就撕毀 誰還來投資

謝鋒當眾質問巴拿馬：若契約想撕毀就撕毀 誰還來投資

字母哥，會把凱爾特人拆了嗎？

向佐向佑兄弟合體直播！母子終于和解

逃稅23億：審計署年報直指七家機構

豆包專業版上線：定價68-500元每月

施鵬澤：為什么奧迪E7X強調座艙氣味安全?

態度原創

神經內科專家破解中風十大謠言

綠意盎然 自然之境

游昆明黑龍潭別錯過，四百年臨水古閣，藏一戶普通人的忠義悲歌！

伊朗代表：霍爾木茲海峽已免費開放

謝鋒當眾質問巴拿馬：若契約想撕毀就撕毀誰還來投資

謝鋒當眾質問巴拿馬：若契約想撕毀就撕毀誰還來投資

綠意盎然自然之境