无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

家家都有DeepSeek服務(wù),如何謊稱速度快?

0
分享至

原創(chuàng):親愛(ài)的數(shù)據(jù)

不是人人都有“鈔能力”,我們的故事,

從用單節(jié)點(diǎn)方案部署DeepSeek-R1開(kāi)始。

為什么是單節(jié)點(diǎn)呢?

因?yàn)镠200單卡有140GB顯存,可用單節(jié)點(diǎn)(8卡)方案部署。

而H800和HI00顯存80GB,需要雙節(jié)點(diǎn)方案。

有卡了,就可以來(lái)玩DeepSeek。

世界是場(chǎng)游戲,是游戲就有作弊的玩家。

怎么作弊呢?等下說(shuō),

先看看芯片廠商AMD的官網(wǎng)技術(shù)博客。

網(wǎng)址在此:https://rocm.blogs.amd.com/artificial-intelligence/DeepSeekR1_Perf/README.html

時(shí)間是25年2月21日。

我相信哪怕是這幾天的時(shí)間,AMD的性能指標(biāo)也還在增長(zhǎng)。

沒(méi)辦法,AI就是這么卷。

換個(gè)角度,這篇可以說(shuō)是,

從AMD官網(wǎng)博客中學(xué)習(xí)大模型推理性能知識(shí)點(diǎn)。

下圖是兩種芯片,英偉達(dá)H200和AMD MI300X,

用一個(gè)節(jié)點(diǎn)(8卡)跑出來(lái)的性能。

為什么要學(xué)這些知識(shí)點(diǎn)呢?

答案很簡(jiǎn)單,以防被忽悠。

話說(shuō),性能指標(biāo)是一個(gè)非常關(guān)鍵的數(shù)值,

背后都是技術(shù)實(shí)力,

甚至可以說(shuō)性能是技術(shù)實(shí)力的終極體現(xiàn)。

是騾子是馬,你拉出來(lái)溜溜。

不過(guò),現(xiàn)在是技術(shù)向上震蕩期,

很多人對(duì)大模型性能指標(biāo)不熟悉,

會(huì)有人借機(jī)在這個(gè)指標(biāo)上面作弊。

別著急知道作弊手法,

在看懂作弊之前我們先了解如何公平,

對(duì),公平比較兩種芯片性能。

我們先看懂圖上的“已知條件”

圖上都有什么信息呢?

我們都知道,

大模型推理分為兩個(gè)關(guān)鍵任務(wù),

有各自的生成時(shí)間:

一個(gè)是輸入(Prefill任務(wù))所用時(shí)間,

另一個(gè)是輸出(Decode任務(wù))所用時(shí)間。

其實(shí)所有的性能幾乎都可以分這兩個(gè)階段來(lái)觀察。

大模型推理中有兩個(gè)關(guān)鍵指標(biāo),

兩個(gè)關(guān)鍵指標(biāo)是:

吞吐量(Throughput)和延遲(Latency)

吞吐量通常指每秒生成的token數(shù)量,

而延遲是從輸入到輸出的時(shí)間。

時(shí)間非常關(guān)鍵,

每秒吞吐量越高,意味著計(jì)算機(jī)系統(tǒng)能在單位時(shí)間內(nèi)處理更多的請(qǐng)求。

就是單位時(shí)間干的活越多越好。

當(dāng)然,牛馬也一樣。

這張圖告訴我們:

圖中有兩種芯片,

英偉達(dá)H200型號(hào)和AMD的MI300X型號(hào),

為了公平比較兩種芯片的性能,要統(tǒng)一測(cè)試,

為什么要統(tǒng)一測(cè)試?

這樣才能看出處理相同工作量時(shí),

哪個(gè)芯片速度更快、效果更好。

我們要用相同的“題目量”和“回答量”來(lái)進(jìn)行測(cè)試,

也就是,統(tǒng)一處理4000個(gè)token(題目和回答加在一起)。

圖中原話是:輸入3200個(gè)token和輸出800個(gè)token。

這樣,兩個(gè)系統(tǒng)都各自處理4000個(gè)token的信息量,

而且圖中已知,每個(gè)推理請(qǐng)求中,平均向系統(tǒng)問(wèn)出500個(gè)問(wèn)題。

這樣,測(cè)試“系統(tǒng)處理token數(shù)量”統(tǒng)一了。

這張圖還想告訴我們幾個(gè)技術(shù)概念,

吞吐量(單位:token/秒)

延遲(單位:毫秒)

下面,我們會(huì)把毫秒換算成秒。

而最大并發(fā)數(shù)(Max Concurrency)是什么呢?

就是衡量系統(tǒng)在同一時(shí)刻能同時(shí)服務(wù)多少個(gè)請(qǐng)求,

能讓我們了解AI 系統(tǒng)在真實(shí)環(huán)境下對(duì)大量請(qǐng)求的抗壓能力,

就像考場(chǎng)里同一時(shí)間安排多少考生一起考試的道理一樣。

最大并發(fā)數(shù),用Batch Size表示:

我們要根據(jù)不同的請(qǐng)求數(shù)量,觀察系統(tǒng)性能分別是多少。

因?yàn)槭菧y(cè)試,所以非常細(xì)致,

能讓我們了解 AI 系統(tǒng)在真實(shí)環(huán)境下對(duì)大量請(qǐng)求的適應(yīng)能力,

就像考場(chǎng)里同一時(shí)間安排多少考生一起考試的道理一樣。

當(dāng)推理請(qǐng)求數(shù)量(Batch Size),

分別是是1,2,4……128,

Batch Size1是只有1個(gè)請(qǐng)求,

Batch Size2,同時(shí)處理2個(gè)請(qǐng)求,

Batch Size4,同時(shí)處理4個(gè)請(qǐng)求,

以此類推,直到Batch Size128,

就是同時(shí)處理128個(gè)請(qǐng)求。

打個(gè)比方,當(dāng)我們說(shuō)Batch Size1,

代表只有1個(gè)人在考試,1個(gè)人用考試系統(tǒng);

Batch Size2,代表有2個(gè)人一起考試;

以此類推,Batch Size128 ,

就意味著128個(gè)人同時(shí)在考試。

如果只有1 個(gè)人在考試(Batch Size1),

系統(tǒng)專心為一個(gè)考生服務(wù),一般來(lái)說(shuō),速度慢不了;

如果有128 個(gè)考生一起考試(Batch Size128),

系統(tǒng)就要同時(shí)對(duì)128 個(gè)人的題目進(jìn)行閱讀、思考、回答,負(fù)擔(dān)變大,

可能會(huì)增加等待時(shí)間。

我們?cè)賮?lái)看圖,

在圖上左下方讀到的第一個(gè)數(shù)字是170,

單位tokens/s。

意味著:

已知總共4000個(gè)token的信息量,

當(dāng)BatchSize1的時(shí)候,每秒處理170個(gè)token,

以這種速度來(lái)處理,

那需要的時(shí)間就是4000除以170等于23.5秒。

就是用23.5秒就能把這4000個(gè)token算完。

23.5秒在時(shí)間軸橫軸上處于2萬(wàn)毫秒右邊一點(diǎn)的位置。

沒(méi)有明確寫(xiě)出來(lái),但我們讀圖能讀出來(lái)。

圖片試圖說(shuō)明AMD芯片性能很好,

然而,我對(duì)AMD的這種廣告沒(méi)有什么興趣。

我感興趣的是:AMD這個(gè)廠商很良心,

他們的性能數(shù)據(jù)很清楚地告訴我們,

輸入和輸出的字?jǐn)?shù)是多少(輸入3200個(gè)token和輸出800個(gè)token),

3200+800就是系統(tǒng)總處理的token數(shù),

4000除以170等于23.5秒,

也就是說(shuō),decode任務(wù)時(shí)間是23秒,

也是恒定的塞進(jìn)去的信息量就這么多。

好比,東西放進(jìn)大模型里面多長(zhǎng)時(shí)間能“出鍋”,

需要測(cè)量一個(gè)客觀的時(shí)間,

也就是,系統(tǒng)跑出來(lái)是幾秒就是幾秒。

生成速度,也就是多少秒生成多少token是一個(gè)硬指標(biāo),

是用總吞吐量除以測(cè)量出得時(shí)間得出來(lái)的。

這里要稍微計(jì)算一下了:

用圖上的已知信息倒著推理兩個(gè)信息。

當(dāng)我們跑8張卡的H200的系統(tǒng)(單節(jié)點(diǎn)),

在Batch Size1的時(shí)候,情況如下:

情況一:輸入3200,輸出800,4000=3200+800

4000tokens除以170tokens/s等于23.53秒

估計(jì)decode時(shí)間大約為23秒,

再看decode的信息處理量是800token,

decode800tokens除以23秒等于35tokens/s。

看好了,這時(shí)候我要來(lái)“作弊”了,把輸入和輸出的數(shù)據(jù)互換一下。

情況二:輸入800,輸出3200,4000=800+3200

3200tokens除以34.78tokens/s,

就是每秒跑出來(lái)34.78個(gè)token,

雖然同樣還是處理總共4000個(gè)token,

但是,用3200除以35okens/s等于91秒,

decode時(shí)間就會(huì)變得很長(zhǎng),91秒。

都是處理同樣的信息量,調(diào)整輸入和輸出,

decode的時(shí)間從23秒變成了91秒。

這個(gè)技術(shù)細(xì)節(jié)非常重要。

有時(shí)候,廠商提供的測(cè)試數(shù)據(jù)是prefill和decode加在一起的,

當(dāng)然,也可以說(shuō)混在一起。

既然“混了”,“摸魚(yú)”的機(jī)會(huì)就來(lái)了,

好比兩個(gè)長(zhǎng)跑運(yùn)動(dòng)員,

一個(gè)叫prefill,一個(gè)叫decode,

prefill跑得快,decode跑得慢,

至于為什么decode慢,

這個(gè)你的去問(wèn)“注意力機(jī)制”這個(gè)家伙了,

都是它干的好事,這里不展開(kāi)。

同樣的一段長(zhǎng)跑運(yùn)動(dòng),

prefill和decode的速度應(yīng)該分別記錄,

假如想作弊,就把盡量長(zhǎng)的路程給prefill跑,

它速度快,時(shí)間肯定就縮短了。

要是不懂,猛一看性能,覺(jué)得還挺快嘞。

還是那句話,性能是和采購(gòu)決策相關(guān)的關(guān)鍵指標(biāo)。

廠商AMD很客觀,告訴你比例了(輸入3200,輸出800),

有人會(huì)把prefill的比例調(diào)高點(diǎn),數(shù)值就更好看了,

因?yàn)閐ecode跑得慢,讓decode少跑,也就是少干點(diǎn)活。

請(qǐng)注意,有些性能指標(biāo)旁邊標(biāo)著“僅輸出”(decode only)

這不是不可以,而是,拿“僅輸出”的指標(biāo)和整個(gè)推理的吞吐指標(biāo)對(duì)比,

不講武德。

總結(jié)一下:寫(xiě)性能,請(qǐng)把prefill和decode處理的工作量標(biāo)清楚,謝謝。

最后預(yù)告下,過(guò)幾天發(fā)的文章,

我會(huì)把圖上所有的指標(biāo)都算出來(lái),會(huì)有新結(jié)論。

上一篇回顧:

《DeepSeek:為了這口醋,包了這頓餃子,為了數(shù)據(jù),我造了模型》


聲明:個(gè)人原創(chuàng),僅供參考

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
山西沁源縣委原書(shū)記李丁夫主動(dòng)投案,此前煤礦爆炸事故致82死

山西沁源縣委原書(shū)記李丁夫主動(dòng)投案,此前煤礦爆炸事故致82死

上觀新聞
2026-06-24 20:56:11
當(dāng)心!上海街頭出現(xiàn)大量“奪命傘”!交警明令禁止!嚴(yán)重危及生命

當(dāng)心!上海街頭出現(xiàn)大量“奪命傘”!交警明令禁止!嚴(yán)重危及生命

環(huán)球網(wǎng)資訊
2026-06-24 19:06:58
曾琦醫(yī)生“回來(lái)了”!名字和簡(jiǎn)歷重回專家欄,坐診時(shí)間也公示出來(lái)

曾琦醫(yī)生“回來(lái)了”!名字和簡(jiǎn)歷重回專家欄,坐診時(shí)間也公示出來(lái)

火山詩(shī)話
2026-06-23 16:33:56
2026選秀贏輸家:狀元迪班薩入奇才,獨(dú)行俠9號(hào)簽出人意料

2026選秀贏輸家:狀元迪班薩入奇才,獨(dú)行俠9號(hào)簽出人意料

晚風(fēng)知我意21
2026-06-25 01:24:10
官方:德尚因母親去世將回國(guó)奔喪,不會(huì)現(xiàn)場(chǎng)指揮與挪威比賽

官方:德尚因母親去世將回國(guó)奔喪,不會(huì)現(xiàn)場(chǎng)指揮與挪威比賽

懂球帝
2026-06-24 04:36:30
世界杯32強(qiáng)已定7席:4隊(duì)鎖定頭名!5隊(duì)提前出局 3隊(duì)2連敗仍或晉級(jí)

世界杯32強(qiáng)已定7席:4隊(duì)鎖定頭名!5隊(duì)提前出局 3隊(duì)2連敗仍或晉級(jí)

我愛(ài)英超
2026-06-24 12:02:09
姑姑沒(méi)提前通知,過(guò)年帶全家12口人來(lái)我別墅度假,到門(mén)口后傻眼了

姑姑沒(méi)提前通知,過(guò)年帶全家12口人來(lái)我別墅度假,到門(mén)口后傻眼了

千秋文化
2026-06-17 19:55:08
2026款Model Y真能跑900km?我開(kāi)著三臺(tái)車在零下8℃實(shí)測(cè)了兩個(gè)月

2026款Model Y真能跑900km?我開(kāi)著三臺(tái)車在零下8℃實(shí)測(cè)了兩個(gè)月

趣味萌寵的日常
2026-06-23 16:10:43
5-2領(lǐng)先!比起梅西轟世界杯18球,讓他更難追C羅的紀(jì)錄,還在后面

5-2領(lǐng)先!比起梅西轟世界杯18球,讓他更難追C羅的紀(jì)錄,還在后面

侃球熊弟
2026-06-24 04:29:58
科學(xué)家發(fā)現(xiàn):世界最深的馬里亞納海溝,每年偷偷吞掉30億噸海水!

科學(xué)家發(fā)現(xiàn):世界最深的馬里亞納海溝,每年偷偷吞掉30億噸海水!

觀察宇宙
2026-06-18 22:02:34
大V發(fā)文質(zhì)疑:國(guó)內(nèi)就業(yè)這么差,怎么還有錢(qián)補(bǔ)貼印度人開(kāi)飛餅店?

大V發(fā)文質(zhì)疑:國(guó)內(nèi)就業(yè)這么差,怎么還有錢(qián)補(bǔ)貼印度人開(kāi)飛餅店?

小徐講八卦
2026-06-24 07:37:29
正常人可以偶爾偷吃一顆偉哥嗎?有什么副作用?本文為你講出實(shí)情

正常人可以偶爾偷吃一顆偉哥嗎?有什么副作用?本文為你講出實(shí)情

健康科普365
2026-05-09 21:05:04
稀土原來(lái)是我們農(nóng)村的常見(jiàn)物

稀土原來(lái)是我們農(nóng)村的常見(jiàn)物

蜉蝣說(shuō)
2026-06-23 18:04:44
三個(gè)國(guó)家,進(jìn)口殲10CE,超過(guò)100架的大蛋糕,可能有多大?

三個(gè)國(guó)家,進(jìn)口殲10CE,超過(guò)100架的大蛋糕,可能有多大?

萬(wàn)里繁華
2026-06-24 10:18:52
商務(wù)部:對(duì)具備條件的領(lǐng)域如二手車交易、皮卡車進(jìn)城等,將加快推動(dòng)放寬限制

商務(wù)部:對(duì)具備條件的領(lǐng)域如二手車交易、皮卡車進(jìn)城等,將加快推動(dòng)放寬限制

紅星新聞
2026-06-23 16:11:20
6月24日俄烏最新:格拉西莫夫的緊急報(bào)告

6月24日俄烏最新:格拉西莫夫的緊急報(bào)告

西樓飲月
2026-06-24 18:26:52
項(xiàng)立剛:EUV光刻機(jī),中國(guó)不僅可以做出來(lái),還會(huì)把它搞成白菜價(jià)

項(xiàng)立剛:EUV光刻機(jī),中國(guó)不僅可以做出來(lái),還會(huì)把它搞成白菜價(jià)

混沌錄
2026-06-22 17:48:16
王治郅當(dāng)場(chǎng)發(fā)火!楊瀚森回歸首秀僅7分8板,名宿直言:別在外瞎擋拆,往內(nèi)線硬鑿

王治郅當(dāng)場(chǎng)發(fā)火!楊瀚森回歸首秀僅7分8板,名宿直言:別在外瞎擋拆,往內(nèi)線硬鑿

生活新鮮市
2026-06-24 17:54:32
鄧小平審閱死刑名單看到一人大驚:怎么把他抓了,快去賠禮道歉

鄧小平審閱死刑名單看到一人大驚:怎么把他抓了,快去賠禮道歉

品點(diǎn)歷史
2026-06-21 07:25:13
家長(zhǎng)發(fā)明“防早戀”發(fā)型火了!網(wǎng)友:貴千金的顏值,沒(méi)必要這樣!

家長(zhǎng)發(fā)明“防早戀”發(fā)型火了!網(wǎng)友:貴千金的顏值,沒(méi)必要這樣!

犀利強(qiáng)哥
2026-06-24 07:13:05
2026-06-25 02:47:00
親愛(ài)的數(shù)據(jù) incentive-icons
親愛(ài)的數(shù)據(jù)
《我看見(jiàn)了風(fēng)暴:人工智能基建革命》一書(shū)作者
695文章數(shù) 219909關(guān)注度
往期回顧 全部

科技要聞

豆包專業(yè)版上線:定價(jià)68-500元每月

頭條要聞

15歲男孩肥胖誘發(fā)糖尿病 搶救無(wú)效離世

頭條要聞

15歲男孩肥胖誘發(fā)糖尿病 搶救無(wú)效離世

體育要聞

字母哥,會(huì)把凱爾特人拆了嗎?

娛樂(lè)要聞

向佐向佑兄弟合體直播!母子終于和解

財(cái)經(jīng)要聞

逃稅23億:審計(jì)署年報(bào)直指七家機(jī)構(gòu)

汽車要聞

施鵬澤:為什么奧迪E7X強(qiáng)調(diào)座艙氣味安全?

態(tài)度原創(chuàng)

教育
旅游
藝術(shù)
時(shí)尚
游戲

教育要聞

安徽高考成績(jī)明天公布!查分通道來(lái)了

旅游要聞

昆明鬧市藏短巷,曾遍開(kāi)赤紅鸚哥花,一頭貢象改了整條街名!

藝術(shù)要聞

瘋狂大樓!俄羅斯富豪想改變上海香港天際線?

那些搞砸高考的年輕人,人生完蛋了嗎?

獵魂世界:霍雨浩六大配置+操作問(wèn)題分析!第一神控是否名副其實(shí)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版