![]()
DeepSeek最讓人詬病的地方就是服務(wù)器總崩,但是從現(xiàn)在開始,DeepSeek可能再也不會(huì)出現(xiàn)服務(wù)器卡頓和宕機(jī)了。
原因在于,梁文鋒掛名發(fā)表了一篇論文,標(biāo)題為《DSpark:基于置信度調(diào)度的推測(cè)解碼與半自回歸生成》。按照DeepSeek的傳統(tǒng),DSpark讀起來應(yīng)該是D·Spark,而不是DS·park。
這是梁文鋒從2024年發(fā)表的《DeepSeek LLM》之后,他掛名發(fā)表的第12篇論文。不只是如此,DSpark這篇論文,還和梁文鋒在2010年發(fā)表的碩士畢業(yè)論文“撞車”了。
DSpark相當(dāng)于是給DeepSeek裝上了加速器,對(duì)用戶來說,體感就是快、穩(wěn)、不崩。
同樣質(zhì)量的回答,速度直接快了60%到80%,原來等10秒的回復(fù)現(xiàn)在五六秒就出來.
最關(guān)鍵的是,高峰時(shí)段,DeepSeek也不會(huì)再一直“轉(zhuǎn)圈”了。
這個(gè)DSpark到底有多神奇?別急,我講給你聽。
01
DSpark到底是什么,解決了DeepSeek什么老問題
大模型生成文字這件事,本質(zhì)上是一個(gè)“猜字游戲”。模型每寫一個(gè)字,都要把前面所有寫過的字重新看一遍,算一遍,才能決定下一個(gè)字該寫什么。
每寫一個(gè)字,AI就得從頭到尾跑一次,寫100個(gè)字,就要把自己寫的東西重新消化99遍。學(xué)術(shù)上,把這個(gè)“自己回歸自己”的過程,叫做“自回歸生成”。
整個(gè)過程就是現(xiàn)在的自己在跟上一步的自己較勁,上一步?jīng)]算完,下一步就動(dòng)不了。
所以過去幾年,業(yè)界都在琢磨同一件事,能不能讓模型一口氣猜一串字?
這個(gè)思路,就是DSpark論文中提到的核心機(jī)制——投機(jī)解碼(Speculative Decoding)。
它的運(yùn)行邏輯是這樣的,找一個(gè)跑得快但水平一般的模型當(dāng)草稿,讓它先憑感覺一口氣猜出后面好幾個(gè)字,然后把這一串字一次性拿給大模型驗(yàn)證。
大模型掃一眼,前面連續(xù)猜對(duì)的直接保留,從第一個(gè)猜錯(cuò)的地方開始,大模型自己寫一個(gè)對(duì)的,草稿模型再接著往下猜。
這樣就可以確保,輸出的內(nèi)容是大模型認(rèn)可的,而且速度還比一個(gè)字一個(gè)字猜地要快。
業(yè)內(nèi)普遍認(rèn)為有兩種投機(jī)解碼。
第一種是“老實(shí)人”打法。草稿模型也一個(gè)字一個(gè)字地猜,猜完一個(gè)、看一眼前文、再猜下一個(gè)。好處是輸出質(zhì)量更高,壞處是它猜得太慢了,速度跟大模型自己寫都差不多了。
第二種是不管三七二十一,刷刷刷一口氣把后面所有字全猜出來。雖然速度快,但是猜字時(shí)根本不會(huì)考慮前面完整的句子,它只看上一個(gè)字是什么。
這就導(dǎo)致一開始還好,但是猜字越往后,輸出質(zhì)量就會(huì)越低。
論文里把這個(gè)現(xiàn)象叫“后綴衰減”:第一個(gè)字的正確率還行,第二個(gè)大幅下滑,到了第五個(gè)第六個(gè)基本上就是在瞎猜了。
DSpark的核心思路叫半自回歸生成。簡(jiǎn)單來說,它把上述兩種辦法給結(jié)合在一起了。
第一步,以極快的手速嘩嘩嘩把后面的字全給你猜出來。猜完之后回過頭來檢查一遍,看看有沒有什么語句不通順、錯(cuò)別字之類地。
第二步,DSpark會(huì)給每個(gè)字打個(gè)“靠譜分”,比如第一個(gè)字90分,第二個(gè)80分,第三個(gè)60分,第四個(gè)30分。但是這里有個(gè)問題,打完分之后,DSpark就知道哪個(gè)字寫錯(cuò)了,如果要給它改對(duì),相當(dāng)于回到了一開始自回歸的方法當(dāng)中,好不容易提高的效率,又送回去了。
所以DSpark提出了一個(gè)方法,它會(huì)提前測(cè)量好大模型在不同批大小下的處理速度,然后每個(gè)請(qǐng)求的草稿按靠譜分從高到低排好隊(duì)。
它先把所有請(qǐng)求里最高分的那一批,拿給大模型驗(yàn)。
這個(gè)過程很快,因?yàn)榱可佟H缓笏鼏栕约海阂灰训诙布舆M(jìn)去?加了之后大模型要多花一點(diǎn)時(shí)間,這批字有80%是對(duì)的,能多賺幾百個(gè)正確結(jié)果。多花的時(shí)間除以多賺的正確字,算出來一個(gè)效率值。賺了,加。第三批,60%正確率。以此類推。
根據(jù)當(dāng)前服務(wù)器的忙碌程度,不忙的時(shí)候,全拿過去,能多猜對(duì)一個(gè)就多猜對(duì)一個(gè)。
如果大模型此時(shí)很忙,那就只把前幾個(gè)高分拿過去讓大模型驗(yàn),后面那些大概率錯(cuò)的就別去添亂了,省下時(shí)間多服務(wù)幾個(gè)用戶。
整個(gè)過程,叫做置信度調(diào)度驗(yàn)證。
之前有很多加速方案,但它們都有一個(gè)共同的毛病,那就是單用戶測(cè)起來快得不得了,一上高并發(fā)就崩。
現(xiàn)在的DeepSeek,一到晚上高峰就卡、就崩。
本質(zhì)上就是高峰時(shí)段用戶請(qǐng)求多,GPU的批處理壓力極大,但之前MTP-1的投機(jī)解碼方案會(huì)把大量算力浪費(fèi)在驗(yàn)證那些大概率猜錯(cuò)的token上。
這些token被草稿模型隨便猜出來,大模型看了一眼就駁回,但駁回的過程已經(jīng)消耗了寶貴的GPU周期。
有效吞吐量被嚴(yán)重拉低,請(qǐng)求越積越多,排隊(duì)越來越長(zhǎng),用戶體驗(yàn)就是卡頓甚至加載不出來。
DSpark部署后,這個(gè)問題應(yīng)該會(huì)得到緩解。
![]()
實(shí)測(cè)數(shù)據(jù)顯示,在嚴(yán)格的低延遲要求下,比如V4-Flash要保證每個(gè)用戶每秒看到120個(gè)字,之前的MTP-1系統(tǒng)基本撐不住多少并發(fā)就崩了,而DSpark還能保持6倍以上的吞吐量。
在更常規(guī)的中等負(fù)載場(chǎng)景下,要求每個(gè)用戶每秒80個(gè)字,DSpark單GPU的總吞吐量從10000 token每秒提升到15100 token每秒,直接漲了51%。
02
成本打下來多少,會(huì)不會(huì)犧牲回答質(zhì)量?
在AI行業(yè),訓(xùn)練成本是一次性的,推理成本卻是永續(xù)的。
怎么理解這個(gè)問題呢?你訓(xùn)練一個(gè)大模型,不管你花了幾個(gè)億、幾十個(gè)億,花完就花完了。
推理不一樣,模型上線之后,用戶每問一個(gè)問題,GPU就要跑一次,這個(gè)成本7×24小時(shí)不停,用戶越多跑得越多,永遠(yuǎn)停不下來。
這就意味著,誰能把推理成本打下來,誰就能賺錢。也可以反過來說,模型再強(qiáng),如果推理成本控制不住,那么模型的規(guī)模越大,廠商死得就越快。
同樣的GPU數(shù)量,DSpark在完全不改變硬件的前提下,可以讓每個(gè)用戶的生成速度快60%到85%。
原來等10秒鐘才出來的回復(fù),現(xiàn)在五六秒就出來了。
DeepSeek還給出了一個(gè)非常極端的場(chǎng)景。遇到熱點(diǎn)事件、大量用戶同時(shí)涌進(jìn)來的時(shí)候,之前的系統(tǒng)如果扛不住,要么排隊(duì)排到用戶放棄,要么直接崩掉。擴(kuò)容需要時(shí)間,GPU也不是你說加就能立刻加上的。
DSpark靠動(dòng)態(tài)調(diào)度,負(fù)載一高,自動(dòng)縮短驗(yàn)證長(zhǎng)度,避免占用關(guān)鍵的批處理容量。這樣就能在不擴(kuò)容的情況下扛住流量尖峰。
那么問題又來了,快是快了,DeepSeek會(huì)因此而偷工減料?回答質(zhì)量會(huì)不會(huì)下降?
![]()
答案是零損失。
這是投機(jī)解碼這個(gè)技術(shù)路線本身的數(shù)學(xué)性質(zhì)決定的。拒絕采樣機(jī)制從數(shù)學(xué)上嚴(yán)格保證:大模型最終輸出的每一個(gè)token,它的概率分布和大模型自己一個(gè)字一個(gè)字寫出來的分布完全一致。所以單從數(shù)學(xué)驗(yàn)證上來講,質(zhì)量不會(huì)下降。
DSpark論文原文寫到:“the acceptance rule preserves the target distribution exactly, speculative decoding accelerates generation without any quality loss.”接納規(guī)則能夠精準(zhǔn)完整地保留目標(biāo)分布,投機(jī)解碼可在不損失輸出質(zhì)量的前提下加速生成過程。
不僅如此,論文還在數(shù)學(xué)推理、代碼生成、日常對(duì)話三個(gè)領(lǐng)域做了離線準(zhǔn)確率測(cè)試,和原模型沒有統(tǒng)計(jì)顯著差異。
線上部署之后,也沒有收到回答質(zhì)量下降的用戶反饋。
而且由于草稿模型本身體積非常小,只占總計(jì)算量的不到10%,雖然多多少少會(huì)影響服務(wù)器負(fù)載,但是在51%的實(shí)測(cè)提升面前,這點(diǎn)負(fù)載可以忽略不計(jì)。
DeepSeek向來以便宜著稱,推理成本打下來40%之后,DeepSeek就有了更大的降價(jià)空間。
它本來的API定價(jià)就已經(jīng)是行業(yè)最低的了,現(xiàn)在成本再降一截,token價(jià)格可能也會(huì)跟著降。甚至有可能進(jìn)一步提高免費(fèi)用戶的額度。
更關(guān)鍵的是,這次DeepSeek不光是發(fā)了模型權(quán)重,還把整個(gè)DeepSpec訓(xùn)練框架開源了。
DeepSpec是專門用來訓(xùn)練投機(jī)解碼草稿模型的統(tǒng)一訓(xùn)練工具箱,也就是說,你可以用這套工具給自己的Qwen3、Gemma等模型訓(xùn)練草稿模型。
等于把整個(gè)行業(yè)的推理成本基準(zhǔn)線又往下拉了一個(gè)臺(tái)階。
03
堅(jiān)持省錢16年
2010年,梁文鋒在浙江大學(xué)讀碩士,他的碩士論文題目叫《基于低成本PTZ攝像機(jī)的目標(biāo)跟蹤算法研究》。
這個(gè)名字現(xiàn)在看起來非常“梁文鋒”。
當(dāng)時(shí)做計(jì)算機(jī)視覺目標(biāo)跟蹤的實(shí)驗(yàn)室,標(biāo)配是幾萬塊一臺(tái)的工業(yè)相機(jī),精度高、可控性強(qiáng)。梁文鋒不買,他用的是幾百塊錢的普通民用球機(jī)。
他的論點(diǎn)是,硬件的差距可以用算法補(bǔ)。通過自研的跟蹤算法優(yōu)化,他把便宜攝像頭的跟蹤精度做到了接近貴價(jià)設(shè)備的水平。
16年過去,梁文鋒依然執(zhí)著于用算法給硬件省錢,可以說是相當(dāng)?shù)牟煌跣牧恕?/p>
為什么別的大模型公司都想方設(shè)法提升性能,DeepSeek卻想要省錢?因?yàn)殄X是梁文鋒自己的。
![]()
在DeepSeek完成融資后,外媒爆料稱,DeepSeek成立近三年,完全由梁文鋒創(chuàng)立的幻方量化用利潤(rùn)養(yǎng)活,并且期間多次拒絕外部投資。
幻方量化2025年平均收益率高達(dá)56.55%,全年?duì)I收約86億元,梁文鋒個(gè)人持股85%,每年分紅數(shù)十億元,個(gè)人資產(chǎn)據(jù)估算在500億至1000億元之間。今年啟動(dòng)的首輪超500億元融資中,梁文鋒個(gè)人掏了200億,占總?cè)谫Y額的40%,是最大單一出資方。
外部投資者的錢不直接進(jìn) DeepSeek 主體,而是先注入由梁文鋒擔(dān)任普通合伙人的有限合伙企業(yè),外部投資方成為有限合伙人,只有收益權(quán)和財(cái)務(wù)信息查閱權(quán),沒有任何投票權(quán),全部股份鎖定五年,禁止轉(zhuǎn)讓和退出。
在DeepSeek,梁文鋒同時(shí)扮演投資者、管理者和研究者。
省下來的每一分成本,都是直接裝進(jìn)梁文鋒自己的口袋里。
面對(duì)“多買100張GPU還是讓團(tuán)隊(duì)做工程優(yōu)化”這道題時(shí),大多數(shù)人的答案都是前者。快,并且有OpenAI和Anthropic作為開路先鋒,花的又不是自己的錢,是投資人的錢,也沒什么好心疼的。
梁文鋒選后者,因?yàn)樗热魏稳硕记宄@張卡要跑多少token才能回本。
三個(gè)角色疊在一個(gè)人身上,產(chǎn)生了一個(gè)AI行業(yè)里極其罕見的決策閉環(huán)。
研究者提出“可以省”,管理者判斷“應(yīng)該省”,投資者確定“自己買單也愿意省”。沒有層級(jí)匯報(bào),沒有跨部門拉齊。
DSpark就是這條決策鏈的最新產(chǎn)物。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.