无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

省錢,我只服梁文鋒

0
分享至



DeepSeek最讓人詬病的地方就是服務(wù)器總崩,但是從現(xiàn)在開始,DeepSeek可能再也不會(huì)出現(xiàn)服務(wù)器卡頓和宕機(jī)了。

原因在于,梁文鋒掛名發(fā)表了一篇論文,標(biāo)題為《DSpark:基于置信度調(diào)度的推測(cè)解碼與半自回歸生成》。按照DeepSeek的傳統(tǒng),DSpark讀起來應(yīng)該是D·Spark,而不是DS·park。

這是梁文鋒從2024年發(fā)表的《DeepSeek LLM》之后,他掛名發(fā)表的第12篇論文。不只是如此,DSpark這篇論文,還和梁文鋒在2010年發(fā)表的碩士畢業(yè)論文“撞車”了。

DSpark相當(dāng)于是給DeepSeek裝上了加速器,對(duì)用戶來說,體感就是快、穩(wěn)、不崩。

同樣質(zhì)量的回答,速度直接快了60%到80%,原來等10秒的回復(fù)現(xiàn)在五六秒就出來.

最關(guān)鍵的是,高峰時(shí)段,DeepSeek也不會(huì)再一直“轉(zhuǎn)圈”了。

這個(gè)DSpark到底有多神奇?別急,我講給你聽。

01

DSpark到底是什么,解決了DeepSeek什么老問題

大模型生成文字這件事,本質(zhì)上是一個(gè)“猜字游戲”。模型每寫一個(gè)字,都要把前面所有寫過的字重新看一遍,算一遍,才能決定下一個(gè)字該寫什么。

每寫一個(gè)字,AI就得從頭到尾跑一次,寫100個(gè)字,就要把自己寫的東西重新消化99遍。學(xué)術(shù)上,把這個(gè)“自己回歸自己”的過程,叫做“自回歸生成”。

整個(gè)過程就是現(xiàn)在的自己在跟上一步的自己較勁,上一步?jīng)]算完,下一步就動(dòng)不了。

所以過去幾年,業(yè)界都在琢磨同一件事,能不能讓模型一口氣猜一串字?

這個(gè)思路,就是DSpark論文中提到的核心機(jī)制——投機(jī)解碼(Speculative Decoding)。

它的運(yùn)行邏輯是這樣的,找一個(gè)跑得快但水平一般的模型當(dāng)草稿,讓它先憑感覺一口氣猜出后面好幾個(gè)字,然后把這一串字一次性拿給大模型驗(yàn)證。

大模型掃一眼,前面連續(xù)猜對(duì)的直接保留,從第一個(gè)猜錯(cuò)的地方開始,大模型自己寫一個(gè)對(duì)的,草稿模型再接著往下猜。

這樣就可以確保,輸出的內(nèi)容是大模型認(rèn)可的,而且速度還比一個(gè)字一個(gè)字猜地要快。

業(yè)內(nèi)普遍認(rèn)為有兩種投機(jī)解碼。

第一種是“老實(shí)人”打法。草稿模型也一個(gè)字一個(gè)字地猜,猜完一個(gè)、看一眼前文、再猜下一個(gè)。好處是輸出質(zhì)量更高,壞處是它猜得太慢了,速度跟大模型自己寫都差不多了。

第二種是不管三七二十一,刷刷刷一口氣把后面所有字全猜出來。雖然速度快,但是猜字時(shí)根本不會(huì)考慮前面完整的句子,它只看上一個(gè)字是什么。

這就導(dǎo)致一開始還好,但是猜字越往后,輸出質(zhì)量就會(huì)越低。

論文里把這個(gè)現(xiàn)象叫“后綴衰減”:第一個(gè)字的正確率還行,第二個(gè)大幅下滑,到了第五個(gè)第六個(gè)基本上就是在瞎猜了。

DSpark的核心思路叫半自回歸生成。簡(jiǎn)單來說,它把上述兩種辦法給結(jié)合在一起了。

第一步,以極快的手速嘩嘩嘩把后面的字全給你猜出來。猜完之后回過頭來檢查一遍,看看有沒有什么語句不通順、錯(cuò)別字之類地。

第二步,DSpark會(huì)給每個(gè)字打個(gè)“靠譜分”,比如第一個(gè)字90分,第二個(gè)80分,第三個(gè)60分,第四個(gè)30分。但是這里有個(gè)問題,打完分之后,DSpark就知道哪個(gè)字寫錯(cuò)了,如果要給它改對(duì),相當(dāng)于回到了一開始自回歸的方法當(dāng)中,好不容易提高的效率,又送回去了。

所以DSpark提出了一個(gè)方法,它會(huì)提前測(cè)量好大模型在不同批大小下的處理速度,然后每個(gè)請(qǐng)求的草稿按靠譜分從高到低排好隊(duì)。

它先把所有請(qǐng)求里最高分的那一批,拿給大模型驗(yàn)。

這個(gè)過程很快,因?yàn)榱可佟H缓笏鼏栕约海阂灰训诙布舆M(jìn)去?加了之后大模型要多花一點(diǎn)時(shí)間,這批字有80%是對(duì)的,能多賺幾百個(gè)正確結(jié)果。多花的時(shí)間除以多賺的正確字,算出來一個(gè)效率值。賺了,加。第三批,60%正確率。以此類推。

根據(jù)當(dāng)前服務(wù)器的忙碌程度,不忙的時(shí)候,全拿過去,能多猜對(duì)一個(gè)就多猜對(duì)一個(gè)。

如果大模型此時(shí)很忙,那就只把前幾個(gè)高分拿過去讓大模型驗(yàn),后面那些大概率錯(cuò)的就別去添亂了,省下時(shí)間多服務(wù)幾個(gè)用戶。

整個(gè)過程,叫做置信度調(diào)度驗(yàn)證。

之前有很多加速方案,但它們都有一個(gè)共同的毛病,那就是單用戶測(cè)起來快得不得了,一上高并發(fā)就崩。

現(xiàn)在的DeepSeek,一到晚上高峰就卡、就崩。

本質(zhì)上就是高峰時(shí)段用戶請(qǐng)求多,GPU的批處理壓力極大,但之前MTP-1的投機(jī)解碼方案會(huì)把大量算力浪費(fèi)在驗(yàn)證那些大概率猜錯(cuò)的token上。

這些token被草稿模型隨便猜出來,大模型看了一眼就駁回,但駁回的過程已經(jīng)消耗了寶貴的GPU周期。

有效吞吐量被嚴(yán)重拉低,請(qǐng)求越積越多,排隊(duì)越來越長(zhǎng),用戶體驗(yàn)就是卡頓甚至加載不出來。

DSpark部署后,這個(gè)問題應(yīng)該會(huì)得到緩解。



實(shí)測(cè)數(shù)據(jù)顯示,在嚴(yán)格的低延遲要求下,比如V4-Flash要保證每個(gè)用戶每秒看到120個(gè)字,之前的MTP-1系統(tǒng)基本撐不住多少并發(fā)就崩了,而DSpark還能保持6倍以上的吞吐量。

在更常規(guī)的中等負(fù)載場(chǎng)景下,要求每個(gè)用戶每秒80個(gè)字,DSpark單GPU的總吞吐量從10000 token每秒提升到15100 token每秒,直接漲了51%。

02

成本打下來多少,會(huì)不會(huì)犧牲回答質(zhì)量?

在AI行業(yè),訓(xùn)練成本是一次性的,推理成本卻是永續(xù)的。

怎么理解這個(gè)問題呢?你訓(xùn)練一個(gè)大模型,不管你花了幾個(gè)億、幾十個(gè)億,花完就花完了。

推理不一樣,模型上線之后,用戶每問一個(gè)問題,GPU就要跑一次,這個(gè)成本7×24小時(shí)不停,用戶越多跑得越多,永遠(yuǎn)停不下來。

這就意味著,誰能把推理成本打下來,誰就能賺錢。也可以反過來說,模型再強(qiáng),如果推理成本控制不住,那么模型的規(guī)模越大,廠商死得就越快。

同樣的GPU數(shù)量,DSpark在完全不改變硬件的前提下,可以讓每個(gè)用戶的生成速度快60%到85%。

原來等10秒鐘才出來的回復(fù),現(xiàn)在五六秒就出來了。

DeepSeek還給出了一個(gè)非常極端的場(chǎng)景。遇到熱點(diǎn)事件、大量用戶同時(shí)涌進(jìn)來的時(shí)候,之前的系統(tǒng)如果扛不住,要么排隊(duì)排到用戶放棄,要么直接崩掉。擴(kuò)容需要時(shí)間,GPU也不是你說加就能立刻加上的。

DSpark靠動(dòng)態(tài)調(diào)度,負(fù)載一高,自動(dòng)縮短驗(yàn)證長(zhǎng)度,避免占用關(guān)鍵的批處理容量。這樣就能在不擴(kuò)容的情況下扛住流量尖峰。

那么問題又來了,快是快了,DeepSeek會(huì)因此而偷工減料?回答質(zhì)量會(huì)不會(huì)下降?



答案是零損失。

這是投機(jī)解碼這個(gè)技術(shù)路線本身的數(shù)學(xué)性質(zhì)決定的。拒絕采樣機(jī)制從數(shù)學(xué)上嚴(yán)格保證:大模型最終輸出的每一個(gè)token,它的概率分布和大模型自己一個(gè)字一個(gè)字寫出來的分布完全一致。所以單從數(shù)學(xué)驗(yàn)證上來講,質(zhì)量不會(huì)下降。

DSpark論文原文寫到:“the acceptance rule preserves the target distribution exactly, speculative decoding accelerates generation without any quality loss.”接納規(guī)則能夠精準(zhǔn)完整地保留目標(biāo)分布,投機(jī)解碼可在不損失輸出質(zhì)量的前提下加速生成過程。

不僅如此,論文還在數(shù)學(xué)推理、代碼生成、日常對(duì)話三個(gè)領(lǐng)域做了離線準(zhǔn)確率測(cè)試,和原模型沒有統(tǒng)計(jì)顯著差異。

線上部署之后,也沒有收到回答質(zhì)量下降的用戶反饋。

而且由于草稿模型本身體積非常小,只占總計(jì)算量的不到10%,雖然多多少少會(huì)影響服務(wù)器負(fù)載,但是在51%的實(shí)測(cè)提升面前,這點(diǎn)負(fù)載可以忽略不計(jì)。

DeepSeek向來以便宜著稱,推理成本打下來40%之后,DeepSeek就有了更大的降價(jià)空間。

它本來的API定價(jià)就已經(jīng)是行業(yè)最低的了,現(xiàn)在成本再降一截,token價(jià)格可能也會(huì)跟著降。甚至有可能進(jìn)一步提高免費(fèi)用戶的額度。

更關(guān)鍵的是,這次DeepSeek不光是發(fā)了模型權(quán)重,還把整個(gè)DeepSpec訓(xùn)練框架開源了。

DeepSpec是專門用來訓(xùn)練投機(jī)解碼草稿模型的統(tǒng)一訓(xùn)練工具箱,也就是說,你可以用這套工具給自己的Qwen3、Gemma等模型訓(xùn)練草稿模型。

等于把整個(gè)行業(yè)的推理成本基準(zhǔn)線又往下拉了一個(gè)臺(tái)階。

03

堅(jiān)持省錢16年

2010年,梁文鋒在浙江大學(xué)讀碩士,他的碩士論文題目叫《基于低成本PTZ攝像機(jī)的目標(biāo)跟蹤算法研究》。

這個(gè)名字現(xiàn)在看起來非常“梁文鋒”。

當(dāng)時(shí)做計(jì)算機(jī)視覺目標(biāo)跟蹤的實(shí)驗(yàn)室,標(biāo)配是幾萬塊一臺(tái)的工業(yè)相機(jī),精度高、可控性強(qiáng)。梁文鋒不買,他用的是幾百塊錢的普通民用球機(jī)。

他的論點(diǎn)是,硬件的差距可以用算法補(bǔ)。通過自研的跟蹤算法優(yōu)化,他把便宜攝像頭的跟蹤精度做到了接近貴價(jià)設(shè)備的水平。

16年過去,梁文鋒依然執(zhí)著于用算法給硬件省錢,可以說是相當(dāng)?shù)牟煌跣牧恕?/p>

為什么別的大模型公司都想方設(shè)法提升性能,DeepSeek卻想要省錢?因?yàn)殄X是梁文鋒自己的。



在DeepSeek完成融資后,外媒爆料稱,DeepSeek成立近三年,完全由梁文鋒創(chuàng)立的幻方量化用利潤(rùn)養(yǎng)活,并且期間多次拒絕外部投資。

幻方量化2025年平均收益率高達(dá)56.55%,全年?duì)I收約86億元,梁文鋒個(gè)人持股85%,每年分紅數(shù)十億元,個(gè)人資產(chǎn)據(jù)估算在500億至1000億元之間。今年啟動(dòng)的首輪超500億元融資中,梁文鋒個(gè)人掏了200億,占總?cè)谫Y額的40%,是最大單一出資方。

外部投資者的錢不直接進(jìn) DeepSeek 主體,而是先注入由梁文鋒擔(dān)任普通合伙人的有限合伙企業(yè),外部投資方成為有限合伙人,只有收益權(quán)和財(cái)務(wù)信息查閱權(quán),沒有任何投票權(quán),全部股份鎖定五年,禁止轉(zhuǎn)讓和退出。

在DeepSeek,梁文鋒同時(shí)扮演投資者、管理者和研究者。

省下來的每一分成本,都是直接裝進(jìn)梁文鋒自己的口袋里。

面對(duì)“多買100張GPU還是讓團(tuán)隊(duì)做工程優(yōu)化”這道題時(shí),大多數(shù)人的答案都是前者。快,并且有OpenAI和Anthropic作為開路先鋒,花的又不是自己的錢,是投資人的錢,也沒什么好心疼的。

梁文鋒選后者,因?yàn)樗热魏稳硕记宄@張卡要跑多少token才能回本。

三個(gè)角色疊在一個(gè)人身上,產(chǎn)生了一個(gè)AI行業(yè)里極其罕見的決策閉環(huán)。

研究者提出“可以省”,管理者判斷“應(yīng)該省”,投資者確定“自己買單也愿意省”。沒有層級(jí)匯報(bào),沒有跨部門拉齊。

DSpark就是這條決策鏈的最新產(chǎn)物。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
民主剛果3-1戰(zhàn)勝烏茲!韓國(guó)隊(duì)正式出局 韓媒解脫:煎熬終于結(jié)束了

民主剛果3-1戰(zhàn)勝烏茲!韓國(guó)隊(duì)正式出局 韓媒解脫:煎熬終于結(jié)束了

風(fēng)過鄉(xiāng)
2026-06-28 09:32:20
一屆最水的世界杯小組賽結(jié)束了

一屆最水的世界杯小組賽結(jié)束了

低調(diào)看天下
2026-06-28 13:05:34
央視提醒后才發(fā)現(xiàn):手機(jī)相冊(cè)可能比聊天記錄還危險(xiǎn)!趕緊提醒家人

央視提醒后才發(fā)現(xiàn):手機(jī)相冊(cè)可能比聊天記錄還危險(xiǎn)!趕緊提醒家人

一品v
2026-06-28 20:55:18
6.29早評(píng)|形勢(shì)突變!重大警告!A股要爆!

6.29早評(píng)|形勢(shì)突變!重大警告!A股要爆!

龍行天下虎
2026-06-29 01:17:22
5.15米!比亞迪新車官宣:7月2日,正式發(fā)布上市!

5.15米!比亞迪新車官宣:7月2日,正式發(fā)布上市!

科技堡壘
2026-06-26 11:41:53
官宣,“南六代”第一次現(xiàn)身空軍宣傳片,直接暗示已練過空中加油

官宣,“南六代”第一次現(xiàn)身空軍宣傳片,直接暗示已練過空中加油

藍(lán)星雜談
2026-06-28 14:49:00
中國(guó)游客在日本列車駕駛室內(nèi)拍照炫耀!列車員連喊2遍“Photo No!”,視頻在日網(wǎng)掀起熱議!

中國(guó)游客在日本列車駕駛室內(nèi)拍照炫耀!列車員連喊2遍“Photo No!”,視頻在日網(wǎng)掀起熱議!

東京新青年
2026-06-28 18:05:51
250架轟6全副武裝,進(jìn)入戰(zhàn)備狀態(tài),小泉進(jìn)次郎:中國(guó)是超級(jí)核大國(guó)

250架轟6全副武裝,進(jìn)入戰(zhàn)備狀態(tài),小泉進(jìn)次郎:中國(guó)是超級(jí)核大國(guó)

阿傖說事
2026-06-03 01:43:46
抵達(dá)上海,樊振東正式上任,亮相新崗位,薪酬曝光,王勵(lì)勤期待

抵達(dá)上海,樊振東正式上任,亮相新崗位,薪酬曝光,王勵(lì)勤期待

懂球社
2026-06-28 19:44:20
明起連續(xù)4天,杭州大雨到暴雨,局部大暴雨

明起連續(xù)4天,杭州大雨到暴雨,局部大暴雨

都市快報(bào)橙柿互動(dòng)
2026-06-28 12:49:16
千億嬰兒衛(wèi)生市場(chǎng)崩壞:21款濕巾20款含毒,9成產(chǎn)品淪陷背后代工模式自噬

千億嬰兒衛(wèi)生市場(chǎng)崩壞:21款濕巾20款含毒,9成產(chǎn)品淪陷背后代工模式自噬

薛定諤的BUG
2026-06-27 03:57:07
日本壞心思根本藏不住,對(duì)華簽證費(fèi)一口氣上漲5倍,中方正式改口

日本壞心思根本藏不住,對(duì)華簽證費(fèi)一口氣上漲5倍,中方正式改口

婲顏明蘊(yùn)
2026-06-25 18:45:52
“一大早天塌了……”最近大量寶馬車主被一個(gè)彈窗嚇懵,官方緊急回應(yīng):系統(tǒng)誤報(bào)

“一大早天塌了……”最近大量寶馬車主被一個(gè)彈窗嚇懵,官方緊急回應(yīng):系統(tǒng)誤報(bào)

極目新聞
2026-06-26 16:27:14
確認(rèn)重傷,烏加特:我遭遇了球員所能面對(duì)的最嚴(yán)重的傷病

確認(rèn)重傷,烏加特:我遭遇了球員所能面對(duì)的最嚴(yán)重的傷病

懂球帝
2026-06-29 01:30:11
慘遭小美國(guó)11分逆轉(zhuǎn)!男籃爭(zhēng)8戰(zhàn)末節(jié)崩盤:U17中國(guó)隊(duì)被打崩潰了

慘遭小美國(guó)11分逆轉(zhuǎn)!男籃爭(zhēng)8戰(zhàn)末節(jié)崩盤:U17中國(guó)隊(duì)被打崩潰了

籃球快餐車
2026-06-29 01:22:18
大陸已經(jīng)在做解放臺(tái)灣的戰(zhàn)爭(zhēng)準(zhǔn)備了,最明顯信號(hào)是對(duì)美態(tài)度變了。

大陸已經(jīng)在做解放臺(tái)灣的戰(zhàn)爭(zhēng)準(zhǔn)備了,最明顯信號(hào)是對(duì)美態(tài)度變了。

阿七說史
2026-06-25 15:26:56
梅西:我所獲得的所有榮譽(yù),都比不上和安東內(nèi)拉相伴的時(shí)光!

梅西:我所獲得的所有榮譽(yù),都比不上和安東內(nèi)拉相伴的時(shí)光!

可愛小菜
2026-06-28 15:03:05
央八諜戰(zhàn)劇開播兩天收視破1,35集老戲骨飆戲令人叫絕

央八諜戰(zhàn)劇開播兩天收視破1,35集老戲骨飆戲令人叫絕

老吳教育課堂
2026-06-29 02:53:57
移民律師大規(guī)模造假,凡她經(jīng)手的綠卡都可能被撤銷,移民局罕見提醒換律師

移民律師大規(guī)模造假,凡她經(jīng)手的綠卡都可能被撤銷,移民局罕見提醒換律師

大洛杉磯LA
2026-06-28 06:15:27
快訊!還想來,日本喊話中國(guó)!

快訊!還想來,日本喊話中國(guó)!

故事終將光明磊落
2026-06-28 16:54:06
2026-06-29 04:47:00
字母榜 incentive-icons
字母榜
讓未來不止于大。
2575文章數(shù) 8067關(guān)注度
往期回顧 全部

科技要聞

DeepSeek最新論文:如何讓大模型跑得更快

頭條要聞

四川宜賓市高縣發(fā)生5.5級(jí)地震 震中距宜賓28公里

頭條要聞

四川宜賓市高縣發(fā)生5.5級(jí)地震 震中距宜賓28公里

體育要聞

兩周飛5萬公里!因凡蒂諾遭環(huán)保人士猛批

娛樂要聞

曾沛慈拿下《乘風(fēng)2026》年度總冠軍

財(cái)經(jīng)要聞

省錢,我只服梁文鋒

汽車要聞

搭載華為乾崑六件套 東風(fēng)奕派M8預(yù)售19.98萬起

態(tài)度原創(chuàng)

親子
旅游
藝術(shù)
房產(chǎn)
數(shù)碼

親子要聞

2歲孩子觸電心臟驟停,這些問題一定要警惕!

旅游要聞

不用遠(yuǎn)行!昆明人的周末救贖,被這片免費(fèi)濕地狠狠治愈

藝術(shù)要聞

她不用筆,她用刀

房產(chǎn)要聞

全國(guó)高考大放水,300分就能上本科!論上岸率,海南沒輸過!

數(shù)碼要聞

古爾曼:預(yù)計(jì)蘋果今年發(fā)布搭載M5 Ultra芯片的Mac Studio

無障礙瀏覽 進(jìn)入關(guān)懷版