无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

省錢,我只服梁文鋒

0
分享至



DeepSeek最讓人詬病的地方就是服務器總崩,但是從現在開始,DeepSeek可能再也不會出現服務器卡頓和宕機了。

原因在于,梁文鋒掛名發表了一篇論文,標題為《DSpark:基于置信度調度的推測解碼與半自回歸生成》。按照DeepSeek的傳統,DSpark讀起來應該是D·Spark,而不是DS·park。

這是梁文鋒從2024年發表的《DeepSeek LLM》之后,他掛名發表的第12篇論文。不只是如此,DSpark這篇論文,還和梁文鋒在2010年發表的碩士畢業論文“撞車”了。

DSpark相當于是給DeepSeek裝上了加速器,對用戶來說,體感就是快、穩、不崩。

同樣質量的回答,速度直接快了60%到80%,原來等10秒的回復現在五六秒就出來.

最關鍵的是,高峰時段,DeepSeek也不會再一直“轉圈”了。

這個DSpark到底有多神奇?別急,我講給你聽。

01

DSpark到底是什么,解決了DeepSeek什么老問題

大模型生成文字這件事,本質上是一個“猜字游戲”。模型每寫一個字,都要把前面所有寫過的字重新看一遍,算一遍,才能決定下一個字該寫什么。

每寫一個字,AI就得從頭到尾跑一次,寫100個字,就要把自己寫的東西重新消化99遍。學術上,把這個“自己回歸自己”的過程,叫做“自回歸生成”。

整個過程就是現在的自己在跟上一步的自己較勁,上一步沒算完,下一步就動不了。

所以過去幾年,業界都在琢磨同一件事,能不能讓模型一口氣猜一串字?

這個思路,就是DSpark論文中提到的核心機制——投機解碼(Speculative Decoding)。

它的運行邏輯是這樣的,找一個跑得快但水平一般的模型當草稿,讓它先憑感覺一口氣猜出后面好幾個字,然后把這一串字一次性拿給大模型驗證。

大模型掃一眼,前面連續猜對的直接保留,從第一個猜錯的地方開始,大模型自己寫一個對的,草稿模型再接著往下猜。

這樣就可以確保,輸出的內容是大模型認可的,而且速度還比一個字一個字猜地要快。

業內普遍認為有兩種投機解碼。

第一種是“老實人”打法。草稿模型也一個字一個字地猜,猜完一個、看一眼前文、再猜下一個。好處是輸出質量更高,壞處是它猜得太慢了,速度跟大模型自己寫都差不多了。

第二種是不管三七二十一,刷刷刷一口氣把后面所有字全猜出來。雖然速度快,但是猜字時根本不會考慮前面完整的句子,它只看上一個字是什么。

這就導致一開始還好,但是猜字越往后,輸出質量就會越低。

論文里把這個現象叫“后綴衰減”:第一個字的正確率還行,第二個大幅下滑,到了第五個第六個基本上就是在瞎猜了。

DSpark的核心思路叫半自回歸生成。簡單來說,它把上述兩種辦法給結合在一起了。

第一步,以極快的手速嘩嘩嘩把后面的字全給你猜出來。猜完之后回過頭來檢查一遍,看看有沒有什么語句不通順、錯別字之類地。

第二步,DSpark會給每個字打個“靠譜分”,比如第一個字90分,第二個80分,第三個60分,第四個30分。但是這里有個問題,打完分之后,DSpark就知道哪個字寫錯了,如果要給它改對,相當于回到了一開始自回歸的方法當中,好不容易提高的效率,又送回去了。

所以DSpark提出了一個方法,它會提前測量好大模型在不同批大小下的處理速度,然后每個請求的草稿按靠譜分從高到低排好隊。

它先把所有請求里最高分的那一批,拿給大模型驗。

這個過程很快,因為量少。然后它問自己:要不要把第二批也加進去?加了之后大模型要多花一點時間,這批字有80%是對的,能多賺幾百個正確結果。多花的時間除以多賺的正確字,算出來一個效率值。賺了,加。第三批,60%正確率。以此類推。

根據當前服務器的忙碌程度,不忙的時候,全拿過去,能多猜對一個就多猜對一個。

如果大模型此時很忙,那就只把前幾個高分拿過去讓大模型驗,后面那些大概率錯的就別去添亂了,省下時間多服務幾個用戶。

整個過程,叫做置信度調度驗證。

之前有很多加速方案,但它們都有一個共同的毛病,那就是單用戶測起來快得不得了,一上高并發就崩。

現在的DeepSeek,一到晚上高峰就卡、就崩。

本質上就是高峰時段用戶請求多,GPU的批處理壓力極大,但之前MTP-1的投機解碼方案會把大量算力浪費在驗證那些大概率猜錯的token上。

這些token被草稿模型隨便猜出來,大模型看了一眼就駁回,但駁回的過程已經消耗了寶貴的GPU周期。

有效吞吐量被嚴重拉低,請求越積越多,排隊越來越長,用戶體驗就是卡頓甚至加載不出來。

DSpark部署后,這個問題應該會得到緩解。



實測數據顯示,在嚴格的低延遲要求下,比如V4-Flash要保證每個用戶每秒看到120個字,之前的MTP-1系統基本撐不住多少并發就崩了,而DSpark還能保持6倍以上的吞吐量。

在更常規的中等負載場景下,要求每個用戶每秒80個字,DSpark單GPU的總吞吐量從10000 token每秒提升到15100 token每秒,直接漲了51%。

02

成本打下來多少,會不會犧牲回答質量?

在AI行業,訓練成本是一次性的,推理成本卻是永續的。

怎么理解這個問題呢?你訓練一個大模型,不管你花了幾個億、幾十個億,花完就花完了。

推理不一樣,模型上線之后,用戶每問一個問題,GPU就要跑一次,這個成本7×24小時不停,用戶越多跑得越多,永遠停不下來。

這就意味著,誰能把推理成本打下來,誰就能賺錢。也可以反過來說,模型再強,如果推理成本控制不住,那么模型的規模越大,廠商死得就越快。

同樣的GPU數量,DSpark在完全不改變硬件的前提下,可以讓每個用戶的生成速度快60%到85%。

原來等10秒鐘才出來的回復,現在五六秒就出來了。

DeepSeek還給出了一個非常極端的場景。遇到熱點事件、大量用戶同時涌進來的時候,之前的系統如果扛不住,要么排隊排到用戶放棄,要么直接崩掉。擴容需要時間,GPU也不是你說加就能立刻加上的。

DSpark靠動態調度,負載一高,自動縮短驗證長度,避免占用關鍵的批處理容量。這樣就能在不擴容的情況下扛住流量尖峰。

那么問題又來了,快是快了,DeepSeek會因此而偷工減料?回答質量會不會下降?



答案是零損失。

這是投機解碼這個技術路線本身的數學性質決定的。拒絕采樣機制從數學上嚴格保證:大模型最終輸出的每一個token,它的概率分布和大模型自己一個字一個字寫出來的分布完全一致。所以單從數學驗證上來講,質量不會下降。

DSpark論文原文寫到:“the acceptance rule preserves the target distribution exactly, speculative decoding accelerates generation without any quality loss.”接納規則能夠精準完整地保留目標分布,投機解碼可在不損失輸出質量的前提下加速生成過程。

不僅如此,論文還在數學推理、代碼生成、日常對話三個領域做了離線準確率測試,和原模型沒有統計顯著差異。

線上部署之后,也沒有收到回答質量下降的用戶反饋。

而且由于草稿模型本身體積非常小,只占總計算量的不到10%,雖然多多少少會影響服務器負載,但是在51%的實測提升面前,這點負載可以忽略不計。

DeepSeek向來以便宜著稱,推理成本打下來40%之后,DeepSeek就有了更大的降價空間。

它本來的API定價就已經是行業最低的了,現在成本再降一截,token價格可能也會跟著降。甚至有可能進一步提高免費用戶的額度。

更關鍵的是,這次DeepSeek不光是發了模型權重,還把整個DeepSpec訓練框架開源了。

DeepSpec是專門用來訓練投機解碼草稿模型的統一訓練工具箱,也就是說,你可以用這套工具給自己的Qwen3、Gemma等模型訓練草稿模型。

等于把整個行業的推理成本基準線又往下拉了一個臺階。

03

堅持省錢16年

2010年,梁文鋒在浙江大學讀碩士,他的碩士論文題目叫《基于低成本PTZ攝像機的目標跟蹤算法研究》。

這個名字現在看起來非常“梁文鋒”。

當時做計算機視覺目標跟蹤的實驗室,標配是幾萬塊一臺的工業相機,精度高、可控性強。梁文鋒不買,他用的是幾百塊錢的普通民用球機。

他的論點是,硬件的差距可以用算法補。通過自研的跟蹤算法優化,他把便宜攝像頭的跟蹤精度做到了接近貴價設備的水平。

16年過去,梁文鋒依然執著于用算法給硬件省錢,可以說是相當的不忘初心了。

為什么別的大模型公司都想方設法提升性能,DeepSeek卻想要省錢?因為錢是梁文鋒自己的。



在DeepSeek完成融資后,外媒爆料稱,DeepSeek成立近三年,完全由梁文鋒創立的幻方量化用利潤養活,并且期間多次拒絕外部投資。

幻方量化2025年平均收益率高達56.55%,全年營收約86億元,梁文鋒個人持股85%,每年分紅數十億元,個人資產據估算在500億至1000億元之間。今年啟動的首輪超500億元融資中,梁文鋒個人掏了200億,占總融資額的40%,是最大單一出資方。

外部投資者的錢不直接進 DeepSeek 主體,而是先注入由梁文鋒擔任普通合伙人的有限合伙企業,外部投資方成為有限合伙人,只有收益權和財務信息查閱權,沒有任何投票權,全部股份鎖定五年,禁止轉讓和退出。

在DeepSeek,梁文鋒同時扮演投資者、管理者和研究者。

省下來的每一分成本,都是直接裝進梁文鋒自己的口袋里。

面對“多買100張GPU還是讓團隊做工程優化”這道題時,大多數人的答案都是前者。快,并且有OpenAI和Anthropic作為開路先鋒,花的又不是自己的錢,是投資人的錢,也沒什么好心疼的。

梁文鋒選后者,因為他比任何人都清楚這張卡要跑多少token才能回本。

三個角色疊在一個人身上,產生了一個AI行業里極其罕見的決策閉環。

研究者提出“可以省”,管理者判斷“應該省”,投資者確定“自己買單也愿意省”。沒有層級匯報,沒有跨部門拉齊。

DSpark就是這條決策鏈的最新產物。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
歷史第一人!梅西任意球破門刷爆6大紀錄:阿根廷狀態兇猛沖連冠

歷史第一人!梅西任意球破門刷爆6大紀錄:阿根廷狀態兇猛沖連冠

李喜林籃球絕殺
2026-06-28 12:28:13
全國唯一健在長征女紅軍在四川過105歲生日,“紅軍的火把,是她見過最亮的光”

全國唯一健在長征女紅軍在四川過105歲生日,“紅軍的火把,是她見過最亮的光”

封面新聞
2026-06-28 04:44:16
全國律協:堅決擁護中國共產黨領導、擁護我國社會主義法治,努力做黨和人民滿意的好律師

全國律協:堅決擁護中國共產黨領導、擁護我國社會主義法治,努力做黨和人民滿意的好律師

澎湃新聞
2026-06-27 23:34:05
記者:梅西是歷史第一人!C羅很強、但他落后一個檔次!

記者:梅西是歷史第一人!C羅很強、但他落后一個檔次!

歷史第一人梅西
2026-06-27 23:28:40
男子騙走女子500余萬用于打賞主播、充值游戲等,女子丈夫得知后自殺身亡!被判詐騙罪獲刑14年半

男子騙走女子500余萬用于打賞主播、充值游戲等,女子丈夫得知后自殺身亡!被判詐騙罪獲刑14年半

紅星新聞
2026-06-28 12:11:17
韓國球迷抗議,讓中國承擔他們世界杯費用,是中國國足坑了他們

韓國球迷抗議,讓中國承擔他們世界杯費用,是中國國足坑了他們

酷侃體壇
2026-06-28 22:05:07
新疆一剛出生7天的小馬被游客無人機追趕,狂奔躲避致炸肺死亡,牧民:當晚收到鄰居提醒后趕去,小馬已倒地不起,守了整整一夜還是沒保住

新疆一剛出生7天的小馬被游客無人機追趕,狂奔躲避致炸肺死亡,牧民:當晚收到鄰居提醒后趕去,小馬已倒地不起,守了整整一夜還是沒保住

臺州交通廣播
2026-06-28 06:38:37
廣州高校禁止小米汽車入校!車主怒:特斯拉能進,小米為啥不行?

廣州高校禁止小米汽車入校!車主怒:特斯拉能進,小米為啥不行?

聽心堂
2026-06-28 16:28:35
巴媒:佛得角隊長瑞安-門德斯涉嫌強奸,新西蘭警方正在調查

巴媒:佛得角隊長瑞安-門德斯涉嫌強奸,新西蘭警方正在調查

懂球帝
2026-06-28 01:36:06
法國40℃高溫禁空調,民眾自嘲不如中國豬

法國40℃高溫禁空調,民眾自嘲不如中國豬

這樣子啊
2026-06-28 05:26:37
殺人誅心!世界杯最慘2隊:1個被捅7刀出局 1個被做局玩死

殺人誅心!世界杯最慘2隊:1個被捅7刀出局 1個被做局玩死

葉青足球世界
2026-06-28 15:14:08
博主吐槽張雪820RR操控感不如雅馬哈R9!張雪硬剛:挑戰輸了送100臺820RR

博主吐槽張雪820RR操控感不如雅馬哈R9!張雪硬剛:挑戰輸了送100臺820RR

快科技
2026-06-28 08:40:24
哥倫比亞葡萄牙剛果(金)三隊出線,韓國被淘汰了

哥倫比亞葡萄牙剛果(金)三隊出線,韓國被淘汰了

澎湃新聞
2026-06-28 09:34:27
兩周飛5萬公里!因凡蒂諾遭環保人士猛批,碳排量≈普通人78年

兩周飛5萬公里!因凡蒂諾遭環保人士猛批,碳排量≈普通人78年

全景體育V
2026-06-28 20:10:19
梅西又創世界杯神紀錄!7場連續破門首人,39歲首球,連創10紀錄

梅西又創世界杯神紀錄!7場連續破門首人,39歲首球,連創10紀錄

奧拜爾
2026-06-28 11:46:41
溫馨,國際足聯主席發文祝賀梅西!

溫馨,國際足聯主席發文祝賀梅西!

體育哲人
2026-06-28 21:33:41
世界杯32強最新奪冠賠率:阿根廷升第2 日本跌第15 佛得角倒數第3

世界杯32強最新奪冠賠率:阿根廷升第2 日本跌第15 佛得角倒數第3

我愛英超
2026-06-28 14:21:47
“抓特務” 現在變成了揪韓紅,高管年薪 61萬,擺拍作秀全被扒

“抓特務” 現在變成了揪韓紅,高管年薪 61萬,擺拍作秀全被扒

TVB的四小花
2026-06-28 15:15:21
難以置信!河北一考生發帖怒斥,班主任在高考結束就刪除家長微信

難以置信!河北一考生發帖怒斥,班主任在高考結束就刪除家長微信

火山詩話
2026-06-27 08:45:13
恒大前總裁夏海鈞要求每月生活費上限增加至4.3萬美元

恒大前總裁夏海鈞要求每月生活費上限增加至4.3萬美元

觀點機構
2026-06-28 04:46:07
2026-06-29 01:03:00
字母榜 incentive-icons
字母榜
讓未來不止于大。
2575文章數 8066關注度
往期回顧 全部

科技要聞

DeepSeek最新論文:如何讓大模型跑得更快

頭條要聞

正式測定:四川宜賓市高縣發生5.5級地震

頭條要聞

正式測定:四川宜賓市高縣發生5.5級地震

體育要聞

兩周飛5萬公里!因凡蒂諾遭環保人士猛批

娛樂要聞

曾沛慈拿下《乘風2026》年度總冠軍

財經要聞

省錢,我只服梁文鋒

汽車要聞

搭載華為乾崑六件套 東風奕派M8預售19.98萬起

態度原創

本地
旅游
時尚
健康
公開課

本地新聞

世界杯球迷節:比球賽更好玩的派對

旅游要聞

逛遍昆明滇池濕地,最治愈的還是這里,遛娃養老拍照全都適配!

夏天裙子不用買多,建議入手一條藍裙子,清爽高級又耐看

“無糖湯圓”是否隱藏著健康陷阱?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版