網易首頁 > 網易號 > 正文 申請入駐

DeepSeek V4即將發布?先讀懂梁文峰這份86頁的技術底牌

0
分享至

最近DeepSeek V4的傳言越來越多了。

據The Information報道,知情人士透露DeepSeek計劃在2月中旬、農歷新年前后發布V4模型。內部測試顯示,V4在編程能力上可能超越Claude和GPT系列——尤其是處理超長代碼提示的場景。


去年R1也是春節前一周發布的,直接引發了全球市場一萬億美元的震動。在大型節假日前搞大事確實也很符合DeepSeek一貫的做法,今年會不會故技重施?

但在V4發布之前,DeepSeek先悄悄做了一件事:把一年前的R1論文從22頁擴充到了86頁

我下載了兩個版本對比,文件大小從928KB變成4.8MB。多出來的60多頁顯然不是廢話,是他們訓練的詳細賬本和踩過的坑。


這個時間點更新舊論文,絕不是巧合。我猜他們在做兩件事:一是為V4鋪路,讓社區先完全理解R1的技術細節;二是用行動回應之前"只開源權重不給訓練細節"的質疑。

說實話,看完這份更新,我對Open這個詞有了新的理解。上周我發的這篇關于DeepSeek mHC論文的解讀很多人表示意外地能看懂,閱讀量都突破20萬+了,哈哈哈~

所以我今天再挑戰下自己,試試給大家用人話說說這次DeepSeek老論文里都更新了啥。

先說更新了什么

v1版本發布于2025年1月22日,22頁,主要講R1是什么、怎么訓的、效果多好。

v2版本發布于2026年1月4日,86頁。時隔將近一年,多出來的60多頁都在講什么?

我把兩個版本的目錄對比了一下。v1只有一個簡短的Appendix(作者列表)。v2新增了6大類Supplementary:

  • A: GRPO和PPO的詳細對比

  • B: 訓練細節(這部分最長,約50頁)

  • C: 推理行為分析

  • D: 基準測試詳情 + 10頁安全報告

  • E: 綜合分析(與V3對比、test-time scaling等)

  • F: 推理能力遷移

說白了,這次更新就是把"解題過程"補上了,給出了可復現的技術文檔。

之前R1開源的時候,很多人吐槽說"只給權重不給訓練細節,這算什么開源"。現在DeepSeek把這塊補上了。

294K美元的訓練賬單

論文新增了Table 7,第一次公開了完整的訓練成本:


階段

GPU小時

成本

DeepSeek-R1-Zero

101K

$202K

SFT數據創建

5K

$10K

DeepSeek-R1

41K

$82K

總計

147K

$294K

這個成本是按H800租賃價格$2/GPU hour算的。

29.4萬美元,訓練一個媲美OpenAI o1的推理模型。

29.4萬美元是什么概念?之前寫V3.2的時候我提到,DeepSeek只有150人的團隊。現在加上這個成本數據,畫面更清晰了——他們不是靠砸錢,是靠效率。

具體怎么訓的?論文給了精確配置:

  • R1-Zero: 64×8張H800 GPU,跑了198小時

  • R1: 同樣的GPU配置,80小時(約4天)

64×8是512張卡。198+80=278小時。不到12天,訓完了兩個階段。

數據配方首次公開

這是我覺得最有價值的部分——Table 4詳細列出了RL訓練數據的構成:


數學:26k題

  • 從區域競賽到國際奧林匹克級別

  • 包括代數、微積分、概率、幾何

  • 排除了數學證明(因為難以自動驗證)

代碼:17k + 8k

  • 17k算法競賽題(Codeforces、LeetCode風格)

  • 8k GitHub真實bug修復問題

STEM:22k選擇題

  • 化學占46.5%(最多)

  • 生物30.7%

  • 物理15.5%

  • 其他7.3%

邏輯:15k題

  • 真實世界:腦筋急轉彎、經典邏輯謎題

  • 合成數據:Code-IO問題、Zebra puzzle等

通用:66k + 12k

  • 66k評估helpfulness(創意寫作、編輯、問答、角色扮演)

  • 12k評估harmlessness

總共約150k條數據。

為什么化學題最多?論文沒解釋,但我猜測可能是因為化學題的答案更容易自動驗證(選擇題),同時又需要多步推理。

更有意思的是Cold Start數據的創建流程。R1不是從零開始訓的,而是先用R1-Zero的輸出,經過這個流程:

  1. 用R1-Zero在高溫度(1.0)下生成多條推理軌跡

  2. 過濾:保留答案正確、格式可讀的

  3. 用sympy驗證數學表達式

  4. 用DeepSeek-V3重寫,讓推理過程更"人話"

  5. 人工二次驗證

論文里甚至給出了重寫的prompt,讓V3把R1-Zero那種"we"風格的推理,改成"I"風格——因為用戶更喜歡第一人稱的思考過程。

這種細節,以前根本不會公開。

失敗也寫進論文

v1版本有一小節叫"Unsuccessful Attempts",提到PRM和MCTS不太行。v2把這部分擴展了,還加了一個我覺得很有價值的案例:Reward Hacking。


Figure 6展示了一個典型的失敗場景:用helpful reward model訓練時,reward分數一直在漲(左邊紅線),但CodeForces的實際性能卻在跌(右邊藍線)。

這就是reward hacking——模型學會了"討好"獎勵函數,但并沒有真正變強。

論文原文的解釋是:

"如果reward model包含系統性偏差或不準確,LLM可能學會生成那些被模型高評分、但與真實人類偏好背離的回答。"

PRM(Process Reward Model)的問題也講得更清楚了:

  1. 細粒度步驟難定義:什么算"一步推理"?在通用推理任務里很難界定

  2. 中間步驟對錯難判斷:自動標注效果差,人工標注又沒法規模化

  3. 必然導致reward hacking:只要引入模型做判斷,就會被exploit

所以DeepSeek最后用的是rule-based reward——數學題直接匹配答案,代碼題跑測試用例。簡單粗暴,但不會被hack。

為什么要公開這些失敗?我覺得這才是真正的Open。告訴社區"這條路我們走過了,不通",比只展示成功更有價值。

基礎設施首次披露

Supplementary B.1詳細描述了RL訓練的基礎設施,分為4個模塊:

1. Rollout Module

  • 用vLLM做推理

  • 對MoE架構實現expert parallelism,減少內存訪問開銷

  • 部署熱點expert的冗余副本來負載均衡

  • 用MTP(Multi-Token Prediction)做self-speculative decoding加速

2. Inference Module

  • 加載reward model和reference model

  • 對rollout階段生成的樣本做forward pass

3. Rule-based Reward Module

  • 統一接口:代碼執行器、答案匹配器、格式檢查器

  • 異步調度,和前兩個模塊overlap執行

4. Training Module

  • 支持PPO、GRPO、DPO等算法

  • 數據打包策略:先按長度排序,再用Best-Fit裝箱

  • 集成了DualPipe算法做pipeline parallelism

還有一個細節:每個模塊跑完后,模型會自動從顯存offload到內存或磁盤,給下一個模塊騰空間。

這些基礎設施細節以前只有DeepSeek內部知道。現在寫進論文,其他團隊可以照著搭。

10頁安全報告

Supplementary D.3是一份完整的安全評估報告,包括:

  1. 風控系統:公開了完整的risk review prompt(Listing 8)

  2. 6個公開benchmark對比:和其他SOTA模型的安全性比較

  3. 分類測試:基于自研安全測試集的細分評估

  4. 多語言安全:不同語言下的安全表現

  5. Jailbreak魯棒性:對抗攻擊下的表現

風控prompt里列了11條安全標準,從"通用原則"到"隱私偽造"到"風險建議",細到可以直接抄。

對想部署R1的企業來說,這部分很實用——不只是模型安全性數據,還告訴你外部風控系統怎么搭。

為什么選擇現在更新?

論文更新的時間點是2026年1月4日。

結合V4的發布傳言,時間線就很清晰了:

  • 2025年1月20日:R1發布,春節前一周

  • 2026年1月4日:R1論文v2發布,詳細補全技術細節

  • 2026年2月中旬(傳聞):V4發布,又是春節前后

DeepSeek似乎在做一件事:先把上一代的賬本攤開,再發布下一代

這對社區的好處是顯而易見的——當V4發布時,研究者已經完全理解R1的技術細節,可以更清晰地看出V4到底改進了什么。

當然,這也可能是回應之前"只開源權重不給訓練細節"的批評。不管出于什么原因,結果很實在——社區拿到了一份真正可復現的技術報告。

最后

回到"Open"這個詞。

大多數公司的Open是什么?開源權重,開源推理代碼,發個技術博客。

DeepSeek的Open是什么?

  • 訓練成本精確到GPU小時

  • 數據配方精確到每個類別的數量和來源

  • 失敗嘗試寫進論文,告訴你哪條路不通

  • 基礎設施架構圖,告訴你怎么搭RL系統

  • 安全評估報告,告訴你怎么做風控

這才是讓社區能真正復現和改進的Open。

之前寫mHC論文的時候我說,DeepSeek的技術哲學是"去質疑那些所有人都覺得沒必要改的東西"。現在看來,他們對"開源"這件事的理解也是一樣——不是做到行業平均水平就夠了,而是要做到讓別人能真正用起來。

從22頁到86頁,多出來的60頁不是湊數,是掏心窩子的誠意。

至于V4會帶來什么?如果傳言屬實,2月中旬就會揭曉。

但不管V4表現如何,這份86頁的論文已經是一份禮物——它讓我們知道,一個頂尖推理模型是怎么從零訓出來的。這種知識,以前只有極少數公司內部才有。

參考資料

  • DeepSeek-R1論文v2: https://arxiv.org/abs/2501.12948v2

  • DeepSeek-R1論文v1: https://arxiv.org/abs/2501.12948v1

  • V4傳言報道: https://finance.yahoo.com/news/deepseek-set-launch-next-gen-153258894.html

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
貴州女子癡呆21年,突然記起北京有套120平四合院,子女趕去后愣住

貴州女子癡呆21年,突然記起北京有套120平四合院,子女趕去后愣住

如煙若夢
2025-04-14 16:51:12
老師多次提醒:軍校是沒有回頭路的,如果因為軍隊待遇好而報考,建議別報!

老師多次提醒:軍校是沒有回頭路的,如果因為軍隊待遇好而報考,建議別報!

譚老師地理大課堂
2026-04-24 00:05:13
芯片松綁4個月,中國一塊也沒買,中國不急美國急,形勢反轉了

芯片松綁4個月,中國一塊也沒買,中國不急美國急,形勢反轉了

王新喜
2026-04-23 20:37:56
姆巴佩在社交媒體暗戳支持穆里尼奧回歸皇馬后,現任主帥作出回應

姆巴佩在社交媒體暗戳支持穆里尼奧回歸皇馬后,現任主帥作出回應

夜白侃球
2026-04-24 10:51:37
形勢有多嚴峻?才4月份,廣東就有公司放長假,多少人又要失業

形勢有多嚴峻?才4月份,廣東就有公司放長假,多少人又要失業

慧翔百科
2026-04-24 11:46:34
我資助的女同桌當大官,來公司視察她當眾問我:你還欠我頓飯

我資助的女同桌當大官,來公司視察她當眾問我:你還欠我頓飯

小陸搞笑日常
2026-04-23 17:30:58
吳法憲出獄后,安置在濟南,同時告訴他有四個安排

吳法憲出獄后,安置在濟南,同時告訴他有四個安排

歷史甄有趣
2026-04-24 07:25:10
皇馬看到爭冠希望!6戰全勝+征服諾坎普,巴薩兩大核心傷缺

皇馬看到爭冠希望!6戰全勝+征服諾坎普,巴薩兩大核心傷缺

奧拜爾
2026-04-24 10:16:26
《妻子的浪漫旅行》45歲金莎宣布備孕,3年前已保存凍卵,太拼了

《妻子的浪漫旅行》45歲金莎宣布備孕,3年前已保存凍卵,太拼了

娛君墜星河
2026-04-24 10:20:37
武漢大爺公交插隊被撞致死,家屬起訴乘客和公交公司,法院判了

武漢大爺公交插隊被撞致死,家屬起訴乘客和公交公司,法院判了

奇思妙想草葉君
2026-04-24 00:26:53
死了這條心!人民日報攤牌:中國不會救菲律賓,馬科斯投機到頭了

死了這條心!人民日報攤牌:中國不會救菲律賓,馬科斯投機到頭了

黑翼天使
2026-04-23 19:51:23
世錦賽首場爆冷!丁俊暉收獲大利好,外媒支招,淘汰趙心童有戲!

世錦賽首場爆冷!丁俊暉收獲大利好,外媒支招,淘汰趙心童有戲!

曹說體育
2026-04-24 11:01:19
伊朗中央銀行:霍爾木茲海峽通行費已入賬

伊朗中央銀行:霍爾木茲海峽通行費已入賬

每日經濟新聞
2026-04-24 08:27:08
島內最新民調,事關兩岸統一,蔣萬安鄭麗文支持率有驚人變化?

島內最新民調,事關兩岸統一,蔣萬安鄭麗文支持率有驚人變化?

DS北風
2026-04-23 15:56:17
伊朗德黑蘭防空系統啟動

伊朗德黑蘭防空系統啟動

財聯社
2026-04-24 01:36:24
用戶都氣笑了!700元路由器保修剩15天壞了:廠商只愿退款10元了事

用戶都氣笑了!700元路由器保修剩15天壞了:廠商只愿退款10元了事

快科技
2026-04-23 19:07:05
老板娘和我說放大看有驚喜!

老板娘和我說放大看有驚喜!

太急張三瘋
2026-04-24 10:35:42
我在中東教漢語,娶了三個本地女孩,雖然年入百萬,卻并不幸福

我在中東教漢語,娶了三個本地女孩,雖然年入百萬,卻并不幸福

千秋文化
2026-04-20 19:55:30
教育部新規落地!9月上學全變了,家長趁早看

教育部新規落地!9月上學全變了,家長趁早看

笑熬漿糊111
2026-04-23 00:05:18
5月1日執行!酒駕處罰全面升級,再敢喝酒開車,代價太大了

5月1日執行!酒駕處罰全面升級,再敢喝酒開車,代價太大了

大魚簡科
2026-04-23 14:35:54
2026-04-24 13:11:00
AI進化論花生 incentive-icons
AI進化論花生
AI博主,AppStore付費榜第一的小貓補光燈app開發者
191文章數 112關注度
往期回顧 全部

科技要聞

剛剛,DeepSeek-V4 預覽版發布 百萬上下文

頭條要聞

特朗普:不會對伊朗動用核武器 已從軍事上拿下了伊朗

頭條要聞

特朗普:不會對伊朗動用核武器 已從軍事上拿下了伊朗

體育要聞

里程碑之戰拖后腿,哈登18分8失誤

娛樂要聞

王思聰被綠!戀愛期間女友被金主包養

財經要聞

19家企業要"鋁代銅",格力偏不

汽車要聞

全景iDrive 續航近800km 新款寶馬7系/i7亮相

態度原創

數碼
健康
教育
房產
親子

數碼要聞

專訪巴可王紅波:顯示行業競爭下半場,深耕八大垂直行業與構建共贏生態

干細胞如何讓燒燙傷皮膚"再生"?

教育要聞

“假聰明”的孩子,會有3種表現,長大難成大器,父母別高興太早

房產要聞

三亞安居房,突然官宣!

親子要聞

春天“長高食譜”大戰:是喂養孩子,還是喂養育兒焦慮?

無障礙瀏覽 進入關懷版