網易首頁 > 網易號 > 正文申請入駐

DeepSeek V4報告太詳盡了！484天換代之路全公開

2026-04-25 11:22:59　來源: 量子位

北京舉報

分享至

henry 發自凹非寺
量子位 | 公眾號 QbitAI

DeepSeek V4“遲到”半年，但發布后的好評如潮還在如潮。

中外熱搜上了一整圈，科技媒體的版面今天都讓給了它，OpenAI也成了它的陪襯。

大家驚嘆于DeepSeek在有限條件下作出重大突破的創造力，也佩服其在2026年，還能堅定選擇開源路線的決心。

可以說，一時間信息多的有些超載，但多歸多，主線就兩條。

第一條，百萬token上下文全面開源，KVcache大幅縮減。

V4-Pro和V4-Flash，1.6萬億參數/2840億參數上下文都是1M。1M場景下，V4-Pro的單token FLOPs只有V3.2的27%，KV cache只有10%。

亞馬遜硬件師GPD表示，這意味著DeepSeek可能解決當前的HBM短缺問題。

第二條，國產芯片適配，已經支持華為算力，預計下半年昇騰950超節點批量上市。

此外，大家最關心的，還莫過于在過去四個月中，DeepSeek陸續放出了幾篇「可能進V4」的論文，今天技術報告開源了，可以對一下賬。

mHC（流形約束超連接）：2025年12月31日上傳arXiv，梁文鋒掛名。進了V4。
Engram（條件記憶模塊）：1月DeepSeek聯合北大發布。沒進V4，但在未來方向里被點名，留給V5。
DualPipe：V3老伙計。繼續用，針對mHC做了調整。
Muon優化器：從Kimi那邊借的。V4把AdamW替了，接管絕大多數參數的訓練。

四個預期，三個落地，一個給下一代。

整體架構

V4這一代，是DeepSeek系列里動刀最多的一版。相比V3，V4在三個地方做了升級。

第一，引入mHC（Manifold-Constrained Hyper-Connections）強化殘差連接。

第二，設計hybrid attention架構，CSA和HCA交替疊加，解決長文效率問題。

第三，采用Muon作為主優化器。

MoE部分仍然用DeepSeekMoE，MTP（Multi-Token Prediction）模塊跟V3保持一致。

一些細節微調包括，affinity score的激活函數從Sigmoid換成了Sqrt(Softplus(·))，去掉了routing target nodes的數量約束，前幾層dense FFN換成了用Hash routing的MoE層。

接下來，我們一個個看。

mHC，給殘差連接加一層約束

殘差連接是何愷明2016年在ResNet里提出來的，十年沒怎么變過。模型一層一層堆，梯度沿著殘差往回傳，這是深度學習能work的前提。

但模型越來越深、參數越來越多之后，傳統殘差開始露怯，信號傳遞不穩，訓練容易崩。

先說Hyper-Connections（HC），這是Kimi團隊之前提出的想法。核心是把殘差流從一維變成n_hc條并行通道，每層之間通過一個矩陣B來混合。

A、B、C是三個線性映射。想法很優雅，相當于給殘差流增加了一個新的scaling維度。但DeepSeek在堆多層時發現，HC經常出現數值不穩定，訓練說崩就崩。

V4的做法叫mHC，把矩陣B約束到「雙隨機矩陣」的流形上（數學上叫Birkhoff polytope），行和列都歸一化為1。這個約束帶來兩個好處。

矩陣的譜范數天然不超過1，殘差傳播套上硬上限，爆不起來。
這種矩陣在乘法下是封閉的，堆很多層也穩。

輸入映射A和輸出映射C則通過Sigmoid函數保證非負且有界，避免信號互相抵消。

實現上用Sinkhorn-Knopp迭代，交替做行歸一化和列歸一化，迭代20次收斂。整個過程對每一層都跑一遍。

聽起來貴，但DeepSeek做了fused kernel，再配合選擇性recomputation，實測mHC帶來的wall-time開銷控制在overlapped pipeline的6.7%。

技術判斷上，mHC不是那種讓人眼前一亮的架構創新，更像是一個「穩得住大模型」的工程補丁。但隨著模型深度和參數量繼續往上推，這種補丁會變成剛需。

混合注意力機制

這是全篇論文最厚的一塊，也是「百萬token效率」的核心魔法所在。

V4的注意力層不是一種，是兩種交替使用的結構，CSA（Compressed Sparse Attention）和HCA（Heavily Compressed Attention）。

CSA做兩件事，先壓縮，再稀疏選擇

第一步，KV壓縮。每m個token的KV entries，通過一個帶學習權重的attention-like機制壓成一個。

第二步，lightning indexer + top-k選擇。這部分繼承自V3.2的DSA。對每個query token，用一個輕量的indexer計算它和每個壓縮KV塊的相關性分數。

第三步，core attention。在選中的這top-k壓縮KV塊上做Multi-Query Attention，得到注意力輸出。

第四步，grouped output projection。因為V4把head dimension c設成了512（比V3.2的128大得多），如果直接把所有head的輸出投影回d維會很貴，所以做了分組投影，把n_h個head分成g組，每組先投影到一個中間維度d_g，最后再合并投影回d。

整個CSA等于做了兩層壓縮。第一層是序列長度壓縮，n變成n/m。第二層是稀疏選擇，n/m變成top-k。對1M token的序列，原本需要attend 1M個token，現在只需要attend 1024個壓縮塊。

HCA的思路更簡單粗暴，壓得更狠，但不做稀疏。

壓縮率m’=128，每128個token壓成一個。壓縮過程也沒有CSA那樣的overlap，直接每m’個一組壓。然后對所有壓縮后的KV做dense attention。

論文里沒有長篇大論地解釋CSA和HCA為什么要配對使用，但讀完整個architecture章節，能看出它們的分工。

CSA的壓縮溫和、靠稀疏把關，適合做token-level的精細檢索。HCA的壓縮兇猛、保持dense，適合做長距離的全局信號匯總。

V4把兩者層層交替。Pro有61層，Flash有43層，CSA和HCA一層一層往上疊。既不漏細節，也不被細節拖住。

此外，論文還透露了幾個trick。

Q/KV normalization。CSA和HCA在core attention之前，都對query和KV entries做一次RMSNorm，防止attention logits爆炸。

Partial RoPE。只對query和KV entries的最后64維施加旋轉位置編碼，其余維度不動。

因為KV entries既做key又做value，naive的RoPE會讓輸出帶上絕對位置信息，所以在output端也對應施加一個位置為-i的RoPE來抵消，只保留相對位置信息。這是個巧妙的工程處理。

Sliding window attention作為輔助分支。

因為壓縮注意力保證嚴格因果性，一個query token看不到自己壓縮塊內其他token的信息。為了補償近距離依賴，V4額外加了一個sliding window分支，每個query除了看壓縮KV之外，還能看最近128個token的uncompressed KV。

Attention sink。借鑒OpenAI和StreamingLLM的trick，在attention分母上加一個learnable sink logit，允許attention score總和不等于1。

這在長序列里尤其有用，能避免模型被迫把注意力均攤。

Muon優化器

V4訓練中絕大多數參數優化用的不是AdamW，是Muon。

Muon是前幾年Keller Jordan那批人（他現在在OpenAI）在小模型上驗證過的優化器，基于矩陣正交化。

它只優化2D參數矩陣，其他參數（embedding、prediction head、RMSNorm權重、mHC的靜態偏置等）還是走AdamW。

Muon在LLM規模上的第一次大規模驗證是Kimi K2。 2025年，Moonshot用Muon（加上他們自己的QK-Clip變種，合稱MuonClip）訓了一個1T參數的MoE，15.5T token，全程零崩潰。

現在DeepSeek也用上了。不過他們做了自己的版本，hybrid Newton-Schulz迭代，10步分兩段。

前8步用激進系數，快速把奇異值推向1附近。
后2步用溫和系數，精確地把奇異值穩定在1。

這里有個細節值得注意。Kimi用Muon需要QK-Clip來防止attention logits爆炸，DeepSeek沒用這招。他們的理由是，V4的注意力架構允許直接對query和KV做RMSNorm，從源頭把爆炸的可能壓住了。

兩家公司，同一個優化器，解決同一個問題，走的是兩條路。這種跨團隊的技術共享和各自演化，是2026年開源社區最有意思的一面。

模型訓練

DeepSeek-V4系列在預訓練數據量上實現了翻倍。

對比V3僅用14.8T Token訓練，V4-Flash 與 V4-Pro 的數據消耗量分別達到了32T和33T。訓練數據量整整翻了一倍多（增長約 1.2 倍）

數據構成上，長文檔數據單獨curate，優先收錄科學論文和技術報告這類有學術價值的長材料。tokenizer仍用V3的128K詞表。

在模型架構上，V4-Flash，43層，隱藏維度4096。

MoE用1個shared expert + 256個routed experts，每token激活6個。總參數284B，激活13B。

V4-Pro，61層，隱藏維度7168。MoE用1個shared expert + 384個routed experts，每token激活6個。總參數1.6T，激活49B。

訓練調度上，序列長度走四段，4K → 16K → 64K → 1M。sparse attention不是從頭打開，前1T token用dense attention做warmup，擴到64K時才introduce sparsity。

論文表示，訓練中間出過一次嚴重的loss spike，DeepSeek摸到兩個土辦法，Anticipatory Routing和SwiGLU Clamping。論文原話非常誠實，這兩個trick work，但底層機理仍是open question。

一個訓練了兩個萬億參數MoE的團隊公開承認「我們不知道為什么這兩個trick管用」，在2026年已經是一件挺稀罕的事。

在后訓練階段，V4這一代做了一次方法論替換，傳統的mixed RL階段被On-Policy Distillation（OPD）完全替代。

流程分兩步。

第一步，訓domain specialist。

數學、代碼、agent、指令跟隨四個領域，各自獨立訓一個expert。先SFT打底，再用GRPO做domain-specific RL。V4還引入了三檔reasoning effort mode，Non-think、Think High、Think Max，每檔輸出長度不同。

第二步，OPD合并。

十幾個expert通過on-policy distillation合進一個統一的student。student自己rollout，最小化reverse KL向對應領域的expert對齊。數學任務向數學expert靠，編程任務向編程expert靠。

方法論聽起來很優雅。但工程上裝不下，十幾個teacher每個都是萬億級，vocab size超過10萬。

V4的做法是teacher權重offload到分布式存儲按需加載，只緩存hidden states不materialize logits，按teacher排序樣本保證每個mini-batch只加載一個teacher head。

一套看似優雅的后訓練方法論，背后是一堆「不這樣做就裝不下」的工程妥協。

實驗結論

在實驗部分，有三件最值得說的事。

開源領先。

SimpleQA-Verified上V4-Pro-Max拿到57.9，K2.6是36.9，GLM-5.1是38.1。領先所有開源模型20個百分點。

匹敵閉源。

Codeforces rating 3206，超過了GPT-5.4的3168和Gemini-3.1-Pro的3052，在人類選手榜單上排名第23。開源模型匹敵閉源頭部，這次是真的匹敵了。

差距仍在。

HLE上V4-Pro-Max 37.7，Gemini-3.1-Pro 44.4，Claude-Opus-4.6-Max 40.0。1M MRCR上V4優于Gemini但明顯不如Claude。知識類和最前沿的推理任務仍有3-6個月的gap。

論文中，DeepSeek表示：

DeepSeek-V4-Pro-Max在標準推理benchmark上優于GPT-5.2和Gemini-3.0-Pro，但略落后于GPT-5.4和Gemini-3.1-Pro。這表明其發展軌跡大約落后最前沿閉源模型3到6個月。

Flash-Max可能是這篇論文最被低估的一部分。

V4-Flash-Max只激活13B參數，推理任務上能打平GPT-5.2和Gemini-3.0-Pro，代碼和數學甚至超過K2.6-Thinking。

如果只看激活參數量，這是目前效率最極致的推理模型之一。

現實任務里最值得提的是內部R&D代碼benchmark，V4-Pro-Max 67%，接近Claude Opus 4.5的70%。

85人的內部開發者調研里，91%表示V4-Pro可以作為主力coding模型。

在官方的推文中，也側面印證了這個說法：

目前DeepSeek-V4已成為公司內部員工使用的Agentic Coding模型，據評測反饋使用體驗優于Sonnet 4.5，交付質量接近Opus 4.6非思考模式，但仍與Opus 4.6思考模式存在一定差距。

在論文的最后，DeepSeek也表示：

為了追求極致的長文效率，V4系列采取了一個相對激進的架構設計。為了降低風險，我們保留了許多已經驗證過的組件和trick，這讓架構變得相對復雜。在未來的迭代中，我們將進行更全面、更有原則的研究，把架構精簡到最本質的部分。

未來方向幾條，探索新維度的sparsity（點名了Engram那條線）、低延遲架構、長時程多輪agentic任務、多模態、更好的數據curation。

有個蠻有意思的小細節，在形式化數學評測中，DeepSeek也皮了一下友商：

我們在K2.6和GLM-5.1的部分條目留空了，因為它們的API太忙，沒法及時返回我們查詢的結果。

太火了，就是說。

總結

把V4放回DeepSeek的完整路徑里看，它不是在追趕frontier。

過去三年的趨勢非常清晰。閉源大廠追求的是能力上限，誰家的模型能在HLE上拿更高分。DeepSeek追求的一直是另一條線，同樣能力下的成本下限。

V4把這件事推到了百萬token。一個1M的上下文，在V3.2的成本結構下是不可持續的，KV cache會把顯存吃光。V4把它壓到V3.2的10%，成本曲線突然打直了。

那結果會怎樣呢。一個很長的agent會話，一份反復回讀的技術文檔，一次跨多倉庫的重構，這些過去要切窗口、要加retrieval、要精心管理上下文的場景，在V4這里變成了「全塞進去看看再說」。

DeepSeek這幾年做的事，底層動作很清晰，一直在刪。從V2的MLA開始，每一代都在刪KV cache、刪激活參數、刪注意力計算量。

刪到V4，單token推理FLOPs砍到四分之一，KV cache砍到十分之一。

百萬token不是一個新的能力，是同一個上下文窗口被壓到可以承擔的成本。

One more thing

論文的結尾有一份長長的貢獻者名單。

梁文鋒在其中。

其中有不少帶星號的名字，是已經離開團隊、但仍然對V4做出過重要貢獻的研究者。

過去這一年，關于DeepSeek人才流失的消息傳過好幾輪。但這份名單把他們的名字和V4這個大家等了整整一年多的模型，綁在了同一張紙上。

每一個人都算數，每一天也都算數。

V4發布當天，DeepSeek研究員陳德里在x上轉發并寫道：

DeepSeek-V3：2024年12月26日。

DeepSeek-V4：2026年4月24日。

484天后，我們謙卑地分享這份愛心的勞動。

一如既往，我們始終堅持長期主義和全民開源。

AGI屬于每個人。

[1]https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro

[2]https://arxiv.org/pdf/2512.24880

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

海外評測DeepSeek-V4：智能體任務排名開源第一，幻覺率上升，Token消耗大

每日經濟新聞 2026-04-25 13:27:09
5 跟貼 5
為什么這篇谷歌論文被稱為「Attention is all you need」V2

量子位 2025-12-21 15:15:36
26 跟貼 26

硬剛GPT-Image-2！國產AI生圖“天花板”又被捅破了？

量子位 2026-04-25 15:01:42
0 跟貼 0

CVPR 2026 | 20步也能穩住畫質，這個擴散加速方法不一樣

機器之心Pro 2026-04-10 18:40:17
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0

AI自主監測寵物健康，涂鴉Hey Tuya打造全屋智能“超級入口”

量子位 2026-04-25 13:39:02
0 跟貼 0

DeepSeek V4登頂了！梁文鋒把四大技術秘方公開

智東西 2026-04-24 19:01:13
90 跟貼 90
游騎兵的特殊分隊：隸屬突擊單位，卻能對接美軍Tier1特戰序列

四夕君 2026-04-22 18:56:23
21 跟貼 21

天天315｜“0糖是商標”，東鵬特飲被罵上熱搜股價下跌

齊魯壹點 2026-04-25 06:43:07
31544 跟貼 31544
半掛模型玩具車買菜，要是超重了怎么辦，雷軍都不敢這么設計！

宇宙搞笑生活 2026-04-23 14:10:00
4 跟貼 4
烏克蘭前線士兵骨瘦如柴照片披露被指最長斷糧17天

澎湃新聞 2026-04-25 14:48:31
2155 跟貼 2155
馬斯克承認HW3車型不支持FSD，要花錢升級硬件

極果酷玩 2026-04-24 16:38:31
1 跟貼 1
大車也能很靈活！百萬級駕控硬件加持，場地試駕智己LS8

汽車焦點 2026-04-23 17:00:02
0 跟貼 0
美國移民“金卡”項目啟動至今僅一人獲批

央視新聞客戶端 2026-04-24 17:48:49
4770 跟貼 4770
空警600vsE-2D預警機：核心參數與性能對比全解析

因果 2026-04-25 10:02:10
0 跟貼 0
12000w切割詳細參數

蕭祃記錄風土人情 2026-04-21 10:12:00
1 跟貼 1
美正考慮暫停西班牙北約成員國資格

財聯社 2026-04-24 22:52:23
1393 跟貼 1393
財政部：一季度全國財政收入增幅創3年來同期新高

央視新聞客戶端 2026-04-24 16:47:27
7853 跟貼 7853
泡泡瑪特：4月30日發售兩款Labubu冰箱，售價5999元，每款全球限量發售999臺

魯中晨報 2026-04-24 20:08:07
2504 跟貼 2504
找到了！伊朗真正的內鬼，根本不是人！

夢想的現實 2026-04-25 12:46:25
0 跟貼 0
救人的哥走了50余輛出租車自發送行

極目新聞 2026-04-25 15:18:34
96 跟貼 96
CMU開源首份Agentic Search日志數據，把Agent拆開給你看

機器之心Pro 2026-02-09 12:05:13
0 跟貼 0
上海一估價1.02億元有近百年歷史的獨棟房將被法拍，每平方米單價超25萬元，系優秀歷史建筑

極目新聞 2026-04-24 17:25:22
515 跟貼 515
制作直升機遙控模型，阿帕奇AH-64

制造科技 2026-04-22 16:29:03
0 跟貼 0
嵐圖北京車展：矩陣引爆全場，泰山 X8 訂單破 2 萬

智電汽車. 2026-04-25 12:44:07
0 跟貼 0
“月薪1.6萬招放羊工”走紅，老板最新發聲→

中國青年報 2026-04-25 08:56:27
1262 跟貼 1262
網友稱用豆包提前查到事業編成績，官方回應：工作人員在測試成績查詢端口的時候，有網民無意中點進去了，沒有造成什么不良影響

都市快報橙柿互動 2026-04-24 18:14:20
217 跟貼 217
為什么很多人，不想當領導了？

細說職場 2026-04-25 13:19:04
1 跟貼 1
《黑旗RE》推薦顯卡配置公布!快看你的電腦帶得動嗎?

游民星空 2026-04-25 15:21:13
1 跟貼 1
NBA｜湖人3比0拿到賽點，詹姆斯再創里程碑紀錄

北青網-北京青年報 2026-04-25 13:45:11
18 跟貼 18
簡直是霸王條款！男子花21999元網購三星三折疊手機被要求必須當面激活才能簽收

閃電新聞 2026-04-25 08:55:39
0 跟貼 0
90%訂單消失，中東旺季沒了

中國新聞周刊 2026-04-25 07:28:04
0 跟貼 0
“記者臥底桂林六日游低價團”后續：地接旅行社被罰30萬并停業整頓

極目新聞 2026-04-24 08:03:58
550 跟貼 550
如何通過霍爾木茲海峽：四步走，拒美元

紅星新聞 2026-04-24 17:16:05
1011 跟貼 1011
提前起飛10分鐘，大學生把海航告了

中國新聞周刊 2026-04-24 18:21:10
0 跟貼 0
淄博，新能源汽車一個半月3次剎車故障，車主：別管軟件硬件，反正剎不住車！

小溪辦事 2026-04-24 12:40:25
0 跟貼 0
全新問界M9硬件架構再升級，40顆傳感器為自動駕駛做準備？

Autolab 2026-04-22 17:13:00
0 跟貼 0
雪中送碳！中國向古巴捐贈超1.4萬件體育物資

看看新聞Knews 2026-04-25 10:44:15
9 跟貼 9
彰顯產品矩陣吉利亮相2026北京車展

《超車》 2026-04-24 18:58:48
4 跟貼 4
納指、標普500指數雙雙再創新高

每日經濟新聞 2026-04-25 07:15:41
430 跟貼 430

量子位

追蹤人工智能動態

12534文章數 176457關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

時尚

家居

房產

健康

公開課

上新|| 入夏第一件短袖，買它！

家居要聞

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

DeepSeek V4報告太詳盡了！484天換代之路全公開

整體架構

mHC，給殘差連接加一層約束

混合注意力機制

Muon優化器

模型訓練

實驗結論

總結

One more thing

DeepSeek V4發布！黃仁勛預言的"災難"降臨

男子登機口被攔 對方沒稱重直接收取200元行李逾重費

男子登機口被攔 對方沒稱重直接收取200元行李逾重費

火箭0-3觸發百分百出局定律：本季加時賽9戰8敗

鄧超最大的幸運，就是遇見孫儷

90%訂單消失，中東旺季沒了

2026款樂道L90亮相北京車展 樂道L80正式官宣

態度原創

上新|| 入夏第一件短袖，買它！

自然肌理 溫潤美學

新一輪教育大爆發來了！海口，開始瘋狂建學校！

干細胞如何讓燒燙傷皮膚"再生"？

男子登機口被攔對方沒稱重直接收取200元行李逾重費

男子登機口被攔對方沒稱重直接收取200元行李逾重費

2026款樂道L90亮相北京車展樂道L80正式官宣

自然肌理溫潤美學