- henry 發自 凹非寺
量子位 | 公眾號 QbitAI
DeepSeek V4“遲到”半年,但發布后的好評如潮還在如潮。
中外熱搜上了一整圈,科技媒體的版面今天都讓給了它,OpenAI也成了它的陪襯。
![]()
![]()
大家驚嘆于DeepSeek在有限條件下作出重大突破的創造力,也佩服其在2026年,還能堅定選擇開源路線的決心。
![]()
![]()
可以說,一時間信息多的有些超載,但多歸多,主線就兩條。
第一條,百萬token上下文全面開源,KVcache大幅縮減。
V4-Pro和V4-Flash,1.6萬億參數/2840億參數上下文都是1M。1M場景下,V4-Pro的單token FLOPs只有V3.2的27%,KV cache只有10%。
亞馬遜硬件師GPD表示,這意味著DeepSeek可能解決當前的HBM短缺問題。
![]()
第二條,國產芯片適配,已經支持華為算力,預計下半年昇騰950超節點批量上市。
![]()
此外,大家最關心的,還莫過于在過去四個月中,DeepSeek陸續放出了幾篇「可能進V4」的論文,今天技術報告開源了,可以對一下賬。
- mHC(流形約束超連接):2025年12月31日上傳arXiv,梁文鋒掛名。進了V4。
- Engram(條件記憶模塊):1月DeepSeek聯合北大發布。沒進V4,但在未來方向里被點名,留給V5。
- DualPipe:V3老伙計。繼續用,針對mHC做了調整。
- Muon優化器:從Kimi那邊借的。V4把AdamW替了,接管絕大多數參數的訓練。
四個預期,三個落地,一個給下一代。
![]()
整體架構
V4這一代,是DeepSeek系列里動刀最多的一版。相比V3,V4在三個地方做了升級。
第一,引入mHC(Manifold-Constrained Hyper-Connections)強化殘差連接。
第二,設計hybrid attention架構,CSA和HCA交替疊加,解決長文效率問題。
第三,采用Muon作為主優化器。
![]()
MoE部分仍然用DeepSeekMoE,MTP(Multi-Token Prediction)模塊跟V3保持一致。
一些細節微調包括,affinity score的激活函數從Sigmoid換成了Sqrt(Softplus(·)),去掉了routing target nodes的數量約束,前幾層dense FFN換成了用Hash routing的MoE層。
接下來,我們一個個看。
mHC,給殘差連接加一層約束
殘差連接是何愷明2016年在ResNet里提出來的,十年沒怎么變過。模型一層一層堆,梯度沿著殘差往回傳,這是深度學習能work的前提。
但模型越來越深、參數越來越多之后,傳統殘差開始露怯,信號傳遞不穩,訓練容易崩。
![]()
先說Hyper-Connections(HC),這是Kimi團隊之前提出的想法。核心是把殘差流從一維變成n_hc條并行通道,每層之間通過一個矩陣B來混合。
A、B、C是三個線性映射。想法很優雅,相當于給殘差流增加了一個新的scaling維度。但DeepSeek在堆多層時發現,HC經常出現數值不穩定,訓練說崩就崩。
V4的做法叫mHC,把矩陣B約束到「雙隨機矩陣」的流形上(數學上叫Birkhoff polytope),行和列都歸一化為1。這個約束帶來兩個好處。
- 矩陣的譜范數天然不超過1,殘差傳播套上硬上限,爆不起來。
- 這種矩陣在乘法下是封閉的,堆很多層也穩。
輸入映射A和輸出映射C則通過Sigmoid函數保證非負且有界,避免信號互相抵消。
實現上用Sinkhorn-Knopp迭代,交替做行歸一化和列歸一化,迭代20次收斂。整個過程對每一層都跑一遍。
聽起來貴,但DeepSeek做了fused kernel,再配合選擇性recomputation,實測mHC帶來的wall-time開銷控制在overlapped pipeline的6.7%。
技術判斷上,mHC不是那種讓人眼前一亮的架構創新,更像是一個「穩得住大模型」的工程補丁。但隨著模型深度和參數量繼續往上推,這種補丁會變成剛需。
混合注意力機制
這是全篇論文最厚的一塊,也是「百萬token效率」的核心魔法所在。
V4的注意力層不是一種,是兩種交替使用的結構,CSA(Compressed Sparse Attention)和HCA(Heavily Compressed Attention)。
CSA做兩件事,先壓縮,再稀疏選擇
![]()
第一步,KV壓縮。每m個token的KV entries,通過一個帶學習權重的attention-like機制壓成一個。
第二步,lightning indexer + top-k選擇。這部分繼承自V3.2的DSA。對每個query token,用一個輕量的indexer計算它和每個壓縮KV塊的相關性分數。
第三步,core attention。在選中的這top-k壓縮KV塊上做Multi-Query Attention,得到注意力輸出。
第四步,grouped output projection。因為V4把head dimension c設成了512(比V3.2的128大得多),如果直接把所有head的輸出投影回d維會很貴,所以做了分組投影,把n_h個head分成g組,每組先投影到一個中間維度d_g,最后再合并投影回d。
整個CSA等于做了兩層壓縮。第一層是序列長度壓縮,n變成n/m。第二層是稀疏選擇,n/m變成top-k。對1M token的序列,原本需要attend 1M個token,現在只需要attend 1024個壓縮塊。
HCA的思路更簡單粗暴,壓得更狠,但不做稀疏。
![]()
壓縮率m’=128,每128個token壓成一個。壓縮過程也沒有CSA那樣的overlap,直接每m’個一組壓。然后對所有壓縮后的KV做dense attention。
論文里沒有長篇大論地解釋CSA和HCA為什么要配對使用,但讀完整個architecture章節,能看出它們的分工。
CSA的壓縮溫和、靠稀疏把關,適合做token-level的精細檢索。HCA的壓縮兇猛、保持dense,適合做長距離的全局信號匯總。
V4把兩者層層交替。Pro有61層,Flash有43層,CSA和HCA一層一層往上疊。既不漏細節,也不被細節拖住。
此外,論文還透露了幾個trick。
Q/KV normalization。CSA和HCA在core attention之前,都對query和KV entries做一次RMSNorm,防止attention logits爆炸。
Partial RoPE。只對query和KV entries的最后64維施加旋轉位置編碼,其余維度不動。
因為KV entries既做key又做value,naive的RoPE會讓輸出帶上絕對位置信息,所以在output端也對應施加一個位置為-i的RoPE來抵消,只保留相對位置信息。這是個巧妙的工程處理。
Sliding window attention作為輔助分支。
因為壓縮注意力保證嚴格因果性,一個query token看不到自己壓縮塊內其他token的信息。為了補償近距離依賴,V4額外加了一個sliding window分支,每個query除了看壓縮KV之外,還能看最近128個token的uncompressed KV。
Attention sink。借鑒OpenAI和StreamingLLM的trick,在attention分母上加一個learnable sink logit,允許attention score總和不等于1。
這在長序列里尤其有用,能避免模型被迫把注意力均攤。
Muon優化器
V4訓練中絕大多數參數優化用的不是AdamW,是Muon。
Muon是前幾年Keller Jordan那批人(他現在在OpenAI)在小模型上驗證過的優化器,基于矩陣正交化。
它只優化2D參數矩陣,其他參數(embedding、prediction head、RMSNorm權重、mHC的靜態偏置等)還是走AdamW。
Muon在LLM規模上的第一次大規模驗證是Kimi K2。 2025年,Moonshot用Muon(加上他們自己的QK-Clip變種,合稱MuonClip)訓了一個1T參數的MoE,15.5T token,全程零崩潰。
現在DeepSeek也用上了。不過他們做了自己的版本,hybrid Newton-Schulz迭代,10步分兩段。
- 前8步用激進系數,快速把奇異值推向1附近。
- 后2步用溫和系數,精確地把奇異值穩定在1。
這里有個細節值得注意。Kimi用Muon需要QK-Clip來防止attention logits爆炸,DeepSeek沒用這招。他們的理由是,V4的注意力架構允許直接對query和KV做RMSNorm,從源頭把爆炸的可能壓住了。
兩家公司,同一個優化器,解決同一個問題,走的是兩條路。這種跨團隊的技術共享和各自演化,是2026年開源社區最有意思的一面。
模型訓練
DeepSeek-V4系列在預訓練數據量上實現了翻倍。
對比V3僅用14.8T Token訓練,V4-Flash 與 V4-Pro 的數據消耗量分別達到了32T和33T。訓練數據量整整翻了一倍多(增長約 1.2 倍)
數據構成上,長文檔數據單獨curate,優先收錄科學論文和技術報告這類有學術價值的長材料。tokenizer仍用V3的128K詞表。
在模型架構上,V4-Flash,43層,隱藏維度4096。
MoE用1個shared expert + 256個routed experts,每token激活6個。總參數284B,激活13B。
V4-Pro,61層,隱藏維度7168。MoE用1個shared expert + 384個routed experts,每token激活6個。總參數1.6T,激活49B。
訓練調度上,序列長度走四段,4K → 16K → 64K → 1M。sparse attention不是從頭打開,前1T token用dense attention做warmup,擴到64K時才introduce sparsity。
論文表示,訓練中間出過一次嚴重的loss spike,DeepSeek摸到兩個土辦法,Anticipatory Routing和SwiGLU Clamping。論文原話非常誠實,這兩個trick work,但底層機理仍是open question。
一個訓練了兩個萬億參數MoE的團隊公開承認「我們不知道為什么這兩個trick管用」,在2026年已經是一件挺稀罕的事。
在后訓練階段,V4這一代做了一次方法論替換,傳統的mixed RL階段被On-Policy Distillation(OPD)完全替代。
流程分兩步。
第一步,訓domain specialist。
數學、代碼、agent、指令跟隨四個領域,各自獨立訓一個expert。先SFT打底,再用GRPO做domain-specific RL。V4還引入了三檔reasoning effort mode,Non-think、Think High、Think Max,每檔輸出長度不同。
第二步,OPD合并。
十幾個expert通過on-policy distillation合進一個統一的student。student自己rollout,最小化reverse KL向對應領域的expert對齊。數學任務向數學expert靠,編程任務向編程expert靠。
方法論聽起來很優雅。但工程上裝不下,十幾個teacher每個都是萬億級,vocab size超過10萬。
V4的做法是teacher權重offload到分布式存儲按需加載,只緩存hidden states不materialize logits,按teacher排序樣本保證每個mini-batch只加載一個teacher head。
一套看似優雅的后訓練方法論,背后是一堆「不這樣做就裝不下」的工程妥協。
實驗結論
在實驗部分,有三件最值得說的事。
![]()
開源領先。
SimpleQA-Verified上V4-Pro-Max拿到57.9,K2.6是36.9,GLM-5.1是38.1。領先所有開源模型20個百分點。
匹敵閉源。
Codeforces rating 3206,超過了GPT-5.4的3168和Gemini-3.1-Pro的3052,在人類選手榜單上排名第23。開源模型匹敵閉源頭部,這次是真的匹敵了。
差距仍在。
HLE上V4-Pro-Max 37.7,Gemini-3.1-Pro 44.4,Claude-Opus-4.6-Max 40.0。1M MRCR上V4優于Gemini但明顯不如Claude。知識類和最前沿的推理任務仍有3-6個月的gap。
論文中,DeepSeek表示:
- DeepSeek-V4-Pro-Max在標準推理benchmark上優于GPT-5.2和Gemini-3.0-Pro,但略落后于GPT-5.4和Gemini-3.1-Pro。這表明其發展軌跡大約落后最前沿閉源模型3到6個月。
Flash-Max可能是這篇論文最被低估的一部分。
V4-Flash-Max只激活13B參數,推理任務上能打平GPT-5.2和Gemini-3.0-Pro,代碼和數學甚至超過K2.6-Thinking。
如果只看激活參數量,這是目前效率最極致的推理模型之一。
現實任務里最值得提的是內部R&D代碼benchmark,V4-Pro-Max 67%,接近Claude Opus 4.5的70%。
85人的內部開發者調研里,91%表示V4-Pro可以作為主力coding模型。
在官方的推文中,也側面印證了這個說法:
- 目前DeepSeek-V4已成為公司內部員工使用的Agentic Coding模型,據評測反饋使用體驗優于Sonnet 4.5,交付質量接近Opus 4.6非思考模式,但仍與Opus 4.6思考模式存在一定差距。
在論文的最后,DeepSeek也表示:
- 為了追求極致的長文效率,V4系列采取了一個相對激進的架構設計。為了降低風險,我們保留了許多已經驗證過的組件和trick,這讓架構變得相對復雜。在未來的迭代中,我們將進行更全面、更有原則的研究,把架構精簡到最本質的部分。
未來方向幾條,探索新維度的sparsity(點名了Engram那條線)、低延遲架構、長時程多輪agentic任務、多模態、更好的數據curation。
有個蠻有意思的小細節,在形式化數學評測中,DeepSeek也皮了一下友商:
- 我們在K2.6和GLM-5.1的部分條目留空了,因為它們的API太忙,沒法及時返回我們查詢的結果。
![]()
太火了,就是說。
總結
把V4放回DeepSeek的完整路徑里看,它不是在追趕frontier。
過去三年的趨勢非常清晰。閉源大廠追求的是能力上限,誰家的模型能在HLE上拿更高分。DeepSeek追求的一直是另一條線,同樣能力下的成本下限。
V4把這件事推到了百萬token。一個1M的上下文,在V3.2的成本結構下是不可持續的,KV cache會把顯存吃光。V4把它壓到V3.2的10%,成本曲線突然打直了。
![]()
那結果會怎樣呢。一個很長的agent會話,一份反復回讀的技術文檔,一次跨多倉庫的重構,這些過去要切窗口、要加retrieval、要精心管理上下文的場景,在V4這里變成了「全塞進去看看再說」。
DeepSeek這幾年做的事,底層動作很清晰,一直在刪。從V2的MLA開始,每一代都在刪KV cache、刪激活參數、刪注意力計算量。
刪到V4,單token推理FLOPs砍到四分之一,KV cache砍到十分之一。
百萬token不是一個新的能力,是同一個上下文窗口被壓到可以承擔的成本。
One more thing
論文的結尾有一份長長的貢獻者名單。
梁文鋒在其中。
![]()
其中有不少帶星號的名字,是已經離開團隊、但仍然對V4做出過重要貢獻的研究者。
過去這一年,關于DeepSeek人才流失的消息傳過好幾輪。但這份名單把他們的名字和V4這個大家等了整整一年多的模型,綁在了同一張紙上。
每一個人都算數,每一天也都算數。
V4發布當天,DeepSeek研究員陳德里在x上轉發并寫道:
DeepSeek-V3:2024年12月26日。
DeepSeek-V4:2026年4月24日。
484天后,我們謙卑地分享這份愛心的勞動。
一如既往,我們始終堅持長期主義和全民開源。
AGI屬于每個人。
![]()
[1]https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro
[2]https://arxiv.org/pdf/2512.24880
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.