網易首頁 > 網易科技 > 網易科技 > 正文

終等到DeepSeek V4：1.6萬億參數、百萬上下文，牽手華為，價格依然"屠夫級"

2026-04-24 14:38:24　來源: 態℃

北京舉報

分享至

出品 | 《態度》欄目

作者 | 袁寧

編輯 | 丁廣勝

DeepSeek-V4，終于來了。

這段時間，行業節奏已經快到有些失真。新模型一波接一波，參數、榜單、價格、長上下文、Agent、推理強度，幾乎每隔幾天就要重排一次座次。越是在這種密集更新里，DeepSeek的沉默就越容易被放大。再疊加融資、擴張、下一階段戰略這些外圍討論，市場對它的期待，早就不只是“再發一個新模型”這么簡單。

所以，V4這次上線，大家真正想知道的其實是兩件事：

第一，DeepSeek還在不在第一梯隊里。

第二，它這次到底拿出了什么新東西。

4月24日，DeepSeek-V4預覽版官宣上線，同步開源。

先說結論：V4不是一代靠“能力全面躍升”來定義自己的模型。官方表示，相比前代模型，DeepSeek-V4-Pro的Agent能力顯著增強。在Agentic Coding評測中，V4-Pro已達到當前開源模型最佳水平，并在其他Agent 相關評測中同樣表現優異。目前DeepSeek-V4已成為公司內部員工使用的Agentic Coding 模型，據評測反饋使用體驗優于Sonnet 4.5，交付質量接近 Opus 4.6非思考模式，但仍與 Opus 4.6思考模式存在一定差距。

DeepSeek-V4-Pro 在世界知識測評中，大幅領先其他開源模型，僅稍遜于頂尖閉源模型 Gemini-Pro-3.1。

在數學、STEM、競賽型代碼的測評中，DeepSeek-V4-Pro 超越當前所有已公開評測的開源模型，取得了比肩世界頂級閉源模型的優異成績。

那 V4在做什么？一句話：它把長上下文的成本結構徹底重寫了一遍。100萬 token 上下文成為標配，但單 token 的算力消耗反而大幅下降。這是一次基礎設施級別的發布，為下一階段的 test-time scaling 和長程 Agent 任務鋪路。

兩個版本、百萬上下文、三檔推理，DeepSeek這次最狠的還是價格

這次 V4一共兩個版本。

V4-Pro 是旗艦版，總參數1.6T，激活參數49B；V4-Flash 是輕量版，總參數284B，激活參數13B。兩者都原生支持1M 上下文，同時支持非思考模式和思考模式。

更進一步，每個模型又分成三檔推理強度：Non-think、Think High、Think Max。也就是說，這次 DeepSeek 給出的不只是兩個模型，而是一整套可以按場景分層調用的能力結構。

從產品上看，這個思路已經很明確了：Pro 負責沖能力上限，Flash 負責鋪性價比；非思考負責效率，Max 負責榨干推理能力。

官方也直接說了，“從現在開始，一百萬上下文將是 DeepSeek 所有官方服務的標配。”這句話表面上是在強調上下文長度，實際上更重要的是它背后的意思：DeepSeek 不是想把1M 當成一個展示參數，而是想把它做成標準配置。

而標準配置能不能成立，關鍵從來都不是“寫沒寫支持1M”，而是成本。

這次 V4最值得注意的地方，也正是在成本曲線。按照官方披露的數據，在1M 上下文設置下，V4-Pro 的單 token 推理 FLOPs 只有 V3.2的27%，KV Cache 只有10%；V4-Flash 更激進，分別壓到10% 和7%。換句話說，雖然上下文從128K 拉到了1M，理論上放大接近8倍，但單 token 的推理成本并沒有跟著爆炸，反而被打了下來。

這一點其實比“百萬上下文”本身更關鍵。因為過去很長一段時間，長上下文一直都更像一種能力展示：窗口越寫越長，但真到實際調用時，價格、延遲、顯存壓力都很難看。V4這次真正想證明的是，長上下文不一定只能做成貴族配置，它可以被改造成可供大規模調用的基礎能力。

這一點在價格上體現得非常直接。

V4-Pro 每百萬 token 輸入價格是1元，輸出是12元；V4-Flash 每百萬 token 輸入0.2元，輸出2元。這個價格一出來，基本上還是那個熟悉的 DeepSeek 風格。

也難怪不少用戶第一反應還是那句老話：便宜，而且強。

技術上動了三刀：注意力、殘差、后訓練

V4最核心的技術改動在注意力層。傳統 Transformer 的注意力機制里，每個 token 要和前面所有 token 算一遍相似度。上下文從10萬拉到100萬，計算量增長的不是10倍，是100倍。

V4的做法是把注意力拆成兩種，交替疊用。一種叫 CSA（壓縮稀疏注意力），先把每4個 token 的 KV 緩存合并成一條摘要，再讓每個 query 只在這些摘要里挑出最相關的 top-k 條去算。既壓縮了"要看的內容"，又只挑"值得看的"去算。另一種叫 HCA（重壓縮注意力），壓縮率更激進，把每128個 token 合并成一條，但對剩下的摘要做稠密注意力，不做稀疏挑選。兩種交替疊起來，再加一個滑動窗口分支處理近距離 token 之間的細節依賴。這是一套"粗粒度 + 細粒度、稀疏 + 稠密"的組合拳。

把這套方案放進 DeepSeek 過去兩年的技術脈絡里，變化就很清晰。V2、V3走的是參數稀疏化，總參數很大，但每 token 只激活一小部分專家。V4在此之外又開了一條上下文稀疏化的路，KV 壓縮、top-k 選擇、分層壓縮率。這是 DeepSeek 第一次把"稀疏化"的刀動到 Transformer 的核心結構里。

除了注意力層，V4還改了兩處之前沒動過的地方。一是把傳統殘差連接升級為 mHC（流形約束超連接），通過數學約束讓深層網絡的前向和反向傳播更穩定；二是用 Muon 優化器替代大部分模塊原本用的 AdamW，收斂更快，訓練更穩。同時動注意力、殘差、優化器三處核心結構，在 DeepSeek 的歷史上是第一次。

比架構改動更值得注意的是后訓練方法的切換。V3.2用的是"混合 RL"，一次性用強化學習優化多個目標。V4換成了"分化再統一"的兩步走。第一步，針對數學、代碼、Agent、指令跟隨等不同領域，每個領域單獨訓練一個專家模型——先用該領域高質量數據做監督微調，再用 GRPO 算法做強化學習，在各自的細分賽道上跑到最優。第二步，用 On-Policy Distillation（OPD，在策略蒸餾）把十多個領域專家"合成"回一個統一的學生模型。學生自己生成回答，然后對每個回答，去匹配"最懂這個問題"的專家的輸出分布，通過 logit 級對齊把能力吸收進來。通俗地講，就是把一堆尖子生的本事蒸餾進同一個人腦袋里。

這套流程的工程難度極高：同時加載十多個萬億參數級的教師模型做在線推理不現實。DeepSeek 的做法是把所有教師權重統一卸載到分布式存儲，只緩存每個教師最后一層的 hidden state，訓練時按教師索引排序樣本，保證任意時刻 GPU 顯存里只駐留一個 teacher head。V4的能力不再靠一個模型從頭學到底，而是先讓不同專家在各自賽道跑到頂，再把它們收編進同一套權重。這種思路繞開了傳統混合 RL 容易導致的能力互相干擾問題。

在 Agent 方向，V4做了幾處專項優化：后訓練階段把 Agent 作為與數學、代碼并列的獨立專家方向單獨訓練；工具調用格式從 JSON 換成帶特殊 token 的 XML 結構，降低轉義錯誤；跨輪次推理痕跡在工具調用場景下完整保留，不再像 V3.2那樣每輪清空。DeepSeek 還自建了一套名為 DSec 的沙箱平臺，單集群可并發管理數十萬個沙箱實例，專門支撐 Agent 強化學習訓練和評測。V4針對 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 產品進行了適配優化，在代碼任務和文檔生成任務上均有提升。

融資、算力、昇騰，V4背后還有DeepSeek的下一道現實題

V4這次發布，另一個繞不開的話題，是算力。

DeepSeek 在說明里提到，受限于高端算力，當前 Pro 的服務吞吐仍然有限，預計下半年昇騰950超節點批量上市之后，Pro 的價格還會進一步大幅下調。它基本等于確認了兩件事。

第一，DeepSeek 這次確實已經把國產算力協同放進正式路線里了。

第二，V4當前的能力釋放，還沒有完全到位，背后依然受制于算力供給。

昇騰表示，其一直同步支持DeepSeek系列模型，本次通過雙方芯模技術緊密協同，實現昇騰超節點全系列產品支持DeepSeek V4系列模型。基于DeepSeek V4-Pro模型，在8K輸入場景，昇騰950超節點可實現TPOT約20ms時單卡Decode 吞吐4700TPS。DeepSeek V4-Flash模型，8K長序列輸入場景下可實現TPOT約10ms時單卡Decode 吞吐1600TPS。