網易首頁 > 網易號 > 正文申請入駐

DeepSeek V4 發布：今天，我們終于可以棄用國外御三家了

2026-04-24 13:00:10　來源: 鯨選AI

北京舉報

分享至

DeepSeek V4 終于發布。不是傳聞，不是"下周發布"，就在今天。

遲到了整整四個月，終于在 4 月 24 日正式上線并同步開源。這次一口氣交出了兩個版本——旗艦版 V4-Pro（1.6T 參數，激活 49B）和經濟版 V4-Flash（284B 參數，激活 13B），全部標配百萬 token 超長上下文，全部開源，全部可用。

V4 到底強在哪？

Agentic Coding（代碼智能體）——開源模型最優水平，交付質量接近 Opus 4.6 非思考模式，體驗優于 Sonnet 4.5。

世界知識——大幅領先所有其他開源模型，僅略遜于 Gemini-Pro-3.1。數學 / STEM / 競賽代碼——超越所有公開評測的開源模型，與頂級閉源模型比肩。

上下文長度——1M（百萬字）超長上下文直接標配，不分版本、不加價。

V4-Pro 是性能旗艦，追求極致；V4-Flash 是高效經濟版，日常任務接近 Pro，性價比拉滿。

兩個版本均同步開源，API 支持 1M 上下文，思考模式可調（high/max），同時兼容 OpenAI 和 Anthropic 兩套接口協議。

這是 DeepSeek 自 2025 年 1 月 R1 爆火以來，時隔 15 個月的首個重大版本更新。

跑分拆解：和御三家逐項硬碰硬

空口說"比肩閉源"沒用，直接上 HuggingFace 官方 Model Card 的評測數據，把 V4-Pro Max（最強思考模式）和 Opus 4.6、GPT-5.4、Gemini-3.1-Pro 放在一起看。

代碼編程

LiveCodeBench 實時編程評測，V4-Pro 拿了 93.5 分，Opus 4.6 是 88.8，Gemini-3.1-Pro 是 91.7。

Codeforces 競賽評分，V4-Pro 拿到 3206，GPT-5.4 是 3168，Gemini-3.1-Pro 是 3052。

在實時編程和競賽編程這兩個最硬核的維度上，V4-Pro 直接超過了三家閉源對手。這是開源模型歷史上第一次做到這件事。

數學推理

HMMT 2026 數學競賽，V4-Pro 拿了 95.2%，GPT-5.4 是 97.7%，Opus 4.6 是 96.2%，差距已經非常小。

但 IMO 數學答題評測畫風突變，V4-Pro 拿了 89.8%，Opus 4.6 只有 75.3%，反過來被碾壓了 14 個百分點。

Apex Shortlist 高難度推理評測，V4-Pro 拿了 90.2，是所有模型里最高的，Gemini-3.1-Pro 是 89.1%，Opus 4.6 是 85.9%。

知識儲備方面

MMLU-Pro 評測 V4-Pro 拿了 87.5 分，和 GPT-5.4 持平，Gemini-3.1-Pro 最高 91.0。

中文知識評測 Chinese-SimpleQA，V4-Pro 拿了 84.4 分，僅次于 Gemini-3.1-Pro 的 85.9，大幅超過 Opus 4.6 的 76.4 和 GPT-5.4 的 76.8。

在中文場景下，V4-Pro 的知識儲備已經是閉源之外的最強水平。

Agent 能力是這次升級的重頭戲。SWE-bench Verified 軟件工程評測，V4-Pro 拿了 80.6%，Opus 4.6 是 80.8%，Gemini-3.1-Pro 也是 80.6%，三家打平。

MCPAtlas 工具調用評測，V4-Pro 拿了 73.6%，Opus 4.6 是 73.8%，差距 0.2 個百分點。

Toolathlon 工具使用評測，V4-Pro 拿了 51.8%，GPT-5.4 最高 54.6%，Opus 4.6 是 47.2%——V4-Pro 在這個維度上反超了 Opus。

把這些數據攤開來看，結論很清楚：V4-Pro 在編程和數學推理上已經超過了御三家中的兩家，在知識儲備上稍遜于 Gemini-3.1-Pro 但領先其他所有對手，Agent 能力和 Opus 4.6 幾乎打平。

而這，還是一個完全開源、API 價格只有閉源幾十分之一的模型。

百萬上下文：不是參數的數字游戲

一百萬 token 是什么概念？大約等于 15 到 20 本完整的小說，或者一整個中型項目的全部代碼。

長上下文這個東西，很多模型號稱支持，實際用起來后半段就開始"失憶"。業內管這叫"上下文腐爛"——模型雖然能"讀入"大量信息，卻無法有效"記住"并利用。

Opus 4.6 之前在 MRCR v2 的"大海撈針"測試中拿了 76% 的得分，遠超 Sonnet 4.5 的 18.5% ，就是因為解決了這個問題。

V4 的做法是從底層架構上重新設計注意力機制。它搞了一套 CSA（壓縮稀疏注意力）和 HCA（重度壓縮注意力）的混合架構，在 token 維度進行壓縮。

直接看數據：在 1M token 的上下文設置下，V4-Pro 的單 token 推理計算量只有 V3.2 的 27%，KV 緩存只有 V3.2 的 10%。同樣處理一百萬字的內容，V4 只需要前代模型四分之一的算力和十分之一的顯存。

實際評測表現如何？MRCR 1M 長上下文"大海撈針"評測，V4-Pro 拿了 83.5 分，Opus 4.6 最高 92.9，Gemini-3.1-Pro 是 76.3。CorpusQA 1M 長文檔問答評測，V4-Pro 拿了 62.0，Opus 4.6 是 71.7，Gemini-3.1-Pro 只有 53.8。V4-Pro 在長上下文能力上已經穩居第二梯隊頂端，和 Opus 4.6 有差距但大幅領先 Gemini。

關鍵是，DeepSeek 直接宣布：從現在開始，1M 上下文將是所有官方服務的標配。不分版本，不加價。

要知道 Claude Opus 4.7 的上下文窗口才 200K，而且長上下文調用的成本高得嚇人。

DeepSeek 直接把百萬上下文從"旗艦專屬"變成了"人人標配"，這個定義行業標準的動作，比跑分本身更有意義。

針對主流 Agent 產品做了適配

這是一個值得單獨拿出來說的細節。

V4 官方明確表示，針對 Claude Code、OpenClaw、OpenCode、CodeBuddy 等當前主流的 Agent 產品進行了專項適配和優化，在代碼任務和文檔生成任務上表現均有提升。

這意味著什么？意味著你現在用 Claude Code 或者 OpenClaw 寫代碼，底層模型可以直接切換成 DeepSeek V4。API 接口兼容 OpenAI ChatCompletions 和 Anthropic 兩套標準，改一個 model 參數就行，遷移成本幾乎為零。

OpenRouter 的統計信息也印證了這一點——在 V4 發布之前，DeepSeek-V3.2 就已經被開發者廣泛部署在 OpenClaw、Hermes 等今年流行的 Agent 工具中。V4 的專項適配，等于是把這條路徹底鋪平了。

據騰訊云開發者社區的一篇實測文章計算，V4 的 API 定價基本是 GPT-5 的 1/18、Claude Opus 4.6 的 1/16。

一個日均 10 萬次調用的知識庫項目，全量遷移到 V4 后月成本大約在 7.4 萬人民幣左右，同樣的調用量如果用 Opus，成本要翻十幾倍。

對于那些每月 token 消耗幾十萬美元的企業來說，這個誘惑力是實打實的。

6 萬億參數，但只激活 490 億

V4-Pro 的總參數量是 1.6T（1.6 萬億），但每次推理只激活 49B（490 億）。這就是 MoE（混合專家）架構的核心——模型里有大量"專家模塊"，每次只調用最相關的幾個來干活，其余的待命。

V4-Flash 更極端，總參數 284B，激活只有 13B，速度更快、成本更低。在簡單任務上和 Pro 版旗鼓相當，高難度任務上有差距，但推理能力接近。對于大多數日常場景——寫代碼、做總結、知識問答——Flash 版完全夠用，而且快得多、便宜得多。

技術報告里還有幾個值得關注的細節：訓練數據超過 32T token；優化器用了 Muon，收斂更快、訓練更穩定；

強化學習階段采用 GRPO 算法（這個算法的提出者郭達雅，是 DeepSeek 前核心研究員，現已加入字節跳動）；還引入了 Engram 條件記憶模塊，在百萬 token 長度下的信息召回率達到 97%。

DS和華為撐起國內 AI 底座

回顧 DeepSeek 的發展歷程，你會發現這家公司一直在做同一件事：用最少的資源，把 AI 能力的門檻打到最低。

2023 年 7 月，DeepSeek 從量化私募幻方獨立出來，創始人梁文鋒帶著"技術浪漫主義"的標簽開始做大模型。

2024 年，V2 讓行業意識到國產模型也能把性價比打到極致。緊接著 V3 在多任務上逼近 GPT-4 水平，API 價格直接屠榜。

2025 年 1 月，R1 發布，訓練成本約 560 萬美元，性能逼近 OpenAI 的頂級系統，"用十分之一的錢做出同級模型"的故事震動全球，直接讓美股 AI 板塊集體跳水。

但 R1 之后的 15 個月，DeepSeek 沉默了。V4 從 2 月跳票到 3 月，從 3 月拖到 4 月，外界一度以為這家公司掉隊了。有媒體直接發了篇文章問："中國開源王者為何越來越慢？"

現在答案揭曉了。V4 遲到的核心原因，不是模型本身沒做好，而是一場底層硬件的大遷移。

多方信息顯示，V4 的技術架構從英偉達 CUDA 全面轉向華為 CANN 框架。上海證券的研報指出，經深度優化后，V4 在昇騰 950PR 上的推理速度較初期版本提升了 35 倍，第三方評測顯示昇騰 950PR 單卡推理性能達到英偉達特供版 H20 芯片的 2.87 倍，華為 CANN 框架已實現超 95% 的 CUDA 代碼兼容，遷移時間從"按月計"縮短到"按小時計"。

這件事的意義遠超一個模型的發布。英偉達 CEO 黃仁勛在 Dwarkesh Podcast 上直言，DeepSeek 在華為芯片上優化 V4 對美國而言是"a horrible outcome"。他擔心的不是某一款芯片被替換，而是"開源模型必須以 CUDA 為首要優化目標"這條默認規則出現了第一個另類。

DeepSeek 和華為，一個做模型，一個做芯片，正在嘗試共同撐起一套完整的國產 AI 底座。

所以，真的能替代御三家了嗎？

把評測數據攤開來看，在大多數實際應用場景里，V4 已經具備了替代的能力。

編程和代碼智能體，V4-Pro 在 LiveCodeBench 和 Codeforces 上直接超過了 Opus 4.6 和 GPT-5.4。

日常的代碼生成、代碼審查、Bug 修復，用 V4 完全沒問題。數學和 STEM 推理，V4-Pro 和閉源頂級模型的差距已經縮小到了兩三個百分點以內，對于絕大多數非競賽級的推理任務來說，這個差距在實際使用中幾乎感知不到。

中文場景下的知識問答，V4-Pro 的 Chinese-SimpleQA 得分 84.4%，超過 Opus 和 GPT，僅次于 Gemini，對于國內用戶來說這個優勢非常實在。

Agent 任務，SWE-bench 和 MCPAtlas 評測上 V4-Pro 和 Opus 4.6 幾乎打平，而且 V4 專門針對 Claude Code、OpenClaw 等主流 Agent 工具做了適配，遷移過去幾乎零成本。

當然，差距依然存在。Opus 4.6 在長上下文的"大海撈針"能力上仍然是最強的（MRCR 1M 拿了 92.9 分，V4 是 83.5）。

Gemini-3.1-Pro 在世界知識儲備上依然是無可爭議的第一（SimpleQA 75.6% vs V4 的 57.9%）。

GPT-5.4 在部分極端推理任務上仍有優勢。

如果你的業務場景恰好卡在這些差距點上——比如需要在百萬 token 里精準定位極細粒度的信息，或者需要覆蓋極其冷門的世界知識——那閉源模型暫時還有不可替代的價值。

但對于絕大多數真實的工作場景來說，這些差距已經不構成選擇閉源的理由了。尤其是當你把價格因素算進去——V4 的 API 成本大約是 Opus 的 1/16、GPT-5 的 1/18——用十幾分之一的價格拿到 95% 以上的效果，這筆賬太好算了。

更重要的是，V4 還只是預覽版。技術報告的標題寫的是"Towards Highly Efficient Million-Token Context Intelligence"——"邁向"，說明正式版還有提升空間。

回想 15 個月前 R1 發布時，"用 560 萬美元訓練成本打出接近 OpenAI 的效果"震動了全球。這一次 V4 的沖擊波可能更大——它證明的不只是"中國能做好模型"，而是"中國能在自己的硬件上做好模型，并且讓所有人都用得起"。 15

DeepSeek 在發布公告最后引用了荀子的一句話："不誘于譽，不恐于誹，率道而行，端然正己。"

國產AI，共勉！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.