網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

DeepSeek V4震撼發布！實現全球開源領先

2026-04-24 12:11:03　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：Aeneas 好困

【新智元導讀】讓全球從春節苦等到四月的DeepSeek V4，終于來了！

就在剛剛，DeepSeek V4真的來了！

今天，那個曾經以一己之力打破閉源模型霸權的DeepSeek，帶著DeepSeek-V4系列預覽版，向全球開發者正式宣告——

百萬級上下文（1M Context）的平民化時代，以及開源Agent能力、世界知識和推理性能上的新巔峰，已經到來。

DeepSeek V4，再度實現國內與開源領域的領先。

V4的技術報告，已經同步發布。

論文地址：https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

DeepSeek-V4-Pro

性能比肩頂級閉源模型

DeepSeek-V4 系列包含兩個版本：擁有1.6T總參數、49B激活參數的性能怪獸DeepSeek-V4-Pro，以及專為高效率、經濟性設計的284B總參數、13B激活參數的DeepSeek-V4-Flash。

可以說，DeepSeek-V4-Pro已經達到了開源模型的新巔峰，對標全球頂尖閉源水準。

首先，V4-Pro在Agent能力上實現了跨越式突破，其Agentic Coding水平穩居開源界首位。

實測反饋顯示，其編碼體驗已超越Sonnet 4.5，交付質量直追Opus 4.6（非思考模式），目前已成為公司內部Agent編程的首選模型。

其次，它具備深厚的世界知識儲備。

在知識測評維度，V4-Pro顯著領先同類開源產品，與閉源標桿Gemini-Pro-3.1的差距已縮減至極小范圍。

另外，它還有頂尖的邏輯推理表現。

在數學、STEM及高難度競賽代碼等硬核領域，V4-Pro的表現不僅冠絕開源社區，更具備了挑戰世界最強閉源模型的實戰競爭力。

支撐這兩個模型傲視群雄的，是其底層技術的「三大神技」：

混合注意力機制（CSA + HCA）

DeepSeek-V4 并沒有盲目增加硬件投入，而是開創性地設計了混合注意力架構。

壓縮稀疏注意力（CSA）對KV緩存進行token維度的壓縮并結合DSA稀疏注意力；重壓縮注意力（HCA）則進行更極致的壓縮以維持稠密計算。

這種「長短結合」的策略，讓模型在處理百萬字上下文時，計算量和顯存需求大幅降低。

流形約束超連接（mHC）

為了提升信號傳播的穩定性并增強模型表達力，V4引入了mHC結構，升級了傳統的殘差連接。這讓模型在深層網絡中依然能保持卓越的建模能力。

Muon 優化器

引入全新的Muon優化器，讓訓練過程不僅收斂更快，且更加穩定。

正是這些結構創新，讓DeepSeek-V4在推理效率上實現了質的飛躍。

在100萬token上下文的極端場景下，DeepSeek-V4-Pro的單token推理計算量僅為前代的 27%，KV緩存占用更是縮減到了驚人的10%。

DeepSeek-V4-Flash

極致效能與性價比的完美平衡

相比于Pro版本，Flash版則是更快捷高效的經濟之選。

盡管在世界知識的深度上略遜于Pro版本，但DeepSeek-V4-Flash保留了與之接近的邏輯推理水平。

受益于更精簡的參數規模與激活機制，它能為用戶提供響應更快、成本更低的API接入方案。

在處理基礎 Agent 任務時，V4-Flash的表現與Pro版不相上下，但在應對極端復雜任務時仍存在進階空間。

架構革新

重塑長上下文效率

DeepSeek-V4引入了革命性的注意力機制，通過在Token維度進行高效壓縮，并結合 DSA稀疏注意力（DeepSeek Sparse Attention）技術，實現了全球頂尖的長文本處理能力。

這種創新大幅削減了對計算資源與顯存的依賴。

即日起，1M（100萬 tokens）超長上下文將成為DeepSeek官方服務的標準配置。

DeepSeek-V4和DeepSeek-V3.2的計算量和顯存容量隨上下文長度的變化

Agent能力深度優化

DeepSeek-V4 針對Claude Code、OpenClaw、OpenCode、CodeBuddy等主流 Agent生態進行了深度適配。

在代碼編寫與自動化文檔生成等場景下，其產出效率顯著提升。

V4-Pro在特定Agent框架下自動生成的PPT頁面實例

API全面升級，舊版模型倒計時

對于開發者而言，好消息是：API已經同步上線！

只需簡單修改 model_name 即可接入這兩款新旗艦：

追求性能：deepseek-v4-pro
追求效率：deepseek-v4-flash

特別提醒：原有的 deepseek-chat 和 deepseek-reasoner 模型名將作為V4的過渡別名（分別指向 V4-Flash 的非思考與思考模式），但這兩個舊名稱將于2026年7月24日正式停用。

論文解讀

兩種壓縮，一套組合拳

V4-Pro中，CSA的壓縮率為4，每4個token的KV緩存合并成一個條目。

壓縮之后再通過Lightning Indexer對壓縮后的KV條目打分，每個query token只選top-1024個條目做注意力計算。索引計算用FP4精度，超長上下文下開銷極低。

HCA走另一條路。壓縮率拉到128，比CSA激進得多，但不做稀疏選擇，所有壓縮后的KV條目都參與計算。極致壓縮換全局視野。

兩種機制交替堆疊，CSA精細檢索，HCA全局感知，再加上每層128 token的滑動窗口捕捉局部依賴，三條路徑協同。

算一筆賬。

以常規BF16 GQA8（頭維度128）作為基線，V4在100萬token下的KV緩存只有基線的約2%。KV條目還采用混合精度存儲，RoPE維度BF16，其余FP8，體積比純BF16再砍一半。

推理端則把壓縮KV和滑動窗口KV分開管理，支持磁盤級緩存存儲，避免共享前綴的重復prefill。

mHC，6.7%的代價換來的穩定性

標準HC擴展殘差流寬度來增強信息傳遞，但多層堆疊時數值會炸。

mHC的做法是把殘差映射矩陣約束在雙隨機矩陣流形（Birkhoff多面體）上，確保譜范數不超過1，信號深層傳播不發散。投影通過Sinkhorn-Knopp算法迭代20次實現。

工程代價可控，擴展因子只有4，經過融合kernel和選擇性重計算優化后，額外墻鐘時間僅6.7%。

訓練萬億參數的「土辦法」

Muon的核心是對梯度動量做Newton-Schulz正交化，V4用10次混合迭代，前8次快速收斂，后2次精確穩定。

但優化器只是一半的故事。V4報告披露了兩個訓練穩定性技巧。

Anticipatory Routing，把路由索引的計算和主干網絡的更新解耦，用歷史參數提前算好路由并緩存。系統在檢測到loss spike時自動觸發，日常開銷可忽略。

SwiGLU Clamping，把SwiGLU線性分量鉗制在[-10, 10]，門控上界鉗制在10。簡單粗暴但有效。

MoE工程上，V4開源了MegaMoE，把通信和計算融合進單個pipeline kernel，通用場景加速1.5到1.73倍，延遲敏感場景最高1.96倍。

專家分訓，蒸餾合一

V4用On-Policy Distillation（OPD）替代了V3.2的混合RL。先獨立訓練數學、代碼、Agent等領域專家，再用一個學生模型對十幾個專家做全詞表logit蒸餾。

工程上的關鍵突破是，不緩存教師logits（顯存放不下），只緩存最后一層隱藏狀態，訓練時按需重建logits，用TileLang專用kernel加速KL散度計算。

V4還引入了Generative Reward Model（GRM），讓actor網絡同時充當獎勵模型，評判和生成能力聯合優化，不再依賴傳統標量獎勵模型。

后訓練階段同步做了FP4量化感知訓練，對MoE專家權重和CSA索引器做FP4量化，且FP4到FP8反量化無損，整個流程復用現有FP8框架。

DeepSeek

再度證實開源的力量

從V3的橫空出世到V4的效率革命，DeepSeek始終堅持將最頂級的技術通過開源分享給社區。

DeepSeek-V4的上線，不僅是技術參數的跳躍，更是對「百萬長上下文」和「高性能 Agent」這兩大未來趨勢的有力回應。

它證明了通過架構創新，我們可以在不犧牲性能的前提下，極大降低大模型的門檻。

現在，你可以在官方App或chat.deepseek.com立即開啟1M上下文的全新體驗。

這不僅僅是一個對話框，這是一個能裝下整部百科全書、能理解萬行代碼邏輯的「第二大腦」。

參考資料：

https://huggingface.co/collections/deepseek-ai/deepseek-v4

https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4

https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

https://api-docs.deepseek.com/zh-cn/guides/thinking_mode

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

DeepSeek V4報告太詳盡了！484天換代之路全公開

量子位 2026-04-25 11:22:59
4 跟貼 4
別高估英偉達，別低估DeepSeek

虎嗅APP 2026-04-25 00:21:16
732 跟貼 732

為什么這篇谷歌論文被稱為「Attention is all you need」V2

量子位 2025-12-21 15:15:36
26 跟貼 26

字節養的“蝦”與1500億賬本背后

鈦媒體APP 2026-04-25 16:44:18
0 跟貼 0
谷歌豪擲400億鎖定Anthropic，OpenAI慌不慌？

華爾街見聞官方 2026-04-25 19:31:27
0 跟貼 0

最前線｜2025年全年營收超64億，海康機器人表示將繼續推進AI融合與具身智能布局

36氪 2026-04-25 19:24:09
0 跟貼 0

這個時代必須以Agent為中心：三個趨勢回顧

量子位 2026-04-05 02:14:15
0 跟貼 0
AI Agent是科技革命中的一次真正的范式轉移

量子位 2026-04-03 22:52:35
0 跟貼 0

一人公司火了，企業開始把命交給AI

虎嗅APP 2026-04-25 21:59:04
0 跟貼 0
谷歌400億美金投資Anthropic，算力成AI巨頭資本游戲的砝碼

DeepTech深科技 2026-04-25 21:26:08
0 跟貼 0
Cohere收購德國AI明星，200億估值劍指主權AI，硅谷巨頭新增對手

DeepTech深科技 2026-04-25 21:29:36
0 跟貼 0
DeepSeek過于樸素了

虎嗅APP 2026-04-25 17:32:05
1 跟貼 1
DeepSeek V4來了：在喧嘩眾聲中，按自己的節奏講開源故事

DeepTech深科技 2026-04-24 13:06:46
34 跟貼 34
天天315｜“0糖是商標”，東鵬特飲被罵上熱搜股價下跌

齊魯壹點 2026-04-25 06:43:07
34280 跟貼 34280
半掛模型玩具車買菜，要是超重了怎么辦，雷軍都不敢這么設計！

宇宙搞笑生活 2026-04-23 14:10:00
4 跟貼 4
烏克蘭前線士兵骨瘦如柴照片披露被指最長斷糧17天

澎湃新聞 2026-04-25 14:48:31
13472 跟貼 13472
馬斯克承認HW3車型不支持FSD，要花錢升級硬件

極果酷玩 2026-04-24 16:38:31
1 跟貼 1
性能真的不重要了嗎？Jeff Dean給出反常答案

新智元 2025-12-28 17:20:51
0 跟貼 0
美正考慮暫停西班牙北約成員國資格

財聯社 2026-04-24 22:52:23
1768 跟貼 1768
12000w切割詳細參數

蕭祃記錄風土人情 2026-04-21 10:12:00
1 跟貼 1
美能源出口創新高二戰以來首次接近成為原油凈出口國

紅星新聞 2026-04-25 12:32:20
7911 跟貼 7911
汽車作為現金流和數據采集器，小鵬物理AI野心綻放北京車展

創業最前線 2026-04-25 20:26:11
0 跟貼 0
記得住、答得快、用得省：HERMES 流式視頻理解實時響應提速10倍

機器之心Pro 2026-04-24 17:37:36
0 跟貼 0
特朗普用直升機送馬杜羅？尷尬邏輯引熱議

隱龍天下o 2026-04-23 06:43:03
0 跟貼 0
空警600vsE-2D預警機：核心參數與性能對比全解析

因果 2026-04-25 10:02:10
0 跟貼 0
精度與性價比的跨國共鳴海外市場青睞56式半自動的實用邏輯

武器知識 2026-04-23 23:51:18
5 跟貼 5
泡泡瑪特：4月30日發售兩款Labubu冰箱，售價5999元，每款全球限量發售999臺

魯中晨報 2026-04-24 20:08:07
2709 跟貼 2709
為何要建？誰將受益？一文讀懂廣深第二高鐵戰略意義

南方都市報 2026-04-24 22:37:07
252 跟貼 252
汽車保有量超400萬輛的城市PK，蘇州交通健康指數以67.66%位列全國第一

現代快報 2026-04-25 15:06:34
40 跟貼 40
雪中送碳！中國向古巴捐贈超1.4萬件體育物資

看看新聞Knews 2026-04-25 10:44:15
17 跟貼 17
90%訂單消失，中東旺季沒了

中國新聞周刊 2026-04-25 07:28:04
0 跟貼 0
簡直是霸王條款！男子花21999元網購三星三折疊手機被要求必須當面激活才能簽收

閃電新聞 2026-04-25 08:55:39
0 跟貼 0
“月薪1.6萬招放羊工”走紅，老板最新發聲→

中國青年報 2026-04-25 08:56:27
1797 跟貼 1797
“記者臥底桂林六日游低價團”后續：地接旅行社被罰30萬并停業整頓

極目新聞 2026-04-24 08:03:58
550 跟貼 550
尾號9999999手機號將以26.6833萬起拍價再次拍賣，月租僅9元，2個月前51萬余元起拍無人接盤

極目新聞 2026-04-25 18:36:08
103 跟貼 103
淄博，新能源汽車一個半月3次剎車故障，車主：別管軟件硬件，反正剎不住車！

小溪辦事 2026-04-24 12:40:25
0 跟貼 0
內塔尼亞胡患癌，還打嗎

上觀新聞 2026-04-25 08:59:19
846 跟貼 846
徐靜雨直播怒批寶可夢老掉牙力挺洛克王國絕非抄襲

游民星空 2026-04-25 18:12:04
1 跟貼 1
4月份滬牌拍賣結果公布

界面新聞 2026-04-25 11:56:31
43 跟貼 43
網友曬出與貓頭鷹互動一幕，它的反應就跟小貓一樣，網友：它是鳥的硬件裝了貓的操作系統

星沙時報 2026-04-25 10:34:35
0 跟貼 0

好消息！全國免費電視正式落地，不用裝寬帶不交年費5分鐘就能看

好消息！全國免費電視正式落地，不用裝寬帶不交年費5分鐘就能看

小柱解說游戲

2026-04-25 01:26:48

米特里策被停賽4場后，浙江隊4場比賽0進球&1平3負未嘗勝績

米特里策被停賽4場后，浙江隊4場比賽0進球&1平3負未嘗勝績

懂球帝

2026-04-25 20:58:52

教育部新規落地！9月上學全變了，家長趁早看

教育部新規落地！9月上學全變了，家長趁早看

笑熬漿糊111

2026-04-23 00:05:18

35歲離婚，因嗜酒家財散盡，50歲中年又喪女，如今66歲騰格爾如何

35歲離婚，因嗜酒家財散盡，50歲中年又喪女，如今66歲騰格爾如何

白面書誏

2026-04-25 15:13:17

美加墨世界杯決賽門票轉手價近230萬美元

美加墨世界杯決賽門票轉手價近230萬美元

新京報

2026-04-24 21:00:14

2026年5月起！若不出意外，中國房價、樓市可能迎來“四大轉變”

2026年5月起！若不出意外，中國房價、樓市可能迎來“四大轉變”

云鵬敘事

2026-04-23 20:32:38

中超下課第一人將誕生！浙江5輪不勝0進球，兄弟德比羅斯慘敗

中超下課第一人將誕生！浙江5輪不勝0進球，兄弟德比羅斯慘敗

奧拜爾

2026-04-25 21:02:41

為什么你的電量焦慮出國就消失？

為什么你的電量焦慮出國就消失？

晚風也遺憾

2026-04-24 09:04:51

學歷貶值到什么程度了：超5900名中小學老師擁有博士學歷！

學歷貶值到什么程度了：超5900名中小學老師擁有博士學歷！

燈錦年

2026-04-25 12:03:48

北京國安2-4天津津門虎，賽后評分：天津津門虎9號排第一

北京國安2-4天津津門虎，賽后評分：天津津門虎9號排第一

側身凌空斬

2026-04-25 21:36:48

250萬賠償不算啥？官方介入，崔麗麗事件“創先河”，釋放3大信號

250萬賠償不算啥？官方介入，崔麗麗事件“創先河”，釋放3大信號

天天熱點見聞

2026-04-25 06:27:01

事態升級，中方開打第二波反擊，高市或突然辭職，石破茂已扛旗

事態升級，中方開打第二波反擊，高市或突然辭職，石破茂已扛旗

芳芳歷史燴

2026-04-25 00:45:20

89歲謝賢，4個護工24小時輪班，曾經的四哥，如今出行全靠輪椅

89歲謝賢，4個護工24小時輪班，曾經的四哥，如今出行全靠輪椅

TVB的四小花

2026-04-25 20:47:01

中國國安部：稀土公司副總向境外泄露7項國家秘密受嚴懲

中國國安部：稀土公司副總向境外泄露7項國家秘密受嚴懲

俄羅斯衛星通訊社

2026-04-24 15:07:08

“骨盆前傾成這樣，還不去醫院？”家長曬一年級女兒體態，被群嘲

“骨盆前傾成這樣，還不去醫院？”家長曬一年級女兒體態，被群嘲

妍妍教育日記

2026-04-24 11:15:25

尾號9999999手機號將以26.6833萬起拍價再次拍賣，月租僅9元，2個月前51萬余元起拍無人接盤

尾號9999999手機號將以26.6833萬起拍價再次拍賣，月租僅9元，2個月前51萬余元起拍無人接盤

極目新聞

2026-04-25 18:36:08

首發被華為搶了！英偉達急眼：當天火速官宣適配DeepSeek V4

首發被華為搶了！英偉達急眼：當天火速官宣適配DeepSeek V4

快科技

2026-04-25 12:51:02

48歲中國羽協主席被查！失聯十多天+原因曝光曾衛冕奧運混雙冠軍

48歲中國羽協主席被查！失聯十多天+原因曝光曾衛冕奧運混雙冠軍

念洲

2026-04-25 06:12:48

如果馬寅初沒提出人口論，也沒有計劃生育，如今我國會怎么樣？

如果馬寅初沒提出人口論，也沒有計劃生育，如今我國會怎么樣？

舊史新譚

2026-04-24 15:49:04

90%訂單消失，中東旺季沒了

中國新聞周刊

2026-04-25 07:28:04

AI產業主平臺領航智能+時代

15062文章數 66804關注度

往期回顧全部

科技要聞

DeepSeek V4發布！黃仁勛預言的"災難"降臨

頭條要聞

媒體：美軍在中東罕見高密度集結伊朗開始調整戰術

頭條要聞

媒體：美軍在中東罕見高密度集結伊朗開始調整戰術

體育要聞

火箭0-3觸發百分百出局定律：本季加時賽9戰8敗

娛樂要聞

《我們的爸爸2》第一季完美爸爸翻車了

財經要聞

90%訂單消失，中東旺季沒了

汽車要聞

2026款樂道L90亮相北京車展樂道L80正式官宣

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

教育

本地

公開課

軍事航空

家居要聞

自然肌理溫潤美學

浪漫協奏法式風格
極簡繪夢克制和諧
詩意光影窺見自然之境

教育要聞

教育縱深 | 閱讀走新更走心

本地新聞

云游中國｜逛世界風箏都留學生探秘中國傳統文化

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

軍事要聞

美防長：戰事不會“沒完沒了”

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版