網易首頁 > 網易號 > 正文 申請入駐

DeepSeek V4重磅發布,百萬上下文成標配,華為昇騰率先適配!

0
分享至

4 月 24 日的 AI 技術圈再次因大模型的升級而沸騰。

整理 | 屠敏

出品 | CSDN(ID:CSDNnews)

就在 OpenAI 于凌晨剛推出 版本之后的幾個小時,國產大模型也迎來了重磅時刻——DeepSeek-V4 預覽版官宣上線,并同步開源

官方發布 58 頁完整技術報告,讓開源大模型邁入百萬 token 高效上下文時代,徹底重構長文本大模型的效率與能力邊界。


開源地址:

  • https://huggingface.co/collections/deepseek-ai/deepseek-v4

  • https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4

技術報告:

  • https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf


雙模型齊發:1.6T 旗艦與 284B 輕量版,均支持百萬字上下文

最新發布的 DeepSeek-V4 系列一次性推出兩款全新的 MoE 架構大模型,全部支持 百萬字超長上下文,按照模型大小來分:

  • DeepSeek-V4-Pro:總參數量為 1.6T、激活參數為 49B, 在知識、推理、代碼、智能體、長文檔理解上比肩頂級閉源模型;

  • DeepSeek?V4?Flash:總參數 284B,激活參數為 13B,以極小激活參數量實現逼近旗艦的推理性能。


官方表示,兩款模型在 Agent 能力、世界知識和推理性能上均實現國內與開源領域的領先。 即日起,登錄 DeepSeek 官網 chat.deepseek.com 或官方App,就可以直接體驗最新的 DeepSeek-V4 能力。

此外,API 服務已同步更新,通過修改 model_name 為 deepseek-v4-pro 或 deepseek-v4-flash 即可調用。



架構升級,關鍵技術創新大幅提高上下文效率

從技術架構層面來看,DeepSeek?V4 沒有停留在堆參數、擴數據的傳統路線,而是從注意力機制、殘差連接、優化器三大底層維度,進行了技術升級。

簡單來看,與 DeepSeek-V3 架構相比,DeepSeek-V4 系列保留了 DeepSeekMoE 框架和多詞元預測(MTP)策略,同時在架構和優化方面引入了多項關鍵創新:

  • 采用混合注意力架構,將壓縮稀疏注意力(CSA)和重壓縮注意力(HCA)結合,用于提升長上下文處理效率。CSA 沿序列維度壓縮鍵值緩存,然后執行 DeepSeek 稀疏注意力(DSA),而 HCA 對鍵值緩存應用更激進的壓縮,但保持了密集注意力;

  • 為了增強建模能力,DeepSeek 也在架構中引入了流形約束超連接(mHC),在傳統殘差連接基礎上進一步增強信息傳遞能力;

  • 以及 Muon 優化器被引入了 DeepSeek-V4 系列的訓練中,用于加快收斂速度并提升訓練穩定性。


在訓練維度,DeepSeek 在超過 32T 高質量、多樣化的 token 上對兩個模型進行了預訓練,并在此基礎上引入了一整套完整的后訓練流程,進一步增強模型能力。

同時,據技術報告顯示,DeepSeek-V4 系列在長上下文場景下也表現出極高的效率。在百萬 Token 的上下文設置下,DeepSeek-V4-Pro 僅需 DeepSeek-V3.2 的 27% 單 Token 推理 FLOP,KV cache 占用僅為 10%。

正因此,DeepSeek 能夠將“百萬 token 上下文”作為常規能力來支持,從而顯著提升長時序任務的可行性,并為測試階段的進一步擴展提供了空間。正如官方所說:“從現在開始,1M(一百萬)上下文將是 DeepSeek 所有官方服務的標配。



性能比肩頂級閉源模型

值得注意的是,DeepSeek-V4-ProMax 是 DeepSeek-V4-Pro 的最高推理模式,重新定義了開放模型的性能標準,在核心任務上超越了其前代產品。

另外,DeepSeek-V4 系列的性能在多個維度都有了全面的提升:

  • 在廣義世界知識評估中,DeepSeek-V4-Pro 的最高推理模式 DeepSeek-V4-Pro-Max,在 SimpleQA 和 Chinese-SimpleQA 等基準測試上,顯著優于主流開源模型。


在教育類知識評估方面(包括 MMLU-Pro、HLE 和 GPQA),DeepSeek-V4-Pro-Max 相較開源模型仍保持小幅領先。同時,它與領先的閉源模型 Gemini-3.1-Pro 的差距已經大幅縮小,但在這些知識類測試中仍略遜一籌。


  • 在推理維度,通過增加推理 token 的投入,DeepSeek-V4-Pro-Max 在標準推理基準上展現出優于 GPT-5.2 和 Gemini-3.0-Pro 的表現。

    不過,其性能仍略低于 GPT-5.4 和 Gemini-3.1-Pro,這表明其整體發展水平大約落后最前沿模型 3 到 6 個月。

    此外,DeepSeek-V4-Flash-Max 在復雜推理任務中達到了接近 GPT-5.2 和 Gemini-3.0-Pro 的表現,體現出較高的性價比。

  • Agent 能力上,在公開基準測試中,DeepSeek-V4-Pro-Max 與領先開源模型(如 Kimi-K2.6 和 GLM-5.1)表現相當,但略遜于頂級閉源模型。在內部評測中,DeepSeek-V4-Pro-Max 超過了 Claude Sonnet 4.5,并接近 Claude Opus 4.5 的水平。

  • 在支持 100 萬 token 上下文窗口的情況下,DeepSeek-V4-Pro-Max 在合成任務和真實場景中均表現出色,甚至在學術基準測試中超過了 Gemini-3.1-Pro。


相比 DeepSeek-V4-Pro-Max,DeepSeek-V4-Flash-Max 由于參數規模更小, 在知識類評估中的表現略低。但在給予更大思考預算時,其推理任務表現可以接近 DeepSeek-V4-Pro-Max。

在 Agent 評測中,DeepSeek-V4-Flash-Max 在部分基準上能夠與 DeepSeek-V4-Pro-Max 持平,但在更復雜、高難度任務中仍存在差距。


算力支持

值得注意的是,對于行業最關注的國產算力落地,DeepSeek 在技術報告中指出,他們在 NVIDIA GPU 和華為 Ascend NPU 平臺上,對細粒度 EP(Expert Parallelism)方案進行了驗證。

另一方面,華為昇騰超節點系列產品也宣布全面支持,本次通過雙方芯模技術緊密協同,實現異騰超節點全系列產品支持 DeepSeek V4 系列模型。



API 同步開放:無縫兼容主流接口,一鍵接入最強開源長上下文

時下 DeepSeek?V4 API 已同步上線,支持 OpenAI ChatCompletions 與 Anthropic 接口規范。

訪問新模型時,base_url 不變, model 參數需要改為 deepseek-v4-pro 或 deepseek-v4-flash。


另外,DeepSeek 官方還提到,舊有的 API 接口的兩個模型名 deepseek-chat 與deepseek-reasoner 將于三個月后(2026-07-24)停止使用。當前階段內,這兩個模型名分別指向 deepseek-v4-flash 的非思考模式與思考模式。

普通用戶可直接登錄 DeepSeek 官網或官方 App,體驗 100 萬 Token 上下文帶來的震撼能力:一次性上傳整本書、整個項目代碼、整份合同文檔,實現真正的 “一次性讀懂、全程記憶、深度推理”。

DeepSeek?V4 的到來,不只是一次模型升級,更是開源大模型進入 “百萬上下文高效時代” 的標志。它用架構創新證明:超長上下文不必靠暴力算力,小激活參數也能擁有頂級推理。

開源地址:

  • https://huggingface.co/collections/deepseek-ai/deepseek-v4

  • https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4

技術報告:

  • https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

「粉絲專屬回饋:60+ 頂級大廠 AI 實戰 PPT 限時領!」

2026 奇點智能技術大會·上海站圓滿落幕!整整兩天,CSDN 與奇點智能研究院攜手,把“AI 正在如何重塑軟件開發”徹底攤開講透了。

這不僅僅是一場會議,更是一份關于未來的答案。從 NVIDIA、微軟、Google 的全球視野,到華為、阿里、騰訊、京東、網易、快手、昆侖萬維的本土實踐;從月之暗面、階躍星辰、MiniMax 的獨角獸洞察,再到北大、智源、奇點智能研究院的前沿探索。

Agent 正在成為新入口,軟件形態正在被重寫。

錯過了現場?沒關系!為回饋粉絲,我們特將本次大會的高質量演講 PPT 完整打包。

領取方式: 在公眾號后臺私信發送 「奇點」 二字,即可一鍵獲取全套干貨。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中國19號底牌一亮相,美國才意識到嚴重性:真正的變局已經開始

中國19號底牌一亮相,美國才意識到嚴重性:真正的變局已經開始

南宗歷史
2026-04-26 04:53:55
駐日武官王慶簡:為日本潛伏20年出賣軍事機密,卻因一動作暴露身份

駐日武官王慶簡:為日本潛伏20年出賣軍事機密,卻因一動作暴露身份

睡前講故事
2026-02-03 20:55:43
差距懸殊!胡歌飯局雪茄曝光,普通人根本消費不起

差距懸殊!胡歌飯局雪茄曝光,普通人根本消費不起

南萬說娛26
2026-04-24 10:33:19
央視紅人洛桑之死,時隔25年后,搭檔博林坦白:他根本沒喝多少酒

央視紅人洛桑之死,時隔25年后,搭檔博林坦白:他根本沒喝多少酒

漫婷侃娛樂
2026-04-26 13:27:40
經常“放屁”是肝不好嗎?提醒:放屁多很可能與這5種疾病有關!

經常“放屁”是肝不好嗎?提醒:放屁多很可能與這5種疾病有關!

芹姐說生活
2026-04-25 16:12:39
“香港演員幾乎全軍覆沒! 無戲可拍”引發網友熱議

“香港演員幾乎全軍覆沒! 無戲可拍”引發網友熱議

許三歲
2026-03-26 11:35:13
250萬賠償不算啥?官方介入,崔麗麗事件“創先河”,釋放3大信號

250萬賠償不算啥?官方介入,崔麗麗事件“創先河”,釋放3大信號

天天熱點見聞
2026-04-25 06:27:01
鄭維山本來已交接準備回國,聽聞韓總統不服,掉頭怒殲28000韓軍

鄭維山本來已交接準備回國,聽聞韓總統不服,掉頭怒殲28000韓軍

談古論今歷史有道
2026-04-25 10:55:03
班主任連帶出5屆狀元,評優卻沒她,被私立學校挖走后,校長上門

班主任連帶出5屆狀元,評優卻沒她,被私立學校挖走后,校長上門

卡西莫多的故事
2025-11-18 10:27:13
不聽趙本山勸告,拋棄發妻凈身出戶,轉身迎娶小19歲“女兒閨蜜”

不聽趙本山勸告,拋棄發妻凈身出戶,轉身迎娶小19歲“女兒閨蜜”

曉徙娛樂
2026-04-26 09:26:43
打臉詹黑?比斯利辟謠詹姆斯單挑被自己打爆!

打臉詹黑?比斯利辟謠詹姆斯單挑被自己打爆!

歷史第一人梅西
2026-04-26 14:37:36
恭喜這3生肖,明年比今年更富,實力與福氣疊加,日子越過越富

恭喜這3生肖,明年比今年更富,實力與福氣疊加,日子越過越富

毅談生肖
2026-04-26 11:28:40
尚界汽車法務部官方微博上線

尚界汽車法務部官方微博上線

三言科技
2026-04-24 08:03:35
阿里云 1053 億、份額增 2.7%;華為云 436 億、降 2.1%;騰訊云 292 億、降 0.3%

阿里云 1053 億、份額增 2.7%;華為云 436 億、降 2.1%;騰訊云 292 億、降 0.3%

云頭條
2026-04-24 15:41:03
越南一渣男用私密視頻要挾前女友:強迫她與9個陌生男人發生關系,自己收錢

越南一渣男用私密視頻要挾前女友:強迫她與9個陌生男人發生關系,自己收錢

緬甸中文網
2026-04-26 13:19:20
抓抽煙沒空,刪帖1小時上門:深圳速度快得讓人膽寒

抓抽煙沒空,刪帖1小時上門:深圳速度快得讓人膽寒

虔青
2026-04-25 22:10:10
兩名襲擊者全程戴頭盔,高喊侮辱先知,監控拍下瘋狂砍殺近四分鐘

兩名襲擊者全程戴頭盔,高喊侮辱先知,監控拍下瘋狂砍殺近四分鐘

獨舞獨舞
2026-04-26 07:54:46
特朗普抨擊哈里王子訪烏,俄市民哀嘆烏克蘭襲擊后當地像廣島和切爾諾貝利 | 狼叔看世界

特朗普抨擊哈里王子訪烏,俄市民哀嘆烏克蘭襲擊后當地像廣島和切爾諾貝利 | 狼叔看世界

狼叔看世界
2026-04-24 15:29:22
22噸!黃金,再現大拋售

22噸!黃金,再現大拋售

中國基金報
2026-04-25 18:25:44
鹽城城投 “超級內循環”:肥水不流外人田,民企還能分幾杯羹?

鹽城城投 “超級內循環”:肥水不流外人田,民企還能分幾杯羹?

MC洋洋拍客
2026-04-24 16:52:05
2026-04-26 15:11:00
CSDN incentive-icons
CSDN
成就一億技術人
26482文章數 242272關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

特朗普2年內遭遇4次刺殺威脅 第一個任期也曾險遭襲擊

頭條要聞

特朗普2年內遭遇4次刺殺威脅 第一個任期也曾險遭襲擊

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《八千里路云和月》大結局意難平

財經要聞

DeepSeek V4背后,梁文鋒的轉身

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

游戲
數碼
手機
藝術
房產

Pearl Abyss 正式發布《紅色沙漠》首張官方原聲音樂專輯

數碼要聞

小米截至2025年底全球授權專利超4.5萬項 智能座艙專利中國第一

手機要聞

vivo Y600 Pro手機現身中國電信終端產品庫,4月27日發布

藝術要聞

鄭麗文訪問清華附中引發熱議,蔣中正信札字跡真實性遭質疑

房產要聞

新一輪教育大爆發來了!海口,開始瘋狂建學校!

無障礙瀏覽 進入關懷版