網易首頁 > 網易號 > 正文申請入駐

DeepSeek V4：一句"下半年上國產算力"，比所有發布會都重要

2026-04-24 15:44:37　來源: 星海情報局

北京舉報

分享至

他來了，他來了，他帶著V4走來了。

前兩天我們才聊過DeepSeek融資的事兒，今天V4就上新了，普天同慶了屬于是。

上一次DeepSeek引發全球震動，是2025年初V3正式發布的時候。那一次，一個中國團隊用據稱不到600萬美元的算力成本，訓練出了一個可以和GPT-4正面競爭的模型，然后把它開源，整個硅谷集體失語了幾天，英偉達股票直接一波暴跌。

之后的一年，AI圈的發布節奏快得令人眩暈。Anthropic發了Claude 4系列，Google推了Gemini-Pro-3.1，OpenAI在o系列上持續迭代，最近更是恐怖，一周時間里，我們相繼見證了image 2.0和GPT-5.5的發布，全球AI領域堪稱是“勃勃生機，萬物競發”的境界。

而DeepSeek那邊，只發了幾個不算引人注目的中間版本：V3.1、V3.2-Exp，每次跑分和前代差不多，看起來像是在原地踏步。

關于V4什么時候發的傳言從2025年底就沒停過。有人說是和之前一樣在春節前，結果卻是一直等到了四月底。

然后零幀起手，毫無預警，DeepSeek把V4放出來了。同步開源，同步上線官網和App，同步更新API。發布稿結尾引了一句荀子：「不誘于譽，不恐于誹，率道而行，端然正己。」

現在回頭看那些"沒什么亮點"的中間版本，才明白那是在鋪路。

V4是什么

這次V4一口氣發了兩個版本。

DeepSeek-V4-Pro，總參數1.6萬億，每次推理激活49億。定位是對標頂級閉源模型的旗艦版本。DeepSeek-V4-Flash，總參數2840億，激活130億，是更小更快的經濟版本。

理解這兩個數字需要先理解V4的架構。

V4采用的是MoE（混合專家）架構，模型內部有大量"專家"子網絡，每次處理一個token時，由路由機制決定激活哪幾個專家參與計算。這意味著，V4-Pro雖然有1.6萬億參數，但實際每次推理的計算量更接近一個490億參數的稠密模型。總參數決定知識容量，激活參數決定推理成本，這是MoE架構最核心的商業邏輯。

為什么這個原理很重要呢？

因為推理成本主要由激活參數量決定，不是總參數量。

所以V4-Pro的實際推理開銷更接近一個49B的稠密模型，而不是1.6T。但它的"知識容量"理論上接近1.6T，因為不同token會激活不同的專家組合。

打個簡單的比方就是：一家公司有1600個員工，個個都身懷絕技，每個項目只調49人上陣，但可以按需組合不同專家。

在能力評估上，DeepSeek的官方定位有幾個值得注意的地方。

首先，他們沒有回避上限，這本身就是一種坦然和自信。發布稿明確寫道，V4-Pro的Agent能力優于Sonnet 4.5，交付質量接近Opus 4.6非思考模式，但仍與Opus 4.6思考模式存在一定差距。這種有上限有下限的寫法，在國內AI發布稿里相對罕見，反而增加了可信度。

其次，能力的分布是不均勻的。在數學、STEM、競賽型代碼等推理密集的任務上，V4-Pro聲稱超越所有開源模型，比肩頂級閉源。這和DeepSeek歷來的強項一致。但在世界知識方面——也就是對事實性信息的覆蓋廣度——V4-Pro僅稍遜于Gemini-Pro-3.1，大幅領先其他開源模型。世界知識這塊的差距來自數據，Google有Search索引和更大規模網頁抓取的結構性優勢，這不是算法可以短期彌補的。

V4-Flash的定位是明確的性價比選擇。推理能力接近Pro，世界知識稍遜，但因為激活參數只有13B，API價格更便宜，響應更快。在Agent測評中，Flash在簡單任務上和Pro旗鼓相當，復雜任務上有明顯差距。對于大多數實際部署場景，Flash可能是更合理的默認選擇。

1M上下文：從王牌變成基本操作

這是V4最值得認真對待的變化，但理解它需要一點背景。

一年前，百萬token的上下文窗口是Gemini的獨家特性，是Google用來區隔競爭對手的產品王牌。彼時其他所有主流模型，閉源的要么128K要么200K，開源的幾乎沒人能在這個量級上做到可用。1M上下文意味著可以把一整部長篇小說、一個大型代碼庫、幾十份研究報告同時塞進模型的"工作記憶"里。這是一種質變，不只是量變。

今天，DeepSeek把1M上下文定成了所有官方服務的標配，并且開源。

問題是：為什么現在可以做到了？

傳統Transformer架構有一個根本性的擴展難題：注意力機制的計算量隨上下文長度平方級增長。上下文翻倍，計算量變四倍。這意味著把上下文從128K擴展到1M，理論上計算量會增長約60倍。在這個約束下，1M上下文要么需要極大的算力投入，要么速度慢到不可用，要么兩者兼而有之。

V4的回答是DSA，DeepSeek Sparse Attention，稀疏注意力機制。

用大白話解釋一下就是：想象你在讀一本1000頁的書，你要回答的問題是"第500頁的觀點和哪些內容有關"。笨辦法是把第500頁和其他999頁逐一比較，一共做999次比較。頁數翻倍，工作量變四倍——這就是平方增長的問題。

聰明辦法分兩步：

第一步（DSA）：先粗略掃一眼，判斷哪些頁面可能相關，只精讀那幾十頁，其他的直接跳過。大多數頁面和第500頁根本沒關系，不算也不會影響答案。

第二步（token壓縮）：就算是那幾十頁"相關頁面"，也不需要一字不差地讀，可以先把每頁壓縮成一段摘要，用摘要來做比較。信息量再縮一輪。

兩步疊加之后，書從1000頁變成2000頁，工作量不再是原來的四倍，而是大概兩倍多——增長曲線被壓平了。

這就是V4能把1M上下文做得既長又不貴的核心原因。。

這個架構的種子早在V3.2-Exp就已經種下。當時外界幾乎沒有人注意到DSA的引入，因為跑分變化不大，看起來像是一次無聊的中間版本。現在回頭看，那是在用一個低調的版本驗證新架構在生產環境下的穩定性。V3.2是V4的地基，不是一次失敗的嘗試。

1M上下文變成開源標配的意義，不在于數字本身，而在于成本曲線的改變。這個技術壁壘一旦被打穿并且開源，任何團隊都可以在這個架構基礎上繼續迭代。長上下文從一個"有足夠算力才能玩"的高端功能，變成了任何人都能用的基礎能力。

這對Agent應用的影響尤其直接。

Agent任務的一個核心約束一直是上下文管理：任務鏈越長，需要維護的狀態越多，有限的上下文窗口很快就成為瓶頸。1M窗口意味著Agent可以在一個更長的操作鏈里保持狀態連貫，處理更大規模的代碼庫，跨越更多文檔進行推理。

這也部分解釋了為什么V4在Agent評測上的提升幅度如此顯著——不只是模型變聰明了，底層條件也發生變化了。

國產算力：一條不依賴英偉達的路

發布稿里有一句話被很多人忽略了：下半年批量上國產算力。

這句話的分量，需要放在過去兩年的地緣政治背景里才能看清楚。

2023年以來，美國對華芯片出口管制持續升級，英偉達H100、H800、A100相繼被限制出口中國。這對中國AI公司的算力供給構成了實質性壓力。訓練和部署大型語言模型需要大量高端GPU，而可以合法獲得的選項越來越少。

DeepSeek此前的訓練主要依賴英偉達算力，V3的訓練用的是H800集群。但隨著出口管制收緊，這條路的可持續性越來越存疑。

昇騰系列是目前國內最成熟的替代方案。這次發布稿里，昇騰方面提供了相當詳細的技術數據。昇騰950超節點上，V4-Pro的推理延遲可以達到TPOT 20毫秒，V4-Flash達到10毫秒。

當然，這些數字都是在離線推理模式下采集的，不包含實際服務調度的負載，現實部署中的數字會有折扣。但方向是明確的：昇騰已經能夠支撐V4系列模型的量產部署，不再只是實驗室里的備選方案。

"下半年批量上國產算力"意味著什么？至少有兩個層面的含義。

第一層是供給安全。如果DeepSeek能在昇騰上實現和英偉達相近的推理性能，那么算力供給就不再是一個單點風險。出口管制的影響會被部分對沖。

第二層是生態信號。DeepSeek是中國最具影響力的開源模型之一，如果它正式在昇騰上規模部署，會帶動整個開源社區和下游應用去適配昇騰生態。這對國產算力來說是一個遠比單純硬件銷售更有價值的背書。

不過，無論如何吧，DeepSeek和國產算力的深度綁定，是這次發布里最具長期戰略意義的一筆——算是從底子上開辟新格局，有自己的生態了。

雖然說現在還是有一定的遺憾，但能看出來，時期

V4發布稿結尾引的那句荀子的話，放在整個故事的語境里有點意味深長：

不誘于譽，不恐于誹，

率道而行，端然正己。

走自己的路，讓他們說去吧！

這個節奏本身，也許就是他們最想傳遞的信息。

▲見證中國科技奔赴星辰大海

專注產業鏈分析和案例寫作

關注AI、互聯網、汽車、消費電子

半導體等前沿科技產業

入駐媒體平臺

36Kr/ 觀察者網風聞社區/ 網易

虎嗅/ 雪球/ 騰訊新聞

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.