網易首頁 > 網易號 > 正文 申請入駐

DeepSeek V4還是神:架構極度聰明,昇騰“原生”,接下來和華為一起讓token大降價

0
分享至


作者:王兆洋 + DeepSeek V4 專家模式

V4 終于終于終于終于是來了。

而且它不在假期,不在深夜,而是突然就發了。模型,開源權重,技術報告和官方的文章同時發給所有人。

官方給出的亮點是“百萬上下文的普惠”。但顯然,這個模型里DeepSeek做的創新工作還是非常的多。


一如既往的,它的技術報告是今天比讀任何新聞都過癮的存在。

這一次V4最讓人欣喜的是,它的架構依然在進化,且依然極度聰明。它告訴整個 AI 圈一件事:不用堆參數,不用買更多卡,僅靠對注意力機制和訓練方式的重新發明,就能把百萬 token 長文本的門檻踩到地板上。

而且,外界一直在關注的用“華為芯片”訓練的問題,也終于有所揭曉:這次華為昇騰的名字,是和 NVIDIA 并列寫在驗證平臺里的。雖然從技術報告來看,訓練部分依然大概率用的英偉達芯片,但在與昇騰的適配上,它顯然達到了前所未有的“原生”水平。這后面的意味,比跑分更有意思。

而在官方文檔里,API價格的地方有一行小字:

受限于高端算力,目前Pro的服務吞吐十分有限,預計下半年昇騰950超節點批量上市后,Pro的價格會大幅下調。


這同樣讓人浮想聯翩,且讓人對未來更加期待。

27% 和 10%,這兩個數字定義了什么叫“效率革命”

看看技術報告里的硬數據。基準是 DeepSeek-V3.2——本身已經是一個效率很高的模型。

在 100 萬 token 上下文下(大約能裝三部《三體》),DeepSeek-V4-Pro——1.6 萬億參數,激活 49B——處理一個新 token 需要的算力只有 V3.2 的 27%,KV 緩存只占 10%

而小杯 DeepSeek-V4-Flash:284B 參數,激活僅 13B,算力只要 10%,緩存只要 7%。

一個容易被忽略的細節:報告明確標注,單 token 推理算力的單位是等效 FP8 FLOPs。這不是拿低精度取巧,而是已經換算到和 V3.2 相同的精度標準去比。而且,V4 系列的路由專家權重還用了 FP4 精度,報告特別指出,現有硬件上 FP4 和 FP8 的峰值算力相同,但未來硬件上 FP4 可以再高出三分之一的效率。換句話說,現在的數字還不是天花板,等昇騰 950 這類新硬件到位,還有一波可挖的潛力。

長上下文,正在從奢侈品變成日用品。


憑什么能做到?兩大壓縮注意力,從根源上做手術

傳統 Transformer 處理長文本的死穴:序列長度加 N 倍,注意力計算量平方級爆炸,KV 緩存線性膨脹。這個瓶頸不破,百萬 token 就只是論文里的數字。

DeepSeek V4 的辦法不是湊合,而是直接改造注意力機制本身。總體架構上,注意力層采用 CSA 和 HCA 交錯配置,前饋層沿用 DeepSeekMoE,殘差連接用 mHC 加強。核心是兩種新注意力。

CSA——壓縮稀疏注意力

CSA 的數據流分三路并行。KV token 的隱藏狀態同時進入三個模塊:一個 Token-Level Compressor 負責把每 4 個 token 的 KV 緩存壓縮成一個條目;一個 Lightning Indexer 生成“索引鍵”,用于后續的匹配打分;同一個索引器還生成“索引分數”。查詢 token 的隱藏狀態則單獨進入 Lightning Indexer,生成查詢側的索引分數。兩邊一合,送入 Top-k 選擇器,從所有壓縮塊中只挑出最相關的 512 個(Pro 版是 1024 個)。最后,這些選中的壓縮塊和滑動窗口里保留的 128 個原始 token 拼在一起,送進核心的多查詢注意力計算。


索引器的實現細節:查詢端先降維到 dc=1024,減少參數量,再升維到多頭索引查詢,配合 ReLU 激活后與壓縮索引鍵計算分數。這一整套不是簡單的“截斷”,是學出來的動態篩選——哪些信息重要、哪些可以忽略,由模型自己在訓練中決定。

HCA——重度壓縮注意力

和 CSA 不同,HCA 去掉了整個稀疏選擇鏈路——沒有 Lightning Indexer,沒有 Top-k Selector。數據流非常直接:KV token 隱藏狀態經過 Token-Level Compressor 壓縮(壓縮比 m'=128,遠大于 CSA 的 4),得到的壓縮條目直接與滑動窗口 KV 拼在一起,送進 MQA。因為每條目覆蓋 128 個 token,條目總量已經很少,全量算也不貴,省掉了篩選環節。這是為了抓全局結構,避免模型“只見樹木不見森林”。

兩種注意力都額外配了一個滑動窗口,保留最近 128 個 token 的原始 KV 不壓縮,確保局部依賴沒有精度損失。同時還用了注意力沉降技術——給每個頭一個可學習的 sink logit,加到注意力的分母里,讓每個頭可以選擇“什么都不關注”。


另外,報告透露了一個重要的工程決定:CSA 和 HCA 在 Query 和 KV 上只對最后 64 個維度施加 RoPE 位置編碼,其他維度不編碼。同時 KV 緩存采用混合精度存儲——RoPE 維度用 BF16,其余維度用 FP8——又把緩存砍掉近一半。

而這套注意力架構要真正落地,緩存管理也必須重新設計。V4 的 KV 緩存被拆成兩大塊:一塊是“狀態緩存”,每個請求分一個固定大小的區域,存滑動窗口最近 128 個 token 的 KV,以及 CSA/HCA 中還沒攢夠 4 個或 128 個 token、暫時無法壓縮的“尾料”。


另一塊是“經典緩存”,存已經壓縮好的條目。經典緩存里,每個塊覆蓋的原始 token 數是兩種壓縮比(4 和 128)的最小公倍數,這樣同一塊里 CSA 和 HCA 的壓縮結果都能對齊——CSA 產 32 個壓縮條目,HCA 產 1 個——不會因為兩種壓縮率不一致導致碎片化管理。這套緩存布局,是百萬上下文能從實驗室走進生產環境的關鍵工程基礎設施。


所以這套方案是壓縮、稀疏化、混合精度、滑動窗口、注意力沉降、精細緩存管理多管齊下。局部細節、中段關聯、全局脈絡,全抓住了,算力開銷斷崖式下降。

也就是說, 傳統注意力機制要求每個 token 和歷史上所有 token 都做一次交互,歷史多長,活兒就多沉。DeepSeek V4 做的,是把“記憶”本身先整理成層次化的摘要——有些是每一小段的凝練,有些是每一章的概括,再加上眼前幾句話的原文。需要調用哪一層、哪一段,由模型自己根據當前要解決的問題即場判斷。內存里不再存一座山,算力不用翻整座山,百萬上下文的成本自然下來了。

Muon 和 mHC:訓練上的降本增效

架構的聰明不止在推理側。報告用專門章節講了兩項訓練優化。

一個是此前已經被放出來過的 Muon 優化器。

大多數優化器拿到梯度,一個參數一個參數地調。Muon 不這么干。它把整個梯度矩陣做一步“捋正”運算,讓各行更新方向相互獨立、不打架。效果就是每次更新都踩在最干凈的方向上,同樣步數學到更多,變相省算力。為了配合 Muon,分布式策略也改了:稠密參數限制切分,每個 GPU 最多管五個完整矩陣;MoE 參數直接拼成大向量等分,不切單個矩陣。梯度通信還做了 BF16 量化,砍掉一半通信量。

另一個是 mHC——流形約束超連接。

深層網絡的老大難是信號穿幾十層,要么逐層放大到溢出,要么衰減到消失。mHC 的解法是給殘差連接加個數學籠子——強制每層的混合矩陣滿足“每行每列和為 1,元素非負”。這保證了無論怎么傳,幅度不發散。

實現上,DeepSeek V4 拿到參數后,做 20 次交替的行歸一化和列歸一化,硬把矩陣拉回約束集合。報告承認萬億參數訓練遇到了損失尖峰,但用兩招解決了:“預判路由”打破路由和主網絡的同步更新循環,“SwiGLU 截斷”把激活值鉗在 [-10,10]。

一如既往的,數學上很干凈,工程上訓練不崩。

后訓練更絕:分頭訓專才,再無損蒸餾

DeepSeek V4 的后訓練流程也很有想法,報告用第五章詳述了這套“先分后合”的工藝。

第一步,分別對代碼、數學、智能體、指令遵循等方向獨立訓練專家模型。每個專家都先做 SFT 打底,再用 GRPO 強化學習,配合領域專屬的獎勵模型。連獎勵模型本身也是生成式的——讓模型同時學會“判卷”和“答卷”,減少對人類標注的依賴。

報告中很有意思的一點是為不同推理模式設了三種檔位:Non-think(無思考標簽,快速回答)、Think High(顯式思維鏈但受控長度)、Think Max(極限思維模式,給特殊系統提示同時放寬長度懲罰)。三種模式在 RL 訓練時分別用不同的上下文窗口和懲罰系數,讓同一套權重能根據場景切推理深度。

第二步,用在策略蒸餾把所有專才的知識融合到一個統一模型里。關鍵是,他們做的不是 token 級近似,而是全詞表級別的反向 KL 散度——保持教師完整的 logit 分布。這帶來了巨大的計算壓力:詞表 128K,十多個老師,每個都是萬億參數級別。報告給出的解決路徑是:教師權重從中心化存儲按需加載;不存完整 logits,只緩最后一層隱藏狀態,訓練時即時重算;按教師索引排序樣本,保證同一時刻 GPU 上只有一個教師頭。這些都是生產環境才會碰到的硬問題。

效果直接反映在基準上。Pro Max 在知識基準 SimpleQA 拿下 57.9,比開源最佳高出 20 個點;數學 Putnam 2025 做到 120/120 滿分;Codeforces 評分在人類選手中排第 23。這三個分屬不同類型的任務同時沖頂,背后的路線選擇是被驗證了的。


“細粒度通信-計算重疊”和昇騰“原生”

報告里另一個讓所有人都非常關注的事情,就是:它和華為昇騰到底是什么關系。

報告 3.1 節原文是:“我們在 NVIDIA GPU 和華為昇騰 NPU 兩個平臺上驗證了這個細粒度的專家并行方案。”兩個平臺并列,寫在驗證結論里。


這套方案的核心是把 MoE 的通信和計算切成更細的顆粒,按“波”調度。每個波只含一小部分專家,這個波的通信一完成立刻開始計算,同一時刻,下一個波的通信和上一個波的結果回傳同步進行。報告里的加速比數據是:通用推理 1.50–1.73 倍,RL 長尾小批次最高 1.96 倍。


報告還給了硬件設計公式:每 GBps 通信帶寬對應 6.1 TFLOP/s 算力,通信就能被完全隱藏。這意味著 DeepSeek 在用架構告訴硬件廠商:不用卷帶寬,按這個比例配算力就行。這比適配某個具體型號高一個維度——是定義需求。昇騰 950 如果按這個配比來設計,跑 V4 就能把利用率拉到滿。

你可以這樣理解,MoE 每次計算都要在不同 GPU 之間搬運中間結果,以前是搬完才算,搬運時長全在等。現在是把搬運拆碎,搬一小批就算一小批,算的同時繼續搬下一批。結果就是搬運時間被計算時間吃掉了,用戶感覺不到等。這套機制不挑硬件,只要算力和帶寬的比例到位,NVIDIA 還是昇騰都能跑出高利用率。

報告也提到了用 TileLang 做算子開發,配合 Z3 SMT 求解器自動驗證和優化;同時要求訓練推理“批次不變”和“確定性”——同一個 token 無論和誰一批、在什么硬件上,輸出比特級一致。這對昇騰這種新硬件的調試和部署是基礎設施級的支持。

雖然開源 MegaMoE 內核還是 CUDA 版,主力訓練集群大概率仍是 NVIDIA,但架構上已經把適配昇騰的土壤翻松了、路鋪平了。

加上報告公開說 FP4 在未來硬件上還能再提效三分之一,以及官方文檔里那句“預計下半年昇騰 950 超節點批量上市后 Pro 價格大幅下調”,信號已經不能更明確了。

看完V4的報告,感觸它想得夠清楚。

過去兩年,行業解決長文本問題的主流思路本質上是在堆資源。要么堆顯存,把KV緩存硬塞進去;要么堆算力,讓芯片更快一點。這條路走到現在,邊際效益已經很明顯了。

DeepSeek V4換了一個完全不同的方向——不再追著“怎么能扛住”不放,而是問“這東西真的需要全記住嗎”。CSA和HCA本質上是讓模型在記憶的時候就有了層次感,細顆粒的、粗顆粒的、最近的原文,各存各的。這不再是工程上的妥協,而是架構層面對“什么值得記住”這個問題的重新回答。思路一旦轉過來了,效率的提升就是數量級的。

而這套東西還有一個容易被低估的價值,就是它讓硬件的選擇權回到了算法這邊。

過去芯片決定模型能跑多長的上下文,帶寬不夠就不行。V4這套壓縮加波浪調度的方案出來后,算和搬的比例被一個公式定義清楚了。這意味著不是算法去適配硬件,而是算法在告訴硬件應該怎么設計。昇騰被寫進驗證平臺、FP4留出三分之一效率冗余,這些細節放在一起看,就知道它從一開始就沒打算綁定某一家。這種獨立性,在現在這個時間點,比性能本身更有分量。

V4的神就在這里。

它再次給大家提供了一個更聰明的選擇。

「不誘于譽,不恐于誹,率道而行,端然正己。」這是DeepSeek官方公告里的一句與其他內容都不同的話,這句話也幾乎是V4的特質,它讓人繼續對DeepSeek接下來的目標充滿期待。

點擊關注我哦

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
整整70艘驅逐艦,配備4700發垂發導彈,追美國海軍,進入關鍵時刻

整整70艘驅逐艦,配備4700發垂發導彈,追美國海軍,進入關鍵時刻

愛吃醋的貓咪
2026-04-25 23:03:26
雷霆大勝太陽3-0奪賽點:亞歷山大42+8 狄龍33+7格林26分

雷霆大勝太陽3-0奪賽點:亞歷山大42+8 狄龍33+7格林26分

醉臥浮生
2026-04-26 06:03:31
美國一查中國家底才發現不得了,難怪中國人的底氣這么足

美國一查中國家底才發現不得了,難怪中國人的底氣這么足

混沌錄
2026-04-25 15:28:07
體育局正式宣布,陳夢走馬上任

體育局正式宣布,陳夢走馬上任

最愛乒乓球
2026-04-26 00:04:52
49.98萬元起!全新一代問界M9系列72小時預訂量突破25000臺:同檔最火SUV

49.98萬元起!全新一代問界M9系列72小時預訂量突破25000臺:同檔最火SUV

快科技
2026-04-25 23:16:13
山西村支書駕鏟車掩埋村民,現場有多名民警。被埋村民仍在住院

山西村支書駕鏟車掩埋村民,現場有多名民警。被埋村民仍在住院

聽心堂
2026-04-24 21:15:50
21歲擊敗王菲的童顏巨乳富婆,巔峰期卻選擇主動過氣

21歲擊敗王菲的童顏巨乳富婆,巔峰期卻選擇主動過氣

悠悠說世界
2026-04-25 14:03:58
東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

番外行
2026-03-31 08:28:28
雷電+10級雷雨陣風,“強對流”襲魯!青島的雨+大風馬上到貨,將持續到明天→

雷電+10級雷雨陣風,“強對流”襲魯!青島的雨+大風馬上到貨,將持續到明天→

先鋒新聞
2026-04-26 08:17:07
遼、吉兩省發布聯合通告

遼、吉兩省發布聯合通告

吉刻新聞
2026-04-25 10:43:19
丁俊暉扛了19年,趙心童跪地鼓掌:這一跪,是中國斯諾克最體面的傳承

丁俊暉扛了19年,趙心童跪地鼓掌:這一跪,是中國斯諾克最體面的傳承

帶你逛體壇
2026-04-25 15:54:08
工資爆炸式增長是怎樣的感覺 看網友講述自己的來時路   五體投地

工資爆炸式增長是怎樣的感覺 看網友講述自己的來時路 五體投地

侃神評故事
2026-04-24 17:15:03
大齡剩女可以破防到什么程度?發朋友圈且通知媒人,還向家人告狀

大齡剩女可以破防到什么程度?發朋友圈且通知媒人,還向家人告狀

丫頭舫
2026-04-24 20:40:08
DeepSeek聯手華為掀桌子后,黃仁勛給英偉達下達了死命令

DeepSeek聯手華為掀桌子后,黃仁勛給英偉達下達了死命令

南宗歷史
2026-04-25 10:12:48
斯諾克世錦賽26日凌晨!世界冠軍被淘汰,3連鞭,趙心童9-7丁俊暉

斯諾克世錦賽26日凌晨!世界冠軍被淘汰,3連鞭,趙心童9-7丁俊暉

帛河體育
2026-04-26 00:44:20
任正非:偌大中國,有幾個在踏實讀書?博士論文真知灼見有多少?

任正非:偌大中國,有幾個在踏實讀書?博士論文真知灼見有多少?

新浪財經
2026-04-25 08:09:43
拉什福德回歸英超成定局,熱刺欲接盤,巴薩徹底放棄買斷

拉什福德回歸英超成定局,熱刺欲接盤,巴薩徹底放棄買斷

美學科技怪
2026-04-26 06:44:08
簡直是霸王條款!男子花21999元網購三星三折疊手機 被要求必須當面激活才能簽收

簡直是霸王條款!男子花21999元網購三星三折疊手機 被要求必須當面激活才能簽收

閃電新聞
2026-04-25 08:55:39
10年前,易建聯花1000萬在洛杉磯買下豪宅,如今出售市值多少?

10年前,易建聯花1000萬在洛杉磯買下豪宅,如今出售市值多少?

阿庫財經
2026-04-24 14:26:45
全變味了?蘇超開幕不到半月,不對勁的一幕上演,輿論風向又變了

全變味了?蘇超開幕不到半月,不對勁的一幕上演,輿論風向又變了

墨印齋
2026-04-25 18:07:43
2026-04-26 08:32:49
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先進入GenAl。
274文章數 38關注度
往期回顧 全部

科技要聞

DeepSeek V4發布!黃仁勛預言的"災難"降臨

頭條要聞

小伙被困隧道給母親留遺言:我救了個人可能出不去了

頭條要聞

小伙被困隧道給母親留遺言:我救了個人可能出不去了

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《我們的爸爸2》第一季完美爸爸翻車了

財經要聞

90%訂單消失,中東旺季沒了

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態度原創

親子
本地
教育
手機
公開課

親子要聞

總感覺她們兩是上輩子的情人!

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

教育要聞

90后科學老師用塑料桶手搓4米高水火箭!

手機要聞

停更一年憋大招!小米大折疊攜玄戒O3回歸,系統也是新的

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版