網易首頁 > 網易號 > 正文 申請入駐

DeepSeek V4還是神:架構極度聰明,昇騰“原生”,接下來和華為一起讓token大降價

0
分享至


作者:王兆洋 + DeepSeek V4 專家模式

V4 終于終于終于終于是來了。

而且它不在假期,不在深夜,而是突然就發了。模型,開源權重,技術報告和官方的文章同時發給所有人。

官方給出的亮點是“百萬上下文的普惠”。但顯然,這個模型里DeepSeek做的創新工作還是非常的多。


一如既往的,它的技術報告是今天比讀任何新聞都過癮的存在。

這一次V4最讓人欣喜的是,它的架構依然在進化,且依然極度聰明。它告訴整個 AI 圈一件事:不用堆參數,不用買更多卡,僅靠對注意力機制和訓練方式的重新發明,就能把百萬 token 長文本的門檻踩到地板上。

而且,外界一直在關注的用“華為芯片”訓練的問題,也終于有所揭曉:這次華為昇騰的名字,是和 NVIDIA 并列寫在驗證平臺里的。雖然從技術報告來看,訓練部分依然大概率用的英偉達芯片,但在與昇騰的適配上,它顯然達到了前所未有的“原生”水平。這后面的意味,比跑分更有意思。

而在官方文檔里,API價格的地方有一行小字:

受限于高端算力,目前Pro的服務吞吐十分有限,預計下半年昇騰950超節點批量上市后,Pro的價格會大幅下調。


這同樣讓人浮想聯翩,且讓人對未來更加期待。

27% 和 10%,這兩個數字定義了什么叫“效率革命”

看看技術報告里的硬數據。基準是 DeepSeek-V3.2——本身已經是一個效率很高的模型。

在 100 萬 token 上下文下(大約能裝三部《三體》),DeepSeek-V4-Pro——1.6 萬億參數,激活 49B——處理一個新 token 需要的算力只有 V3.2 的 27%,KV 緩存只占 10%

而小杯 DeepSeek-V4-Flash:284B 參數,激活僅 13B,算力只要 10%,緩存只要 7%。

一個容易被忽略的細節:報告明確標注,單 token 推理算力的單位是等效 FP8 FLOPs。這不是拿低精度取巧,而是已經換算到和 V3.2 相同的精度標準去比。而且,V4 系列的路由專家權重還用了 FP4 精度,報告特別指出,現有硬件上 FP4 和 FP8 的峰值算力相同,但未來硬件上 FP4 可以再高出三分之一的效率。換句話說,現在的數字還不是天花板,等昇騰 950 這類新硬件到位,還有一波可挖的潛力。

長上下文,正在從奢侈品變成日用品。


憑什么能做到?兩大壓縮注意力,從根源上做手術

傳統 Transformer 處理長文本的死穴:序列長度加 N 倍,注意力計算量平方級爆炸,KV 緩存線性膨脹。這個瓶頸不破,百萬 token 就只是論文里的數字。

DeepSeek V4 的辦法不是湊合,而是直接改造注意力機制本身。總體架構上,注意力層采用 CSA 和 HCA 交錯配置,前饋層沿用 DeepSeekMoE,殘差連接用 mHC 加強。核心是兩種新注意力。

CSA——壓縮稀疏注意力

CSA 的數據流分三路并行。KV token 的隱藏狀態同時進入三個模塊:一個 Token-Level Compressor 負責把每 4 個 token 的 KV 緩存壓縮成一個條目;一個 Lightning Indexer 生成“索引鍵”,用于后續的匹配打分;同一個索引器還生成“索引分數”。查詢 token 的隱藏狀態則單獨進入 Lightning Indexer,生成查詢側的索引分數。兩邊一合,送入 Top-k 選擇器,從所有壓縮塊中只挑出最相關的 512 個(Pro 版是 1024 個)。最后,這些選中的壓縮塊和滑動窗口里保留的 128 個原始 token 拼在一起,送進核心的多查詢注意力計算。


索引器的實現細節:查詢端先降維到 dc=1024,減少參數量,再升維到多頭索引查詢,配合 ReLU 激活后與壓縮索引鍵計算分數。這一整套不是簡單的“截斷”,是學出來的動態篩選——哪些信息重要、哪些可以忽略,由模型自己在訓練中決定。

HCA——重度壓縮注意力

和 CSA 不同,HCA 去掉了整個稀疏選擇鏈路——沒有 Lightning Indexer,沒有 Top-k Selector。數據流非常直接:KV token 隱藏狀態經過 Token-Level Compressor 壓縮(壓縮比 m'=128,遠大于 CSA 的 4),得到的壓縮條目直接與滑動窗口 KV 拼在一起,送進 MQA。因為每條目覆蓋 128 個 token,條目總量已經很少,全量算也不貴,省掉了篩選環節。這是為了抓全局結構,避免模型“只見樹木不見森林”。

兩種注意力都額外配了一個滑動窗口,保留最近 128 個 token 的原始 KV 不壓縮,確保局部依賴沒有精度損失。同時還用了注意力沉降技術——給每個頭一個可學習的 sink logit,加到注意力的分母里,讓每個頭可以選擇“什么都不關注”。


另外,報告透露了一個重要的工程決定:CSA 和 HCA 在 Query 和 KV 上只對最后 64 個維度施加 RoPE 位置編碼,其他維度不編碼。同時 KV 緩存采用混合精度存儲——RoPE 維度用 BF16,其余維度用 FP8——又把緩存砍掉近一半。

而這套注意力架構要真正落地,緩存管理也必須重新設計。V4 的 KV 緩存被拆成兩大塊:一塊是“狀態緩存”,每個請求分一個固定大小的區域,存滑動窗口最近 128 個 token 的 KV,以及 CSA/HCA 中還沒攢夠 4 個或 128 個 token、暫時無法壓縮的“尾料”。


另一塊是“經典緩存”,存已經壓縮好的條目。經典緩存里,每個塊覆蓋的原始 token 數是兩種壓縮比(4 和 128)的最小公倍數,這樣同一塊里 CSA 和 HCA 的壓縮結果都能對齊——CSA 產 32 個壓縮條目,HCA 產 1 個——不會因為兩種壓縮率不一致導致碎片化管理。這套緩存布局,是百萬上下文能從實驗室走進生產環境的關鍵工程基礎設施。


所以這套方案是壓縮、稀疏化、混合精度、滑動窗口、注意力沉降、精細緩存管理多管齊下。局部細節、中段關聯、全局脈絡,全抓住了,算力開銷斷崖式下降。

也就是說, 傳統注意力機制要求每個 token 和歷史上所有 token 都做一次交互,歷史多長,活兒就多沉。DeepSeek V4 做的,是把“記憶”本身先整理成層次化的摘要——有些是每一小段的凝練,有些是每一章的概括,再加上眼前幾句話的原文。需要調用哪一層、哪一段,由模型自己根據當前要解決的問題即場判斷。內存里不再存一座山,算力不用翻整座山,百萬上下文的成本自然下來了。

Muon 和 mHC:訓練上的降本增效

架構的聰明不止在推理側。報告用專門章節講了兩項訓練優化。

一個是此前已經被放出來過的 Muon 優化器。

大多數優化器拿到梯度,一個參數一個參數地調。Muon 不這么干。它把整個梯度矩陣做一步“捋正”運算,讓各行更新方向相互獨立、不打架。效果就是每次更新都踩在最干凈的方向上,同樣步數學到更多,變相省算力。為了配合 Muon,分布式策略也改了:稠密參數限制切分,每個 GPU 最多管五個完整矩陣;MoE 參數直接拼成大向量等分,不切單個矩陣。梯度通信還做了 BF16 量化,砍掉一半通信量。

另一個是 mHC——流形約束超連接。

深層網絡的老大難是信號穿幾十層,要么逐層放大到溢出,要么衰減到消失。mHC 的解法是給殘差連接加個數學籠子——強制每層的混合矩陣滿足“每行每列和為 1,元素非負”。這保證了無論怎么傳,幅度不發散。

實現上,DeepSeek V4 拿到參數后,做 20 次交替的行歸一化和列歸一化,硬把矩陣拉回約束集合。報告承認萬億參數訓練遇到了損失尖峰,但用兩招解決了:“預判路由”打破路由和主網絡的同步更新循環,“SwiGLU 截斷”把激活值鉗在 [-10,10]。

一如既往的,數學上很干凈,工程上訓練不崩。

后訓練更絕:分頭訓專才,再無損蒸餾

DeepSeek V4 的后訓練流程也很有想法,報告用第五章詳述了這套“先分后合”的工藝。

第一步,分別對代碼、數學、智能體、指令遵循等方向獨立訓練專家模型。每個專家都先做 SFT 打底,再用 GRPO 強化學習,配合領域專屬的獎勵模型。連獎勵模型本身也是生成式的——讓模型同時學會“判卷”和“答卷”,減少對人類標注的依賴。

報告中很有意思的一點是為不同推理模式設了三種檔位:Non-think(無思考標簽,快速回答)、Think High(顯式思維鏈但受控長度)、Think Max(極限思維模式,給特殊系統提示同時放寬長度懲罰)。三種模式在 RL 訓練時分別用不同的上下文窗口和懲罰系數,讓同一套權重能根據場景切推理深度。

第二步,用在策略蒸餾把所有專才的知識融合到一個統一模型里。關鍵是,他們做的不是 token 級近似,而是全詞表級別的反向 KL 散度——保持教師完整的 logit 分布。這帶來了巨大的計算壓力:詞表 128K,十多個老師,每個都是萬億參數級別。報告給出的解決路徑是:教師權重從中心化存儲按需加載;不存完整 logits,只緩最后一層隱藏狀態,訓練時即時重算;按教師索引排序樣本,保證同一時刻 GPU 上只有一個教師頭。這些都是生產環境才會碰到的硬問題。

效果直接反映在基準上。Pro Max 在知識基準 SimpleQA 拿下 57.9,比開源最佳高出 20 個點;數學 Putnam 2025 做到 120/120 滿分;Codeforces 評分在人類選手中排第 23。這三個分屬不同類型的任務同時沖頂,背后的路線選擇是被驗證了的。


“細粒度通信-計算重疊”和昇騰“原生”

報告里另一個讓所有人都非常關注的事情,就是:它和華為昇騰到底是什么關系。

報告 3.1 節原文是:“我們在 NVIDIA GPU 和華為昇騰 NPU 兩個平臺上驗證了這個細粒度的專家并行方案。”兩個平臺并列,寫在驗證結論里。


這套方案的核心是把 MoE 的通信和計算切成更細的顆粒,按“波”調度。每個波只含一小部分專家,這個波的通信一完成立刻開始計算,同一時刻,下一個波的通信和上一個波的結果回傳同步進行。報告里的加速比數據是:通用推理 1.50–1.73 倍,RL 長尾小批次最高 1.96 倍。


報告還給了硬件設計公式:每 GBps 通信帶寬對應 6.1 TFLOP/s 算力,通信就能被完全隱藏。這意味著 DeepSeek 在用架構告訴硬件廠商:不用卷帶寬,按這個比例配算力就行。這比適配某個具體型號高一個維度——是定義需求。昇騰 950 如果按這個配比來設計,跑 V4 就能把利用率拉到滿。

你可以這樣理解,MoE 每次計算都要在不同 GPU 之間搬運中間結果,以前是搬完才算,搬運時長全在等。現在是把搬運拆碎,搬一小批就算一小批,算的同時繼續搬下一批。結果就是搬運時間被計算時間吃掉了,用戶感覺不到等。這套機制不挑硬件,只要算力和帶寬的比例到位,NVIDIA 還是昇騰都能跑出高利用率。

報告也提到了用 TileLang 做算子開發,配合 Z3 SMT 求解器自動驗證和優化;同時要求訓練推理“批次不變”和“確定性”——同一個 token 無論和誰一批、在什么硬件上,輸出比特級一致。這對昇騰這種新硬件的調試和部署是基礎設施級的支持。

雖然開源 MegaMoE 內核還是 CUDA 版,主力訓練集群大概率仍是 NVIDIA,但架構上已經把適配昇騰的土壤翻松了、路鋪平了。

加上報告公開說 FP4 在未來硬件上還能再提效三分之一,以及官方文檔里那句“預計下半年昇騰 950 超節點批量上市后 Pro 價格大幅下調”,信號已經不能更明確了。

看完V4的報告,感觸它想得夠清楚。

過去兩年,行業解決長文本問題的主流思路本質上是在堆資源。要么堆顯存,把KV緩存硬塞進去;要么堆算力,讓芯片更快一點。這條路走到現在,邊際效益已經很明顯了。

DeepSeek V4換了一個完全不同的方向——不再追著“怎么能扛住”不放,而是問“這東西真的需要全記住嗎”。CSA和HCA本質上是讓模型在記憶的時候就有了層次感,細顆粒的、粗顆粒的、最近的原文,各存各的。這不再是工程上的妥協,而是架構層面對“什么值得記住”這個問題的重新回答。思路一旦轉過來了,效率的提升就是數量級的。

而這套東西還有一個容易被低估的價值,就是它讓硬件的選擇權回到了算法這邊。

過去芯片決定模型能跑多長的上下文,帶寬不夠就不行。V4這套壓縮加波浪調度的方案出來后,算和搬的比例被一個公式定義清楚了。這意味著不是算法去適配硬件,而是算法在告訴硬件應該怎么設計。昇騰被寫進驗證平臺、FP4留出三分之一效率冗余,這些細節放在一起看,就知道它從一開始就沒打算綁定某一家。這種獨立性,在現在這個時間點,比性能本身更有分量。

V4的神就在這里。

它再次給大家提供了一個更聰明的選擇。

「不誘于譽,不恐于誹,率道而行,端然正己。」這是DeepSeek官方公告里的一句與其他內容都不同的話,這句話也幾乎是V4的特質,它讓人繼續對DeepSeek接下來的目標充滿期待。

點擊關注我哦

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
落難的鳳凰不如雞,多位明星無戲可拍,淪落到給景區打工,太心酸

落難的鳳凰不如雞,多位明星無戲可拍,淪落到給景區打工,太心酸

秋姐居
2026-03-29 22:00:48
兩名襲擊者全程戴頭盔,高喊侮辱先知,監控拍下瘋狂砍殺近四分鐘

兩名襲擊者全程戴頭盔,高喊侮辱先知,監控拍下瘋狂砍殺近四分鐘

獨舞獨舞
2026-04-26 07:54:46
全線跳水,近10萬人爆倉!

全線跳水,近10萬人爆倉!

每日經濟新聞
2026-04-25 21:57:11
杜月笙救人一命后,對方送來二十根金條,他只留下一個梨

杜月笙救人一命后,對方送來二十根金條,他只留下一個梨

千秋文化
2026-03-31 20:54:38
中國對日本經濟絞殺戰:三個月軍工、汽車、半導體全崩了

中國對日本經濟絞殺戰:三個月軍工、汽車、半導體全崩了

安安說
2026-04-25 11:56:50
醫保局聯合財政部出新規!醫保賬戶調整,退休后每月還能返錢嗎?

醫保局聯合財政部出新規!醫保賬戶調整,退休后每月還能返錢嗎?

復轉這些年
2026-04-25 18:23:41
Shopee員工發文:去年親手裁了10個人。今年3月,我自己被優化

Shopee員工發文:去年親手裁了10個人。今年3月,我自己被優化

螞蟻大喇叭
2026-04-25 10:16:29
保姆偷拿了家里2瓶茅臺去賣,我沒揭穿只辭退了她,臨走時她指了指舊皮鞋,我一看瞬間癱坐在地

保姆偷拿了家里2瓶茅臺去賣,我沒揭穿只辭退了她,臨走時她指了指舊皮鞋,我一看瞬間癱坐在地

今夜有個好故事
2026-03-11 17:26:56
阿里云 1053 億、份額增 2.7%;華為云 436 億、降 2.1%;騰訊云 292 億、降 0.3%

阿里云 1053 億、份額增 2.7%;華為云 436 億、降 2.1%;騰訊云 292 億、降 0.3%

云頭條
2026-04-24 15:41:03
“這事我們得請示上面”,人民日報怒批了!

“這事我們得請示上面”,人民日報怒批了!

細說職場
2026-04-26 10:13:01
白宮晚宴槍擊發生地是里根遇刺酒店

白宮晚宴槍擊發生地是里根遇刺酒店

界面新聞
2026-04-26 11:54:58
斯諾克世錦賽25日晚戰報 9-13 世界第2慘遭淘汰 5連鞭 已決出兩位8強

斯諾克世錦賽25日晚戰報 9-13 世界第2慘遭淘汰 5連鞭 已決出兩位8強

林子說事
2026-04-26 13:32:06
本想秀恩愛,沒想到成笑柄,自毀體面的郭富城,證實熊黛林沒說謊

本想秀恩愛,沒想到成笑柄,自毀體面的郭富城,證實熊黛林沒說謊

白面書誏
2026-04-22 16:18:08
普京被迫打開金庫,俄羅斯黃金連夜運往中國,中方發話果斷接盤

普京被迫打開金庫,俄羅斯黃金連夜運往中國,中方發話果斷接盤

玲兒愛唱歌
2026-04-26 13:42:37
王思雨頒獎笑成花兒!獲金球獎勵成關鍵之王 大方展示金牌超颯

王思雨頒獎笑成花兒!獲金球獎勵成關鍵之王 大方展示金牌超颯

顏小白的籃球夢
2026-04-26 07:31:42
嚴打又回來了?但這次和80年代完全不同,普通人只需要記住這3條

嚴打又回來了?但這次和80年代完全不同,普通人只需要記住這3條

苗苗情感說
2026-04-26 06:19:04
事業超順風!2026正財運勢最強的三大生肖,人生路越走越寬!

事業超順風!2026正財運勢最強的三大生肖,人生路越走越寬!

毅談生肖
2026-04-26 11:40:54
川普險再遭槍擊,查理柯克遺孀哭泣:我想回家

川普險再遭槍擊,查理柯克遺孀哭泣:我想回家

移光幻影
2026-04-26 13:12:15
李昀銳把沙溢假發弄掉,陳哲遠開心大笑,減重36斤沙溢發量被公開

李昀銳把沙溢假發弄掉,陳哲遠開心大笑,減重36斤沙溢發量被公開

椰黃娛樂
2026-04-26 12:27:51
深圳那位用飲料澆滅煙頭的女生,到底經歷了什么

深圳那位用飲料澆滅煙頭的女生,到底經歷了什么

大張的自留地
2026-04-26 08:52:35
2026-04-26 14:51:00
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先進入GenAl。
274文章數 38關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

特朗普2年內遭遇4次刺殺威脅 第一個任期也曾險遭襲擊

頭條要聞

特朗普2年內遭遇4次刺殺威脅 第一個任期也曾險遭襲擊

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《八千里路云和月》大結局意難平

財經要聞

DeepSeek V4背后,梁文鋒的轉身

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

藝術
手機
時尚
房產
軍事航空

藝術要聞

鄭麗文訪問清華附中引發熱議,蔣中正信札字跡真實性遭質疑

手機要聞

vivo Y600 Pro手機現身中國電信終端產品庫,4月27日發布

IU的臉,真的有自己的時間線

房產要聞

新一輪教育大爆發來了!海口,開始瘋狂建學校!

軍事要聞

伊朗總統:不會在壓力、威脅下進行談判

無障礙瀏覽 進入關懷版