網易首頁 > 網易號 > 正文申請入駐

全網首份指令級拆解：看華為昇騰 950DT 芯片如何撬動 DeepSeek 75%降價與字節鎖單

2026-06-12 18:21:02　來源: AI前線

北京舉報

分享至

　　作者 | 四月

　　距離正式上線華為云還有兩個月，華為的最新 AI 芯片昇騰 950DT，已經被提前放到了顯微鏡下。

　　近日，華爾街知名半導體研究機構 SemiAnalysis 已經率先拿到樣機，圍繞 950 系列運行 DeepSeek V4 的推理鏈路進行了 Trace 級拆解。

　　從芯片架構、并行調度、融合算子到 MoE 通信，報告深度解構了華為這款國產高端 AI 芯片是如何壓榨極致性能，承接 DeepSeek V4 的核心推理負載需求的。

　　（注：芯片的 Trace 分析是指利用專用軟硬件記錄芯片內部程序的運行軌跡、時序和性能數據）

　　值得注意的是，這不是一次普通的“適配”分析。SemiAnalysis 在報告中明確提到，DeepSeek V4 的部分架構，是為華為昇騰推理進行協同設計的，“in partco-designedfor Huawei Ascend inference”。

　　也就是說，昇騰 950DT并非在模型發布之后被動接入 DeepSeek V4，而是更早參與到了模型推理路徑、硬件執行方式和軟件棧優化的共同打磨中。

　　這也是 950 系列真正值得關注的地方。它有望成為推動 DeepSeek 從英偉達底座轉向國產昇騰底座的關鍵節點，而這種遷移與轉向往往是不可逆的。

　　過去，國產 AI 芯片一直被放在“能不能替代英偉達”的敘事下討論。但 DeepSeek V4 把問題往前推了一步：它不是簡單證明國產芯片能跑大模型，而是開始驗證國產芯片能否支撐得起頂級模型的低成本、高并發推理。

　　DeepSeek V4 把 950DT 推向前臺

　　在 DeepSeek V4 官方技術報告中，昇騰 950 已經與英偉達 H100/H800 一起進入硬件驗證名單。950 系列可分為兩個版本：950PR 面向 Prefill 和推薦場景，950DT 則面向 Decode 和訓練場景。

　　前者解決當下供給，后者瞄準大模型推理里最燒錢的一段。

　　在訓練端，由于此次 V4 放棄了多頭注意力機制 MLA（Multi-head Latent Attention），首次采用了全新的壓縮稀疏注意力機制 (CSA) 、高度壓縮注意力機制 (HCA)架構。對此，華為官方直言“離不開昇騰 950 超節點的協同”。

　　推理端，V4 把百萬上下文的價格打到 2 毛錢，較 Anthropic 便宜 50 倍左右，這背后同樣少不了雙方在底層芯片、推理框架、低精度計算和通信優化的共同作用。

　　換句話說，DeepSeek 的“價格屠夫”標簽，不只是模型側的勝利沒，更是一場由模型架構、芯片帶寬、編譯器、融合算子、推理框架和云服務共同參與的成本戰役。

　　昇騰 950DT 的含金量，正體現在它進入了 DeepSeek 這套成本結構的核心環節。

　　而這種成本優勢，反映到市場上則是極具競爭力的商業價值。根據 Vercel 最新發布的 5 月 AI Gateway 生產指數，隨著 4 月 DeepSeek V4 上線，DeepSeek 的 Token 流量份額從不足 1% 快速升至 17%，超越 OpenAI，位居第三，在一眾海外模型中殺出重圍。

　　流量爆發的背后，價格是最直接的驅動力。

　　DeepSeek 早些時候在官網明確指出：“預計下半年昇騰 950 超節點批量上市后，Pro 的價格會大幅下調。”

　　隨后，便宣布 DeepSeek-V4-Pro API 永久降價至原價格的四分之一。這也直接印證了 V4 的 API 正深度依賴 950 部署，且成本結構仍有極大的優化空間。

　　DeepSeek V4 的強大背書，給了 950DT “產品層面可驗證”的底氣，隨即點燃了互聯網大廠的采購熱情。（注標題里的 BAT 指字節、阿里與騰訊）

　　4 月以來，昇騰 950 系列訂單持續升溫。據此前路透社報道，字節已拿下一半產能，阿里、騰訊分別跟進數十萬顆。中國移動在 2026-2027 年度 AI 超節點設備集采清單中，也指定了 776 套昇騰節點設備，折合 6208 張 AI 加速卡。

　　所以，SemiAnalysis 的這份報告，不僅是全網首份在 950DT 正式上市之前、對其推理架構進行 trace 級別拆解的分析，也是 DeepSeek 與昇騰強耦合研發、國產大模型基于國產芯片進行原生開發的首次揭秘。

　　芯片架構：四個核心計算單元

　　950 系列共用同一顆 Ascend 950 Die，采用雙 Die UMA（統一內存訪問）架構——兩顆 Die 通過高帶寬總線直連，在操作系統層面呈現為單一設備，而不是兩塊需要顯式通信的獨立芯片。

　　由于采用了不同的封裝內存方案，950 系列分兩個版本：950PR 和 950DT。

　　?950PR（Prefill and Recommendation）：今年 3 月已量產，面向推理預填充階段和推薦系統，側重成本優化

　　?950DT（Decode and Training）：搭載華為自研 HiZQ 2.0 內存，144GB 容量，帶寬 4TB/s，專為 Decode 階段和大模型訓練設計，8 月上線華為云

　　Decode 階段是典型的訪存密集型任務，模型每次生成一個 token 都需要從內存里讀大量 KV cache，帶寬的提升直接對應吞吐的提升。這也是 950DT 命名里"D"的意義所在。

　　值得一提的是，華為在 CANN 內部代碼庫中，把昇騰 950 系列的代號定為"David"。這個名字在多處源碼文件中都有引用。

　　在某種程度上，也可以解讀為，華為自己選擇了”巨人對少年“的隱喻：弱者拒絕在強者最強的維度上競爭，用一個精準的點，打中對方的軟肋。事實上，“以小博大”的精髓在昇騰和 DeepSeek 兩個團隊身上都有極致的展現。

　　（注：David 出自《圣經·撒母耳記》。以色列少年牧童大衛（David）面對的是非利士人的巨人武士歌利亞（Goliath），身高近三米、全身鎧甲。大衛沒有跟他正面硬拼，而是用一根彈弓投出一顆石子，精準擊中歌利亞額頭，當場將其擊倒。）

　　從芯片內部看，Ascend 950 Die 包含四類關鍵執行單元，后面所有優化都建立在這套分工之上。

　　第一類是AI Cube，也就是 AIC。

　　它負責大模型里最重的矩陣和張量計算，包括矩陣乘 GEMM、注意力投影 attention projection、FFN 線性層等。相當于英偉達架構里的 Tensor Core，或谷歌 TPU 里的 MXU。

　　第二類是AI Vector，也就是 AIV。

　　它負責逐元素向量操作，比如激活函數、歸一化 RMSNorm、類型轉換，以及矩陣計算前后的后處理。

　　昇騰在這里做了一個關鍵設計選擇：AIC 和 AIV 是分離的獨立核心，各自可以加載自己的代碼段，并支持雙主并行模式 dual-master mode，不需要互相等待。

　　這種分離讓矩陣計算和向量計算能真正并發，而不是排隊。

　　第三類是AI CPU。

　　它是一顆獨立的、設備端 ARM64 核，直接掛在設備內存上，專門處理 SIMD/SIMT 核心不擅長的工作，比如分支密集的控制流、標量邏輯、動態 shape 處理，以及內核執行前需要根據實時數值計算的調度元數據。

　　這里最關鍵的是“設備側”。

　　關鍵在"設備端"三個字：這類控制流如果交給主機 CPU 處理，就需要一次出芯片的往返傳輸，這也是延遲和流水線停頓的主要來源之一。AI CPU 則在芯片內部就地處理，省掉了這個往返。

　　第四類是CCU，專用通信引擎。

　　它專門處理集合通信的引擎，與計算核心并行工作，不占用 AI Core 的計算資源。

　　它支持“遠端讀 + 規約 + 本地寫”和“本地讀 + 遠端寫”兩種通信模式，讓通信可以真正疊加在計算過程中，而不是等計算結束后再開始。

　　這對 MoE 模型尤其關鍵。

　　MoE 的專家可能分布在不同設備上。如果通信一直占用計算核心，或者造成大量 HBM 讀寫，MoE 省下來的計算成本就會被通信吃掉。

　　總結來看，AIC 主要負責矩陣計算，向量和后處理則交給 AIV，動態調度交給 AI CPU，CCU 負責跨設備通信。

　　950DT 的推理優化，不是靠某一個核心單點沖高，而是靠這四類單元最大程度的并行與重疊，以減少等待。

　　硬件能力能不能釋放出來，全看這層

　　硬件架構只是底座，真正決定 DeepSeek V4 能不能高效跑起來的，其實是 CANN。

　　它的全稱是 Compute Architecture for Neural Networks，是華為為昇騰打造的 AI 計算軟件框架，對標 CUDA 的定位。2025 年 8 月，華為將 CANN 開源。

　　CANN 的策略非常清晰：每當中國頭部大模型發布，全套打包交付，包括針對模型的 kernel、量化方案、分布式推理配方、serving 集成。

　　這和過去很多“國產芯片完成適配”的口徑不是一回事。適配解決的是能跑，但完整推理路徑解決的是能不能部署、復現、優化地跑。

　　比如，DeepSeek V4 對軟件棧的要求尤其高。它不是一個普通稠密模型，而是包含長上下文、MoE、MTP、多種低精度格式，以及更復雜的 KV cache 壓縮和稀疏注意力機制。只要其中某一環節，缺少適配都可能影響最終性能。

　　針對 DeepSeek V4，CANN 在模型發布當天，同步釋放了完整的優化指南和 benchmark 數據，包括原生 MTP（多 token 預測）支持。

　　CANN 處理 MTP benchmark 的方式值得一提：一般的多 token 測試存在一個隱患，測試數據集上的 draft token 接受率往往高于真實用戶場景，導致發布的性能數字，比實際部署后的體驗更漂亮。

　　華為的做法是把完整 decode step 的耗時（到最后一個 MTP 模塊結束）作為計量單位，公布"每 step 耗時"，讓用戶自己乘以實際接受率換算。

　　這是一種更保守，也更工程化的 benchmark 方法。

　　拆解一個單步解碼：三層并行

　　SemiAnalysis 對 950DT 運行 DeepSeek Flash V4 的推理過程做了完整的 trace 分析，配置是16-rank DP/EP 部署（16 路分布式專家并行）。

　　DP 是數據并行，EP 是專家并行。16-rank 意味著這不是單卡 demo，而是在多 rank 參與的分布式 MoE 推理環境中觀察真實執行鏈路。trace 里能看到16 路并行設備參與集體通信，MoE 專家分發與結果合并通信也在持續發生。

　　分析的核心是把一個 decode step 拆開來看。一個 decode step 不是一條串行的計算鏈，它在內部被拆分成多個 stream 流，在不同計算資源上盡量并發運行。

　　從 trace 看，CANN 至少做了三層重疊。

　　第一層，是計算和通信的重疊

　　多卡 MoE 推理里，每層網絡完成后都有一次dispatch（把 token 分發給各專家卡）和combine（把專家輸出匯聚回來）的集合通信操作。

　　傳統做法：算完等通信，通信完再算，等待時間是純粹的浪費。

　　CANN 把 AIC、AIV、CCU 分配到獨立的 stream 上同時運行。從 trace 里能看到：

　　?C4A Compressor 的執行時間完全消失——被隱藏在其他計算的陰影里

　　?共享專家（shared expert）的計算隱藏在路由專家（routed expert）執行之下，且不影響路由專家本身的性能

　　? Prolog、Compressor、LightningIndexer 三個操作相互重疊運行

　　這意味著 CANN 在指令調度層面做了精細的資源分配：計算和通信在時間軸上幾乎完全疊加，相互填滿了對方的空隙。

　　第二層，是 AI CPU metadata 下沉

　　Decode step 開始前，有一類特殊的準備工作：根據當前序列長度、attention mask、分頁 KV cache 的實時狀態，計算出調度元數據：告訴每個計算核心，它負責哪個 batch、哪個 head、哪個 Q-block/K-block 的任務。

　　這類操作依賴運行時的實際數值，是分支密集的"控制類"任務，不適合放在矩陣核或向量核上跑。

　　傳統解法：主機 CPU 處理，然后通過 PCIe 傳回芯片。每一層都要這樣做一次，加在一起就是不小的延遲。

　　CANN 的做法：把這個工作下沉到片上的 AI CPU，在設備內部就地完成。

　　從 trace 里看，Streams 145-148 對應這些元數據計算流——它們在 decode pass 開始時觸發一次，預計算出可被后續內核復用的調度分區信息，耗時極短，且完全與 AI Core 的計算重疊。SparseAttnSharedkv和QuantLightningIndexer消費這些元數據，決定各計算核心的工作分配。

　　SemiAnalysis 指出，這個設計和開源框架 FlashInfer 在主機側為分頁注意力做 planning 的思路一致，區別在于華為把 planning 下沉到了設備側，省掉了出芯片往返的代價。在長上下文場景下，這個優化的收益更明顯，因為需要 resolve 的序列分區信息更多。

　　另一個值得注意的細節是Stream 152：它包含 LM head、最后一層，以及倒數第二層的o_proj和 MoE。這是npugraph_ex（華為的圖編譯器）的決策——讓主圖在 Stream 144 就標記為"完成"，而尾部操作在 Stream 152 繼續異步執行。效果是解鎖了更長的計算重疊窗口。

　　第三層，通信與計算合并進同一個 kernel

　　華為在 CANN 8.5，2024 年引入了MC2（Merged Compute-Communication，通算融合）機制。

　　這不是普通 kernel，也不是 HCCL 集合通信，而是把通信原語和計算操作合并進同一個算子里。

　　在 DeepSeek V4 的 decode 路徑中，SemiAnalysis 觀察到了兩個 MC2 專家并行算子：

　　?MoeDistributeDispatchV2

　　?MoeDistributeCombineV2

　　MoE 架構里，dispatch 和 combine 是每層都必須發生的通信操作，是多卡推理最主要的通信開銷來源之一。

　　MC2 把這個開銷折疊進了計算流程里——從外部可見的角度，集合通信（Collective Communication）與矩陣乘法計算（Matmul）變成了同一件事。

　　Day 0 的變化

　　SemiAnalysis 在報告里做了一個對比：

　　去年 DeepSeek V3/R1 發布時，全球只有一個軟件棧在 Day 0 完整支持推理：英偉達的 CUDA。

　　DeepSeek V4 發布時，實現 Day 0 完整支持的變成了兩個：CUDA，和華為的 CANN。

　　AMD 的 ROCm 在 Day 0 幾乎完全失效，推理吞吐低至每秒 1-2 個 token，完全不具備部署條件。

　　值得一提的是，英偉達自家的 TRT-LLM 在 Day 0 也存在一個顯性 bug，隱藏狀態被靜默損壞，SemiAnalysis 自己提交 PR 才修復，整個過程花了 9 天以上。

　　所以說，Day 0 真正開箱即用的，是英偉達生態里的開源引擎 SGLang 和 vLLM，以及華為的 CANN。

　　而值得一提的是，其他主流國產 AI 芯片所謂的 Day0 支持主要是基于“類 CUDA”生態的軟件棧。某種程度而言，還是缺乏自主的軟件生態。

　　這是代際變化，不是漸進追趕。而且這次變化的起點，是 DeepSeek V4 從架構設計階段就和華為昇騰做了協同：新的注意力機制（HCA/CSA）、MoE 的量化方案、專家并行的通信設計，都考慮了昇騰硬件的執行路徑。

　　CANN 證明了從第一天起就能交付完整的工程實現，不是“能跑”，是“優化好地跑”。這和其他國產芯片“宣稱支持”的含義，不在同一個層面。

　　結語

　　在《圣經》的隱喻里，巨人 Goliath 最終倒下了。但那個故事里的 Goliath 更多地被動地站在原地，被石頭擊中。而現實世界里，英偉達是一個一年一代新架構、持續在移動的目標。

　　Day 0 的表現證明了華為的工程執行力，但如今 DeepSeek V4 已經發布 40 多天，英偉達 GPU 的推理性能與 950DT 拉開了多大距離？是已經追上了，還是在某些場景已經反超？

　　后續，SemiAnalysis 將用同一套基準測試跑完英偉達 H 系列、B 系列、AMD MI 系列，以及昇騰 950 的完整性能曲線和吞吐對比數據。我們會持續跟進。

　　https://newsletter.semianalysis.com/p/deepseekv4-16t-day-0-to-day-43-performance

　　聲明：本文為 AI 前線原創，不代表平臺觀點，未經許可禁止轉載。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.