網易首頁 > 網易號 > 正文申請入駐

寒武紀Day 0適配DeepSeek V4意味著什么

2026-04-24 20:58:03　來源: 經濟觀察報

北京舉報

分享至

經濟觀察報記者錢玉娟任曉寧

4月24日，深度求索（DeepSeek）發布了旗艦模型V4的預覽版本并同步開源。

已經上線的DeepSeek V4模型分為Pro和Flash兩個版本，Pro版本的參數為1.6萬億，激活490億，預訓練數據33萬億；而Flash版本的參數為2840億，激活130億，預訓練數據32萬億。兩個版本模型的上下文都是1M（百萬詞元）。

經歷了長達15個月的“靜默期”和多次更新傳聞，DeepSeek V4終于亮相。然而，這并非一次輕盈的亮相。

在V4兩個版本模型對API訪問的價格介紹中，DeepSeek用一行小字表明了現實的骨感：受限于高端算力，目前V4 Pro的服務吞吐能力有限，預計下半年昇騰950超節點批量上市后，Pro的價格會大幅下調。

隨后，華為計算發文表示，昇騰一直同步支持DeepSeek系列模型，本次雙方更是通過芯模技術協同，實現了昇騰超節點的全系列產品支持DeepSeek V4系列模型。

由華為昇騰代表的國產高端算力，與DeepSeek的模型算法進行協同適配，不再猶抱琵琶半遮面。

DeepSeek在同步發出的V4技術報告中稱：“我們在英偉達GPU和華為昇騰NPU兩個平臺上均驗證了細粒度EP（專家并行）方案。”這是DeepSeek第一次在正式文檔中把華為昇騰和英偉達并列寫進硬件驗證清單。

一位從事大模型研究的高校學者還是從DeepSeek的小字說明中判斷：“國產算力支持下的DeepSeek V4大規模商用仍需時間。”

該學者早就發現DeepSeek在產品端的算力緊缺。2026年初至今，DeepSeek曾突發多次服務中斷，備受關注的便是3月30日—31日的連續宕機事件。

在他看來，DeepSeek在一眾國產大模型廠商中，以底層工程極限優化著稱，即便在產品服務出現宕機風險時，也未公開提及其在芯片等物理設備方面的缺口問題，而今在新模型亮相之初就袒露算力受限，一定程度上揭示了國產模型廠商在國產算力適配上存在著陣痛。

Day 0適配

一位與DeepSeek有模型服務合作的供應商人士認為，V4之所以姍姍來遲，深層原因在于算力架構的重構。

AI開源社區與模型托管平臺Hugging Face的亞太生態負責人王鐵震指出，目前各家國產大模型都在積極展開國產算力適配，而DeepSeek在過去超一年時間的V4研發中，也在試圖大規模采用國產芯片替代方案。眼下，DeepSeek除了持續推進與華為昇騰算力的適配，還與包括寒武紀、沐曦等在內的眾多國產算力廠商展開適配。

王鐵震透露，行業內尤其關注國產大模型與國產算力是否達到“Day 0”適配。

“Day 0 相當于大模型上線的當天，算力已完成全鏈路兼容、性能優化、穩定性驗證。開發者開箱即用，零等待、零額外適配即可直接訓練/推理該模型。”一位國產芯片廠商內部人士透露，過去只有英偉達的算力芯片能做到與各家模型的Day 0適配，其他GPU往往要滯后數月。

就在DeepSeek V4官方信息發布后，寒武紀通過其官方公眾號表示，已基于vLLM 推理框架完成對DeepSeek V4已上線兩個模型版本的Day 0適配。

寒武紀與DeepSeek最新模型完成Day 0適配，意味著國產GPU已經具備了與英偉達高端算力芯片同等的生態響應速度。而前述國產芯片廠商內部人士表示，其所在廠商也在與DeepSeek V4進行產品適配。在此之前，已經完成與十幾個國產大模型的Day 0適配。

今年初，電信天翼云自主研發的“息壤”智算平臺宣布完成了國產算力芯片與DeepSeek V3系列大模型的深度適配優化，伴隨DeepSeek的模型迭代與更新，智算平臺的優化適配也在進行中。

聚焦中國AI市場，國產大模型此前多依賴英偉達CUDA生態，而今算法要全面適配國產算力，需要對底座架構進行重構。

前述大模型研究學者與國產芯片廠商內部人士有個共識，算力自主可控是必然趨勢，他們將上述芯模技術底層的重構理解為“算力平替”的過程。從DeepSeek V4耗時長達一年多的研發進程，不難窺見這個過程的艱難。

“不只是簡單的代碼遷移，MoE（混合專家模型）架構在國產芯片上的通信延遲優化是世界級難題。”某頭部模型廠商的技術工程師分析，DeepSeek選擇在此時坦承吞吐有限，本質上也是在等待國產芯片“超節點”范式的成熟。

多模態缺失

4月24日上午，在DeepSeek V4預覽版上線后，不僅半導體芯片國產替代板塊個股大漲，與國產算力及DeepSeek相關的概念股均出現異動。

截至收盤，寒武紀（688256.SH）報1352.5元/股，漲超2.2%。同步走強的還有相關概念股，像龍芯中科（688047.SH）收盤報153.86元/股，同樣漲超2個點。以主營大數據服務及數據安全的拓爾思（300229.SZ），作為DeepSeek概念股，在24日午前漲至18.9元/股，僅短短5分鐘后便出現下跌，跌幅超過2%?。收盤報18.34元/股，較當日開盤價漲幅不及1%。

前述頭部模型廠商技術工程師認為，此前傳聞DeepSeek V4會有多模態版本，可以具備支持圖片、視頻理解與生成等能力，而今上線的預覽版本能力，依然固守文本生成與推理領域。

形成鮮明對比的是，就在DeepSeek V4上線的前幾個小時，OpenAI發布了新一代大模型GPT-5.5，其能力展示中特別突出了對工具調用的多模態視覺理解能力。

即使不對標GPT、Gemini等海外頭部模型，在2026年的國產大模型戰場上，阿里千問、騰訊混元等均已實現“全模態一體化”。而V4已上線的兩個模型版本仍走單模態路線，前述頭部模型廠商技術工程師推測，DeepSeek在多模態識別能力上或出現短板。

“多模態需要指數級的算力和更復雜的數據工程。”他認為，這極為考驗模型廠商的生態布局。他所在的頭部大廠不斷挖角DeepSeek的技術人才。“我們團隊的數據負責人就來自DeepSeek。”

這種核心人才的流失是令人擔憂的。多位受訪者確信DeepSeek在國產模型第一梯隊中的技術護城河，但也提出，繼核心科學家羅福莉入職小米、郭達雅轉投字節跳動后，內部負責核心數據工程、多模態預訓練的關鍵人士流失，或令其模型在多模態能力開發創新方面遇到更大困難。

前述模型技術工程師分析，模型缺乏多模態識別能力或將意味著該廠商錯失大量實時視頻交互、視覺分析等高價值商業場景。

V4預覽版的發布，讓市場看到了國產模型與算力在底層架構上的協同進展，但這并不意味著DeepSeek可以松口氣。在大模型萬億參數和全模態競爭的當下，它還需要交出一份答卷，在下半年昇騰950超節點到位前，頂著多模態應用技術的壓力，它的模型服務、產品迭代，甚至是人才組織架構，能否保持穩定。

前述模型技術工程師透露，在騰訊、阿里等巨頭有意與DeepSeek接洽首輪外部融資事宜外，近期數家推動國產替代相關動作的國資型產業投資基金，也在與DeepSeek展開深度洽談。在其看來，研發進度緩慢的DeepSeek，在算力資源之外，也對外來資金表現出極度渴求。

（作者錢玉娟）

免責聲明：本文觀點僅代表作者本人，供參考、交流，不構成任何建議。

錢玉娟

TMT新聞部記者長期關注并報道TMT領域的重大事件，時刻保持新聞敏感，發現前沿趨勢。擅長企業模式、人物專訪及行業深度報道。重要新聞線索可聯系qianyujuan@eeo.com.cn 微信號：EstherQ138279

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.