網易首頁 > 網易號 > 正文 申請入駐

寒武紀Day 0適配DeepSeek V4意味著什么

0
分享至


經濟觀察報 記者 錢玉娟 任曉寧

4月24日,深度求索(DeepSeek)發布了旗艦模型V4的預覽版本并同步開源。

已經上線的DeepSeek V4模型分為Pro和Flash兩個版本,Pro版本的參數為1.6萬億,激活490億,預訓練數據33萬億;而Flash版本的參數為2840億,激活130億,預訓練數據32萬億。兩個版本模型的上下文都是1M(百萬詞元)。

經歷了長達15個月的“靜默期”和多次更新傳聞,DeepSeek V4終于亮相。然而,這并非一次輕盈的亮相。

在V4兩個版本模型對API訪問的價格介紹中,DeepSeek用一行小字表明了現實的骨感:受限于高端算力,目前V4 Pro的服務吞吐能力有限,預計下半年昇騰950超節點批量上市后,Pro的價格會大幅下調。

隨后,華為計算發文表示,昇騰一直同步支持DeepSeek系列模型,本次雙方更是通過芯模技術協同,實現了昇騰超節點的全系列產品支持DeepSeek V4系列模型。

由華為昇騰代表的國產高端算力,與DeepSeek的模型算法進行協同適配,不再猶抱琵琶半遮面。

DeepSeek在同步發出的V4技術報告中稱:“我們在英偉達GPU和華為昇騰NPU兩個平臺上均驗證了細粒度EP(專家并行)方案。”這是DeepSeek第一次在正式文檔中把華為昇騰和英偉達并列寫進硬件驗證清單。

一位從事大模型研究的高校學者還是從DeepSeek的小字說明中判斷:“國產算力支持下的DeepSeek V4大規模商用仍需時間。”

該學者早就發現DeepSeek在產品端的算力緊缺。2026年初至今,DeepSeek曾突發多次服務中斷,備受關注的便是3月30日—31日的連續宕機事件。

在他看來,DeepSeek在一眾國產大模型廠商中,以底層工程極限優化著稱,即便在產品服務出現宕機風險時,也未公開提及其在芯片等物理設備方面的缺口問題,而今在新模型亮相之初就袒露算力受限,一定程度上揭示了國產模型廠商在國產算力適配上存在著陣痛。

Day 0適配

一位與DeepSeek有模型服務合作的供應商人士認為,V4之所以姍姍來遲,深層原因在于算力架構的重構。

AI開源社區與模型托管平臺Hugging Face的亞太生態負責人王鐵震指出,目前各家國產大模型都在積極展開國產算力適配,而DeepSeek在過去超一年時間的V4研發中,也在試圖大規模采用國產芯片替代方案。眼下,DeepSeek除了持續推進與華為昇騰算力的適配,還與包括寒武紀、沐曦等在內的眾多國產算力廠商展開適配。

王鐵震透露,行業內尤其關注國產大模型與國產算力是否達到“Day 0”適配。

“Day 0 相當于大模型上線的當天,算力已完成全鏈路兼容、性能優化、穩定性驗證。開發者開箱即用,零等待、零額外適配即可直接訓練/推理該模型。”一位國產芯片廠商內部人士透露,過去只有英偉達的算力芯片能做到與各家模型的Day 0適配,其他GPU往往要滯后數月。

就在DeepSeek V4官方信息發布后,寒武紀通過其官方公眾號表示,已基于vLLM 推理框架完成對DeepSeek V4已上線兩個模型版本的Day 0適配。

寒武紀與DeepSeek最新模型完成Day 0適配,意味著國產GPU已經具備了與英偉達高端算力芯片同等的生態響應速度。而前述國產芯片廠商內部人士表示,其所在廠商也在與DeepSeek V4進行產品適配。在此之前,已經完成與十幾個國產大模型的Day 0適配。

今年初,電信天翼云自主研發的“息壤”智算平臺宣布完成了國產算力芯片與DeepSeek V3系列大模型的深度適配優化,伴隨DeepSeek的模型迭代與更新,智算平臺的優化適配也在進行中。

聚焦中國AI市場,國產大模型此前多依賴英偉達CUDA生態,而今算法要全面適配國產算力,需要對底座架構進行重構。

前述大模型研究學者與國產芯片廠商內部人士有個共識,算力自主可控是必然趨勢,他們將上述芯模技術底層的重構理解為“算力平替”的過程。從DeepSeek V4耗時長達一年多的研發進程,不難窺見這個過程的艱難。

“不只是簡單的代碼遷移,MoE(混合專家模型)架構在國產芯片上的通信延遲優化是世界級難題。”某頭部模型廠商的技術工程師分析,DeepSeek選擇在此時坦承吞吐有限,本質上也是在等待國產芯片“超節點”范式的成熟。

多模態缺失

4月24日上午,在DeepSeek V4預覽版上線后,不僅半導體芯片國產替代板塊個股大漲,與國產算力及DeepSeek相關的概念股均出現異動。

截至收盤,寒武紀(688256.SH)報1352.5元/股,漲超2.2%。同步走強的還有相關概念股,像龍芯中科(688047.SH)收盤報153.86元/股,同樣漲超2個點。以主營大數據服務及數據安全的拓爾思(300229.SZ),作為DeepSeek概念股,在24日午前漲至18.9元/股,僅短短5分鐘后便出現下跌,跌幅超過2%?。收盤報18.34元/股,較當日開盤價漲幅不及1%。

前述頭部模型廠商技術工程師認為,此前傳聞DeepSeek V4會有多模態版本,可以具備支持圖片、視頻理解與生成等能力,而今上線的預覽版本能力,依然固守文本生成與推理領域。

形成鮮明對比的是,就在DeepSeek V4上線的前幾個小時,OpenAI發布了新一代大模型GPT-5.5,其能力展示中特別突出了對工具調用的多模態視覺理解能力。

即使不對標GPT、Gemini等海外頭部模型,在2026年的國產大模型戰場上,阿里千問、騰訊混元等均已實現“全模態一體化”。而V4已上線的兩個模型版本仍走單模態路線,前述頭部模型廠商技術工程師推測,DeepSeek在多模態識別能力上或出現短板。

“多模態需要指數級的算力和更復雜的數據工程。”他認為,這極為考驗模型廠商的生態布局。他所在的頭部大廠不斷挖角DeepSeek的技術人才。“我們團隊的數據負責人就來自DeepSeek。”

這種核心人才的流失是令人擔憂的。多位受訪者確信DeepSeek在國產模型第一梯隊中的技術護城河,但也提出,繼核心科學家羅福莉入職小米、郭達雅轉投字節跳動后,內部負責核心數據工程、多模態預訓練的關鍵人士流失,或令其模型在多模態能力開發創新方面遇到更大困難。

前述模型技術工程師分析,模型缺乏多模態識別能力或將意味著該廠商錯失大量實時視頻交互、視覺分析等高價值商業場景。

V4預覽版的發布,讓市場看到了國產模型與算力在底層架構上的協同進展,但這并不意味著DeepSeek可以松口氣。在大模型萬億參數和全模態競爭的當下,它還需要交出一份答卷,在下半年昇騰950超節點到位前,頂著多模態應用技術的壓力,它的模型服務、產品迭代,甚至是人才組織架構,能否保持穩定。

前述模型技術工程師透露,在騰訊、阿里等巨頭有意與DeepSeek接洽首輪外部融資事宜外,近期數家推動國產替代相關動作的國資型產業投資基金,也在與DeepSeek展開深度洽談。在其看來,研發進度緩慢的DeepSeek,在算力資源之外,也對外來資金表現出極度渴求。

(作者 錢玉娟)

免責聲明:本文觀點僅代表作者本人,供參考、交流,不構成任何建議。


錢玉娟

TMT新聞部記者 長期關注并報道TMT領域的重大事件,時刻保持新聞敏感,發現前沿趨勢。擅長企業模式、人物專訪及行業深度報道。 重要新聞線索可聯系qianyujuan@eeo.com.cn 微信號:EstherQ138279

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
看女人是不是好女人,只要和她同房一次就知道了呢?

看女人是不是好女人,只要和她同房一次就知道了呢?

思絮
2026-04-25 17:28:15
小玥兒12歲生日冷清!汪小菲馬筱梅毫無表示,往年大排場反差刺眼

小玥兒12歲生日冷清!汪小菲馬筱梅毫無表示,往年大排場反差刺眼

人間煙火記事本
2026-04-25 06:25:08
華為 “親兒子” 超聚變完成 IPO 輔導,算力服務器第二即將登陸 A 股

華為 “親兒子” 超聚變完成 IPO 輔導,算力服務器第二即將登陸 A 股

胡華成
2026-04-25 12:32:03
73歲遲重瑞近況:賣故宮旁自家房子,均價15萬,陳麗華嫁他好福氣

73歲遲重瑞近況:賣故宮旁自家房子,均價15萬,陳麗華嫁他好福氣

一娛三分地
2026-02-19 17:04:30
鄧伯什不敵1-3海牙,仍奇跡般獲升級附加賽資格

鄧伯什不敵1-3海牙,仍奇跡般獲升級附加賽資格

懂球帝
2026-04-25 19:43:05
2026年,如果你的家庭存款突破100萬,會發現一個驚人的真相!

2026年,如果你的家庭存款突破100萬,會發現一個驚人的真相!

藍色海邊
2026-04-24 17:11:02
巴基斯坦消息人士:伊朗立場比第一輪談判更加強硬

巴基斯坦消息人士:伊朗立場比第一輪談判更加強硬

新華社
2026-04-25 20:46:21
太瘆人!男子曬小區電梯圖,網友調侃豪華火化爐,評論區毛骨悚然

太瘆人!男子曬小區電梯圖,網友調侃豪華火化爐,評論區毛骨悚然

譚談社會
2026-04-23 01:58:02
北控告別發文:從頭再來!但張慶鵬自斷優勢,攻守全崩,該走了?

北控告別發文:從頭再來!但張慶鵬自斷優勢,攻守全崩,該走了?

籃球資訊達人
2026-04-25 16:27:59
不玩游戲、偶像包袱重、前胸貼白鹿后背,《奔跑吧》他干嘛來了?

不玩游戲、偶像包袱重、前胸貼白鹿后背,《奔跑吧》他干嘛來了?

洲洲影視娛評
2026-04-25 14:24:44
黃一鳴回應沒結婚一天找8個男的也沒關系,承認跟40歲大叔交往過

黃一鳴回應沒結婚一天找8個男的也沒關系,承認跟40歲大叔交往過

喜歡歷史的阿繁
2026-04-25 20:49:05
許世友攜槍赴京悼念毛主席,遭機長拒飛,他質問是誰下的命令?

許世友攜槍赴京悼念毛主席,遭機長拒飛,他質問是誰下的命令?

輿圖看世界
2026-04-05 12:35:06
中央5臺直播乒乓球時間表:4月25日CCTV5轉播國乒!附世乒賽動態

中央5臺直播乒乓球時間表:4月25日CCTV5轉播國乒!附世乒賽動態

劉哥談體育
2026-04-25 12:35:30
孩子脫臼復位只收100元,家長舉報亂收費!衛健委:應收110元,你還少給了!家長拒繳費后離開!

孩子脫臼復位只收100元,家長舉報亂收費!衛健委:應收110元,你還少給了!家長拒繳費后離開!

醫脈圈
2026-04-25 20:04:06
斯諾克世錦賽!8強誕生兩席,3號種子爆冷,小鋼炮復仇世界冠軍

斯諾克世錦賽!8強誕生兩席,3號種子爆冷,小鋼炮復仇世界冠軍

越嶺尋蹤
2026-04-25 20:12:21
家長呼吁 “取消中考、縮短學制”,2027年要變?教育部回應來了

家長呼吁 “取消中考、縮短學制”,2027年要變?教育部回應來了

芳姐侃社會
2026-04-25 17:39:05
4月,國新辦會議未提到養老金,但人社部卻悄悄發布一條消息

4月,國新辦會議未提到養老金,但人社部卻悄悄發布一條消息

社保精算師
2026-04-25 17:25:03
住2億別墅、雇4個保姆,'苦等'9年的沈夢辰,被那英一語擊中

住2億別墅、雇4個保姆,'苦等'9年的沈夢辰,被那英一語擊中

楓塵余往逝
2026-04-24 19:50:27
2026了,《穿普拉達的女王2》華裔角色竟然叫這名,日韓網民怒了

2026了,《穿普拉達的女王2》華裔角色竟然叫這名,日韓網民怒了

觀察者網
2026-04-24 20:06:36
才播了三期,就說他倆一定會離?

才播了三期,就說他倆一定會離?

橘子娛樂
2026-04-24 21:14:22
2026-04-25 21:39:00
經濟觀察報 incentive-icons
經濟觀察報
經濟觀察報是專注于財經新聞與經濟分析的全國性綜合財經類媒體。聚焦商道、商技和商機。
114292文章數 1606745關注度
往期回顧 全部

科技要聞

DeepSeek V4發布!黃仁勛預言的"災難"降臨

頭條要聞

媒體:美軍在中東罕見高密度集結 伊朗開始調整戰術

頭條要聞

媒體:美軍在中東罕見高密度集結 伊朗開始調整戰術

體育要聞

火箭0-3觸發百分百出局定律:本季加時賽9戰8敗

娛樂要聞

《我們的爸爸2》第一季完美爸爸翻車了

財經要聞

90%訂單消失,中東旺季沒了

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態度原創

教育
親子
家居
時尚
手機

教育要聞

教育縱深 | 閱讀走新更走心

親子要聞

寶媽必學,性教育和防侵犯教育有哪些區別?

家居要聞

自然肌理 溫潤美學

這9種特別的顏色,太適合春夏交替的五月了!

手機要聞

曝紅魔新機平板下月齊發,全系驍龍8 Elite Gen 5

無障礙瀏覽 進入關懷版