![]()
![]()
撰文 | 雁 秋
編輯 | 李信馬
題圖 | 豆包AI
AI圈盼 DeepSeek - V4 久矣!
自從2025年初發布V3以后,DeepSeek斷斷續續發布了幾個沒什么火花的版本:V3.1、V3.2-Exp,跑分都和前代差不多。
直到4月24日,DeepSeek正式開源DeepSeek-V4預覽版,同步推出 V4-Pro與 V4-Flash兩大版本。
V4-Pro,總參數1.6萬億,每次推理激活490億。定位旗艦,對標頂級閉源模型。
V4-Flash,總參數2840億,激活130億。定位經濟,更小更快。
![]()
圖源:DeepSeek官網
“源神”回歸瞬間刷屏,不僅登上科技熱榜,華豐科技、寒武紀、摩爾線程、中芯國際等概念股更是直線拉升。
官方公布了DeepSeek-V4系列的API定價:
V4-Pro在輸入命中緩存的情況下為1元/百萬tokens,輸入未命中緩存則為12元/百萬tokens,輸出為24元/百萬tokens;
V4-Flash在輸入命中緩存僅0.2元/百萬tokens,未命中輸入1元/百萬tokens,輸出2元/百萬tokens。
![]()
圖源:DeepSeek官網
然而,高端算力短缺,是頂級大模型落地的最大瓶頸。對此,DeepSeek表示:V4-Pro服務吞吐十分有限,預計下半年昇騰950超節點批量上市后,價格會大幅下調。
一句“下半年批量上國產算力”,揭開了以昇騰950為核心的國產算力生態發展趨勢——從「備選」走向「剛需」,成為重構AI成本的關鍵力量。
DeepSeek此前的訓練主要依賴英偉達,但隨著美國對華芯片出口管制升級,中國AI算力面臨高強度的壓力——迫切需要原生的、可自主掌握的芯片。
觀察發現,V4技術報告第3.1節專門寫了一句,「我們在英偉達GPU和華為昇騰NPU兩個平臺上均驗證了細粒度EP(專家并行)方案。」
這是DeepSeek官方第一次在正式文檔中,把昇騰和英偉達并列寫進硬件驗證清單。業內推測,部分訓練大概率用的還是英偉達芯片,但在與昇騰的適配上,它顯然達到了前所未有的“原生”水平。
根據IDC最新報告,2025年國產GPU與AI芯片廠商的市場份額攀升至41%,總出貨量約400萬張。其中,昇騰出貨量排名第一,占總量近半,阿里平頭哥緊隨其后,百度昆侖芯、寒武紀并列第三。此外,海光信息、沐曦、天數智芯等廠商穩步放量,成為緊緊跟隨的第二梯隊。
頂尖模型正在適配國產算力、生態協同初現雛形。
01.
抓住算力主權
昇騰與英偉達有著相似的成長軌跡,都是在試錯與迭代中摸爬滾打。
但雙方始終有個核心差異:英偉達的根基是GPU與CUDA架構,而昇騰CANN選擇完全自主研發的NPU,從運行、驅動、虛擬指令集到編譯器 ,每一個核心環節都掌握在自己手里。
這一選擇的意義在于,從根源上避免成為CUDA生態的附庸。
昇騰的自我革命首先從芯片開始。據公開信息,昇騰早期產品在算力配比、編程靈活性、細粒度訪存能力、低精度格式支持及社區參與度等方面存在不足。
經過一系列芯片架構的大幅調整,2026年3月的合作伙伴大會上,成果終于揭曉:
搭載昇騰950PR處理器的Atlas 350加速卡,單卡FP4算力達1.56P,為英偉達H20的2.87倍;HBM容量112GB,較H20提升16%;內存訪問粒度從512字節壓縮到128字節,小算子訪存效率提升4倍。
同時,昇騰實現了國內首個真正意義上的FP8商用。這意味著,在市場智能體爆發、Token處理量激增的節點,可以用更少的算力干更多的活。
據悉,2025年DeepSeek采用英偉達產品實現FP8創新時,昇騰團隊“羨慕得不得了”,但因相關限制無法及時推出對應產品。如今,市場對新一代昇騰950芯片的接受速度超出了不少人的預期。
但需要注意的是,950在特定情況下,單卡推理能力是英偉達H20的近3倍,但在整體性能上,英偉達仍處于旗艦水平。未來昇騰會選擇特定場景優化,還是全面對標旗艦?
對此昇騰方面給出了明確回應,昇騰做的是通用型產品,芯片架構也一直在向更通用的方向改進,“但每一代芯片都有確定性的改進方向,而不是追求每個方面都有巨幅提升。”
950的升級獲得了客戶的反饋積極,從試用到下單的周期大幅縮短。“以前需要一兩個月才考慮下單,現在一個星期就可以。”據昇騰內部人士透露,這得益于產品成熟度的提升,和當前旺盛的市場需求,“在來北京的前一天,還有客戶專門跑去深圳找我們簽單,都是千萬卡起步。”原本過完年就已售罄的產能,如今正在重新拉高供給線。盡管如此,團隊方面仍保持謙遜:“950并不完美,還有很多事要做。”
一個美好且正向的閉環出現:國產算力規模越大、成本越低,模型服務價格就越低,開發者的采用意愿就越高,從而帶動更大的算力需求。
隨著這個循環成立,昇騰將成為中國AI繞開CUDA依賴、走向自主加速的核心驅動力。它也不再只是“能用”的替代品,而是開始建立“好用”的競爭力。
02.
生態重構:把“麻花團”拆開
過去幾年,即便是昇騰內部也承認,CANN生態的開放度和易用性遠遠不夠。昇騰的軟件體系如同 “?花團” 般糾纏在一起 ,升級時牽一發而動全身 ,極大影響開發者體驗。
昇騰的打法是:底層我自主,上層全兼容,架構拆開,核心開源。目標很明確,讓開發者來了就不想走,更愿意一起玩。
想要達到這個目的,需要填平的不是技術斷層,而是長期積累起來的使用習慣和信任差距。讓90多個以海外團隊為主導的開源項目接納中國硬件作為原生支持,遠比想象中困難,昇騰團隊的辦法是靠技術語言說話,親自前往開源社區現場交流,用能力證明自己。
昇騰做了一件近乎“自我開刀”的事——重新設計架構、 重寫軟件,完成架構解耦與獨立升級,將復雜體系拆分為一個個結構化模塊,每個模塊可獨立更新、獨立開源。為了讓開發者 “不換門 、不折騰” ,昇騰全力推動生態兼容 ,主動融入主流開發體系,開發者若對某個模塊不滿意 ,可自主修改、優化。
據了解,整套工作原計劃一年半完成,最終壓縮至四個月。目前,開源倉庫從最初的20多個漲到70多個,外部伙伴和高校的項目也在往里進。為了避免變成“一言堂”,社區的技術指導委員會硬性要求外部成員不低于50%,每月開會,前前后后開了200多次,規則一起定,路一起走。
開發者是生態的核心活力來源,昇騰現在有1.3萬底層算子開發者,這個數字已經跟英偉達同領域的萬級規模看齊。社區月活躍開發者2000人,作為偏底層的項目,比PyTorch社區的900多月活還高。
對于如何吸引習慣于CUDA生態的開發者,昇騰方面認為沒有什么絕招:“就是看你做得好不好,對開發者有沒有價值,哪個更能實現你的需求,你就選哪個。”
昇騰內部強調,客戶的成功是華為成功的前提。“能支持他拼過同行,你就有了優勢。客戶轉了一圈回來說‘還是你們最好’,就是這個道理。”在AI這個沒有標準、快速變化的賽道,不存在“壓制”,拼的是第一時間支持新模型、快速解決安全等后顧之憂的能力。
“生態是一個‘量’的問題。沒有銷售量和使用量,談生態就是空談。”昇騰一位負責人直言,“我把外部開發者等同于‘不要錢的員工’,讓他們真正成為生態體系的一員。”據透露,他們已準備好2000萬激勵資金,“希望開發者們快點給我花完,最好這個季度花完,下個季度我再發2000萬。”
未來極有可能出現一種趨勢,上層軟件和開源社區的特性都是基于昇騰原生的。“這是我們的目標,現在要做的就是維持在95%以上,把分母中加上越多我的東西越好。”
尾聲
DeepSeek-V4的發布稿最后寫了這樣一句話:「不誘于譽,不恐于誹,率道而行,端然正己。」
這句話出自《荀子·非十二子》,意思是不為虛名所誘惑,不因誹謗而恐懼,遵循道義行事,端正自身行為。
這種態度,放在這些年的AI圈尤為珍貴。浪潮一波接一波,先是ChatGPT橫空出世,后有DeepSeek驚艷亮相,再到2026年初Agent(智能體)的全面爆發,每一次技術浪潮似乎都為行業帶來了“潑天的富貴”。
但機會的天降也掩蓋了產品內在的不足。昇騰走過彎路,也被市場的“潑天富貴”掩蓋過問題,關鍵是要能從熱潮中識別出產品改進點,持續投入,自我迭代。
面臨外部的制約,昇騰直面最根本的問題——芯片與生態。在他們看來,任何試圖單純在軟件層面模仿CUDA的行為,本質上都是在為英偉達的生態“添磚加瓦”,一旦緊急情況發生,所有軟硬件都將瞬間“全廢”。
回過頭來看,昇騰的自主路徑走得不算快,但卻很踏實。這正是荀子所說的做人做事的態度,專注于做正確的事,而非活在別人的評價里。
![]()
![]()
![]()
![]()
![]()
![]()
「創新無邊界」是我們的slogan,我們不局限于對互聯網行業的追蹤與探索,更要向未來、向未知的方向大膽邁進。因此,「打造行業新標桿、解讀商業新動向」是我們秉持的方向之一。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.