日前,知名科技分析師 GDP發(fā)表了篇長(zhǎng)文,題目是《DeepSeek 的10 萬(wàn)億美元宏大戰(zhàn)略》,在 X 上引發(fā)很大關(guān)注,被認(rèn)為是對(duì) DeepSeek 最深刻的分析。
![]()
以下為原文:
你是否曾好奇,DeepSeek會(huì)以怎樣的方式賺取巨額利潤(rùn)?
該企業(yè)并未像GLM、MoonShot、MiniMax等團(tuán)隊(duì)一樣,推出具備競(jìng)爭(zhēng)力的代碼生成相關(guān)產(chǎn)品,也沒(méi)有研發(fā)多模態(tài)、音頻、視頻類模型。時(shí)至今日,其配套部署框架仍未成型,近期才開始招聘相關(guān)人員搭建框架。
長(zhǎng)期來(lái)看,DeepSeek始終堅(jiān)持開源路線,毫不吝嗇地分享自身核心技術(shù)。這一切舉動(dòng)看起來(lái)像是莽撞行事?或是無(wú)端耗費(fèi)資金?計(jì)劃向其注資百億美元的投資者,難道是在白白揮霍錢財(cái)?
在我看來(lái),事實(shí)恰恰相反。
下文將梳理DeepSeek過(guò)往發(fā)展舉措,剖析其奉行的發(fā)展戰(zhàn)略。
DeepSeek創(chuàng)始人梁文峰著眼于更為宏大的目標(biāo),企業(yè)自身有望達(dá)成萬(wàn)億美元估值,同時(shí)還將助力打造出規(guī)模達(dá)十萬(wàn)億美元的產(chǎn)業(yè)市場(chǎng)。
![]()
回顧DeepSeek的崛起之路
當(dāng)下行業(yè)普遍選擇循序漸進(jìn)優(yōu)化模型、快速落地應(yīng)用產(chǎn)品,代碼類產(chǎn)品便是主流方向,而DeepSeek始終逆勢(shì)而行。
我在 2025 年 1 月 27 日發(fā)過(guò)一條爆火推文,把 DeepSeek 的發(fā)展稱為“英雄之旅(Hero’s Journey)”。
而如今,這個(gè)故事變得更加有趣了。
當(dāng)別人還在構(gòu)建 Dense Model(稠密模型)時(shí),DeepSeek 去做了訓(xùn)練難度極高的 MoE(Mixture of Experts,混合專家模型)。
他們采用“第一性原理”方法,發(fā)明了新的 GRPO 算法,用來(lái)替代 RL 中主流但昂貴的 PPO 算法。
他們提出 RLVR(Reinforcement Learning from Verified Rewards,基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)),把它作為提升模型推理能力的關(guān)鍵策略。
他們提出了通過(guò) “Multi Token Prediction” 實(shí)現(xiàn) Speculative Decoding(推測(cè)解碼)的簡(jiǎn)單策略,同時(shí)強(qiáng)化了訓(xùn)練信號(hào)。
他們完善了 “ZERO bubble” pipeline,以提升有限 GPU 資源的利用率。
他們發(fā)布了 Expert Load Balancer,使所有人都更容易部署 MoE 模型。尤其是 “Wide Expert Parallel” 策略,可以通過(guò)更大的 batch 極大降低推理成本。
他們發(fā)明了 MLA、DSA、CSA、HCA,用于減少 KV Cache 需求,并讓上下文增長(zhǎng)時(shí)的計(jì)算需求接近恒定。
他們發(fā)明了 Engram,用內(nèi)存換算力。
他們發(fā)明了 mHC,實(shí)現(xiàn)模型規(guī)模增長(zhǎng)時(shí)的穩(wěn)定訓(xùn)練。
還有更多……
在“英雄之旅”這種經(jīng)典敘事結(jié)構(gòu)里,英雄一開始并不知道自己的最終使命是什么。
他會(huì)在旅途中不斷學(xué)習(xí),并逐漸發(fā)現(xiàn)自己真正的偉大使命。一路上,他會(huì)遇到大量質(zhì)疑者、惡意攻擊者;他自身也存在缺陷與短板;他會(huì)遭遇看似無(wú)法克服的挑戰(zhàn);但最終,他會(huì)學(xué)會(huì)如何建立聯(lián)盟、如何高效利用有限資源,并最終完成使命。
正因?yàn)槿绱耍^眾才會(huì)為英雄加油。
![]()
這也是 DeepSeek 能夠贏得全球粉絲、尊敬,以及爭(zhēng)議的原因。
而接下來(lái)我會(huì)詳細(xì)說(shuō)明:DeepSeek 走到今天,似乎已經(jīng)發(fā)現(xiàn)了他們真正的終極目標(biāo):不是賣編程訂閱服務(wù),而是打造一個(gè)價(jià)值 10 萬(wàn)億美元的中國(guó) AI 硬件生態(tài)系統(tǒng),并讓自身達(dá)到 1 萬(wàn)億美元估值。
與此同時(shí),他們也會(huì)推動(dòng)西方硬件生態(tài)出現(xiàn)更多新進(jìn)入者。
歡迎各界評(píng)論探討
先來(lái)做一點(diǎn) KV Cache 的有趣計(jì)算
看看 @SemiAnalysis_ 最近這條非常及時(shí)的推文:
![]()
DeepSeek 已經(jīng)比任何人都更好地解決了這個(gè)問(wèn)題。
我們先做一點(diǎn)有趣的 KV Cache 數(shù)學(xué)計(jì)算。即使你不喜歡數(shù)學(xué)也沒(méi)關(guān)系。我們使用最近發(fā)布的 KV Cache 計(jì)算器,來(lái)看看 DeepSeek V4 Pro 相比最新的 GLM 和 Qwen 模型,在 KV Cache 上節(jié)省了多少。
計(jì)算條件:
100 萬(wàn) context
KV 精度:8-bit
indexer 精度:16-bit
你也可以自己玩這個(gè)計(jì)算器:
https://kvcache.ai/tools/kv-cache-calculator/
![]()
在 100 萬(wàn)上下文長(zhǎng)度下:
DeepSeek V4 只需要 5.48GB HBM
GLM5 需要 60GB HBM
Qwen3-235B-A22B 更夸張,需要 89GB
注意:
DeepSeek 是 1.6T 參數(shù)模型
GLM5 大約 700B 參數(shù),已經(jīng)使用了 DeepSeek 的 MLA 與 DSA,但還沒(méi)使用最新壓縮 attention
Qwen3-235B-A22B 大約 235B 參數(shù),使用的是 GQA attention
DeepSeek 在降低內(nèi)存壓力方面做出了基礎(chǔ)性貢獻(xiàn)。
如果這些創(chuàng)新被廣泛采用,它將使長(zhǎng)時(shí)任務(wù) Agent 的成本變得極低,并解鎖下一代應(yīng)用場(chǎng)景。
![]()
“瘋狂”背后的邏輯
KV Cache 之所以能做到如此小,而且不犧牲質(zhì)量,是因?yàn)椋?/p>
他們因此能夠以極低價(jià)格提供長(zhǎng)時(shí)間緩存服務(wù)——價(jià)格不到 Sonnet 4.6 Cache Hit 的 3%,并且緩存可保留數(shù)小時(shí)。
對(duì)于長(zhǎng)時(shí)任務(wù)而言,小 KV Cache 可以非常高效地卸載到 SSD,再重新加載。
這大幅降低了對(duì) HBM 的需求。
而 HBM 恰恰是中國(guó) AI 硬件產(chǎn)業(yè)中最短缺、最難制造的內(nèi)存。
DeepSeek 還在 Dual Path 論文中提出了更快從 SSD 加載 KV Cache 的技術(shù)。
![]()
KV Cache 壓縮的直接受益者是誰(shuí)?
誰(shuí)能大量供應(yīng) SSD?
別忘了,YMTC 正在崛起為 3D NAND 巨頭。
NAND 讓 DeepSeek 可以避免重復(fù)計(jì)算 KV。
反過(guò)來(lái),DeepSeek 又為 NAND 與 SSD 創(chuàng)造了巨大的市場(chǎng)——不僅是 YMTC,而是整個(gè)產(chǎn)業(yè)。
![]()
不只是 NAND 與 SSD
LPDDR 也有巨大潛力。
它可以用來(lái)存儲(chǔ)模型權(quán)重,并在需要時(shí)“即時(shí)流式傳輸”到 HBM,從而降低 HBM 壓力。
SGLang 團(tuán)隊(duì)已經(jīng)發(fā)表過(guò)相關(guān)博客。
雖然 DeepSeek 沒(méi)有專門為此設(shè)計(jì),但他們的 MoE 架構(gòu)、大量 Experts,以及 4-bit 權(quán)重,使這種方案非常容易實(shí)現(xiàn)。
![]()
這種創(chuàng)新,再加上超高壓縮率的 KV Cache(且?guī)缀鯚o(wú)損),會(huì)顯著降低 HBM 需求。
中國(guó)誰(shuí)在做 LPDDR?
CXMT。
![]()
他們?cè)?LPDDR 速度上只落后半代,在密度上只落后一代。
并不遠(yuǎn)。
再加上中國(guó)未來(lái)會(huì)擁有大量 NAND 與 LPDDR,這是否能緩解算力壓力?
答案是:可以。
更聰明地利用內(nèi)存,也能降低 GPU/ASIC 壓力
NAND 用于 KV Cache 的價(jià)值很明顯:
可以更長(zhǎng)時(shí)間保留 KV Cache
降低 HBM 壓力
避免重復(fù)計(jì)算 KV
緩解 GPU 與 ASIC 的算力壓力
那么 LPDDR 是否也能發(fā)揮類似作用?
答案仍然是:可以。
LPDDR 還可以存儲(chǔ)一種叫做 “Engram” 的結(jié)構(gòu)。
在 Engram 論文中,DeepSeek 指出:
雖然 MoE 通過(guò)條件計(jì)算擴(kuò)展模型容量,但 Transformer 缺乏原生的知識(shí)檢索機(jī)制。
因此,它們只能通過(guò)計(jì)算來(lái)低效地模擬“檢索”。
于是他們提出了 Engram:
一種基于 O(1) 哈希查找的現(xiàn)代化 N-gram embedding 模塊。
他們稱之為 “conditional memory(條件記憶)”。
這種方式節(jié)省了大量計(jì)算,但需要大量?jī)?nèi)存來(lái)存儲(chǔ) embedding table。
本質(zhì)上,這是經(jīng)典的“內(nèi)存換算力”。
關(guān)鍵洞察在于:
LPDDR 的內(nèi)存讀取成本,遠(yuǎn)遠(yuǎn)低于完整 Transformer forward pass 的計(jì)算成本。
因此,在大規(guī)模系統(tǒng)中,這種交換極其劃算。
![]()
這些取舍非常值得
中國(guó) GPU 與 ASIC 在原始 FLOPs 上,長(zhǎng)期都可能落后于西方 GPU。
原因包括:
沒(méi)有 EUV
晶體管密度不足
封裝技術(shù)落后
因此,“用更多內(nèi)存換更少計(jì)算”這種路線,非常值得。
尤其是在中國(guó)能夠大量生產(chǎn) NAND 與 LPDDR 的情況下。
DeepSeek 的長(zhǎng)期布局
從所有這些創(chuàng)新來(lái)看:
DeepSeek 的目標(biāo),似乎并不是賺取幾億美元的短期利潤(rùn)。
否則,他們完全可以:
做多模態(tài)
做語(yǔ)音
做視頻
但他們沒(méi)有。
他們?cè)谕娴氖且粋€(gè)耐心的“10 萬(wàn)億美元游戲”:
打造替代性的 AI 硬件生態(tài)。
這不僅僅是讓中國(guó)內(nèi)存廠商成為 AI 硬件關(guān)鍵玩家。
更重要的是:
他們正在從根本上降低 AI 對(duì)資源的需求。
這樣一來(lái):
更多 GPU/ASIC 廠商會(huì)變得可行
更多網(wǎng)絡(luò)芯片廠商會(huì)變得可行
西方開源生態(tài)也會(huì)受益
新硬件創(chuàng)業(yè)公司也會(huì)受益
所有的跡象都表明了這一點(diǎn)。讓我們來(lái)詳細(xì)重溫一下他們提出的所有創(chuàng)新:
1.在DeepSeek V2中引入了混合專家模型(MoE)和MLA。
MoE使得以減少40%到50%計(jì)算量的方式訓(xùn)練極具智慧的模型成為可能。MLA使得將KV Cache減少90%成為可能。這使得將KV Cache卸載到SSD變得非常高效。
這些想法是在他們2024年5月的DeepSeek V2論文中引入的。它隨后解鎖了DeepSeek V3的訓(xùn)練,這在當(dāng)時(shí)幾乎相當(dāng)于閉源水平,而他們當(dāng)時(shí)僅僅使用了2048張被閹割的H800 GPU。
![]()
2 .DSA(在DeepSeek V3.2 Exp中引入)用以減少長(zhǎng)上下文場(chǎng)景下的計(jì)算量,并緩解HBM帶寬的壓力。
它確保了計(jì)算量不會(huì)隨著上下文的增長(zhǎng)而暴漲。
請(qǐng)看下面的圖表——DeepSeek-v3.2的處理時(shí)間在不同上下文長(zhǎng)度下保持平穩(wěn)。
![]()
3. mHC于2025年12月在論文《mHC: Manifold-Constrained Hyper-Connections》中引入。
mHC是DeepSeek的一項(xiàng)宏觀架構(gòu)創(chuàng)新,它重新發(fā)明了信息在Transformer層之間流動(dòng)的方式。
自ResNet以來(lái),行業(yè)一直使用標(biāo)準(zhǔn)的殘差連接(x + F(x)),而mHC將殘差流擴(kuò)展為多條平行的信息高速公路,并允許在它們之間進(jìn)行學(xué)習(xí)型的混合。
但至關(guān)重要的是,它將混合矩陣約束為雙隨機(jī)矩陣(通過(guò)Sinkhorn-Knopp投影到Birkhoff多胞形上),這在數(shù)學(xué)上保證了信號(hào)幅度在任意深度下都能得以保持。
這解決了此前困擾無(wú)約束Hyper-Connections(最初由ByteDance發(fā)明)的災(zāi)難性不穩(wěn)定問(wèn)題——在無(wú)約束情況下,信號(hào)放大在27B規(guī)模下暴增了3000倍,導(dǎo)致訓(xùn)練徹底崩潰。
其計(jì)算成本微乎其微:mHC僅增加了6.7%的實(shí)際訓(xùn)練耗時(shí),因?yàn)樗鼪](méi)有改變注意力層或FFN層的FLOPs,只是改變了它們的輸出在層與層之間的路由方式。
然而,其性能提升卻是巨大的:在27B參數(shù)規(guī)模下,mHC在BIG-Bench Hard推理上提升了+7.2分,在DROP上提升了+3.2分,在GSM8K數(shù)學(xué)上提升了+2.8分,在MMLU通用知識(shí)上提升了+1.4分,而這一切都是在相同的模型大小和幾乎相同的計(jì)算預(yù)算下實(shí)現(xiàn)的。
從本質(zhì)上講,mHC通過(guò)為網(wǎng)絡(luò)提供更豐富、更具表現(xiàn)力的跨層信息路由拓?fù)浣Y(jié)構(gòu),在幾乎不增加額外FLOPs成本的情況下,實(shí)現(xiàn)了顯著更高的“單參數(shù)智能”。
![]()
mHC是一個(gè)復(fù)雜的架構(gòu);但它提供了極高的訓(xùn)練穩(wěn)定性和更高的單參數(shù)智能。
1 . CSA和HSA(于2026年4月在DeepSeek V4中引入)通過(guò)壓縮KV Token,將KV需求進(jìn)一步降低了90%,并大幅減少了所需的FLOPs,從而同時(shí)緩解了HBM和GPU/ASIC的壓力。
![]()
2 . Engram于2026年第一季度引入,他們?cè)谀撤N程度上用內(nèi)存(LPDDR內(nèi)存)換取了計(jì)算。
如下面的詳細(xì)圖表所示,在相同的總參數(shù)預(yù)算下,Engram帶來(lái)了顯著的性能提升。
![]()
3 . 極端專注于計(jì)算與通信的重疊,以及像Dual Path這樣的創(chuàng)新,可以被解釋為應(yīng)對(duì)資源限制的權(quán)宜之計(jì)。
但DeepSeek走得更遠(yuǎn),他們甚至在ASIC設(shè)計(jì)上為硬件廠商提供建議,以確保他們不會(huì)浪費(fèi)寶貴的硅片資源。
這出自DeepSeek V4的論文。
![]()
這是他們?cè)贒eepSeek V4論文中分享的建議。可以肯定的是,他們?cè)谒降紫路窒淼姆答佉嗟枚唷?/p>
4 . 對(duì)TileLang的投入指向了同一個(gè)始終如一的方向:他們不僅是在解決自己的算力荒,更是在讓中國(guó)的硬件生態(tài)系統(tǒng)具備與西方生態(tài)系統(tǒng)競(jìng)爭(zhēng)的能力。
有了TileLang,只需開發(fā)一次算子內(nèi)核(用于計(jì)算的代碼),就可以在多個(gè)已提供TileLang后端的硬件平臺(tái)上成功運(yùn)行。
我預(yù)計(jì)中國(guó)其他所有的實(shí)驗(yàn)室也會(huì)加入進(jìn)來(lái)——間接幫助中國(guó)硬件廠商應(yīng)對(duì)“CUDA護(hù)城河”。這也解鎖了更多西方硬件(如AMD)的可能性。
注意:中國(guó)的許多AI平臺(tái)要么提供CUDA兼容性,要么提供CUDA轉(zhuǎn)換層:Moore Threads、MetaX、Biren和Iluvatar CoreX是通過(guò)轉(zhuǎn)換層實(shí)現(xiàn)CUDA兼容度最高的中國(guó)芯片。他們(在理論上)不需要TileLang。
![]()
大規(guī)模強(qiáng)化學(xué)習(xí)(RL)與RSI
通過(guò)獲取更多的算力(得益于更多潛在的硬件選擇)以及計(jì)算需求的降低,DeepSeek可以承擔(dān)更具雄心的訓(xùn)練項(xiàng)目,尤其是RL后訓(xùn)練(post training)。
RL涉及生成大量的軌跡(trajectories)——生成數(shù)萬(wàn)億的Token。這會(huì)很快變得非常昂貴。
此外,為了訓(xùn)練1M上下文的模型,你需要生成那么長(zhǎng)的軌跡。為如此長(zhǎng)的軌跡訓(xùn)練模型,才能夠解鎖長(zhǎng)文本任務(wù)。
此外,由于選擇增加,DeepSeek可以獲得更多硬件,這將使自動(dòng)化研究(RSI)成為可能。
RSI涉及AI自身來(lái)設(shè)計(jì)和開展實(shí)驗(yàn)。這種方法包含大量的試錯(cuò),成本會(huì)迅速飆升。
然而,RSI對(duì)于探索整個(gè)設(shè)計(jì)空間至關(guān)重要。DeepSeek在邁向AGI以及隨后的ASI之前,需要具備RSI的能力。
DeepSeek今天所做的,就是整個(gè)行業(yè)明天要做的:
DeepSeek圍繞混合專家模型(MoE)、MLA、DSA的創(chuàng)新,已經(jīng)被來(lái)自全球和中國(guó)其余的AI實(shí)驗(yàn)室所采納。
例如,ZAI(GLM系列模型的創(chuàng)造者)使用了MLA和DSA。Kimi(Moonshot)采用了MLA,并且毫不避諱地表示他們的架構(gòu)是基于DeepSeek的架構(gòu)。
作為回報(bào),DeepSeek使用了最早由Kimi(Moonshot)用于大規(guī)模訓(xùn)練的Muon優(yōu)化器。
(注:MoE于2017年在Google被發(fā)明,Noam Shazeer是關(guān)鍵作者。DeepSeek將其應(yīng)用到了極大的規(guī)模并發(fā)明了自己的獨(dú)門絕技。 Muon(由Newton-Schulz正交化的動(dòng)量)
優(yōu)化器由機(jī)器學(xué)習(xí)研究員Keller Jordan于2024年底創(chuàng)建。Kimi(Moonshot)團(tuán)隊(duì)是第一個(gè)將其投入大規(guī)模應(yīng)用的人。)
那么如何賺錢呢?
讓我們來(lái)研究一下OpenAI這個(gè)有趣的例子。
OpenAI獲得了根據(jù)算力消耗里程碑以低價(jià)購(gòu)買AMD和Cerebras股票的認(rèn)股權(quán)證/期權(quán)。這對(duì)AMD和Cerebras來(lái)說(shuō)是一筆偉大的交易。有了OpenAI對(duì)他們的綁定,使他們更有可能在長(zhǎng)期內(nèi)取得成功。
引自AMD的公告:“作為協(xié)議的一部分,為了進(jìn)一步對(duì)齊戰(zhàn)略利益,AMD已向OpenAI發(fā)行了高達(dá)1.6億股AMD普通股的認(rèn)股權(quán)證,結(jié)構(gòu)設(shè)計(jì)為隨著特定里程碑的達(dá)成而分批行權(quán)。第一批隨著初始1吉瓦(GW)的部署而行權(quán),其余批次隨著采購(gòu)規(guī)模擴(kuò)大到6吉瓦而逐步行權(quán)。行權(quán)進(jìn)一步與AMD達(dá)到特定的股價(jià)目標(biāo),以及OpenAI達(dá)成使AMD能夠規(guī)模化部署所需的技術(shù)和商業(yè)里程碑相掛鉤。”
![]()
我預(yù)測(cè)DeepSeek將與多家中國(guó)的內(nèi)存、ASIC、CPU和網(wǎng)絡(luò)棧廠商達(dá)成此類協(xié)議,并與他們緊密合作,以確保他們的硬件棧能夠勝任頂尖的AI工作負(fù)載。
鑒于西方(包括東亞盟友)所有AI股票的總市值遠(yuǎn)遠(yuǎn)超過(guò)10T USD。這種“通過(guò)授予股權(quán)進(jìn)行協(xié)作”的方法,讓DeepSeek能夠幫助在中國(guó)創(chuàng)造一個(gè)同樣巨大的產(chǎn)業(yè),并在自己實(shí)現(xiàn)1T USD估值的同時(shí),分得屬于自己的一塊蛋糕。
這將使他們能夠賺到多得多的錢,同時(shí)也能實(shí)現(xiàn)他們用自己的話所說(shuō)的“讓AGI惠及每個(gè)人”的目標(biāo)。
Liang Wenfeng——Jim Simons的崇拜者——是一位極其聰明的資本家,絕對(duì)不會(huì)錯(cuò)過(guò)這一點(diǎn)!
如果你回顧一下DeepSeek迄今為止所做的一切,這是唯一說(shuō)得通的邏輯……
![]()
這些是關(guān)鍵的AI股票。未顯示的還有超大規(guī)模云廠商(Hyper-scalars)及其他許多公司。
關(guān)于這些創(chuàng)新的詳細(xì)博客將于本周末發(fā)布,如果感興趣請(qǐng)關(guān)注我的Substack
https://polymath707.substack.com/ ...
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.