網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

DeepSeek會(huì)如何賺到10萬(wàn)億美元？

2026-05-24 11:58:30　來(lái)源: AI先鋒官

北京舉報(bào)

分享至

日前，知名科技分析師 GDP發(fā)表了篇長(zhǎng)文，題目是《DeepSeek 的10 萬(wàn)億美元宏大戰(zhàn)略》，在 X 上引發(fā)很大關(guān)注，被認(rèn)為是對(duì) DeepSeek 最深刻的分析。

以下為原文：

你是否曾好奇，DeepSeek會(huì)以怎樣的方式賺取巨額利潤(rùn)？

該企業(yè)并未像GLM、MoonShot、MiniMax等團(tuán)隊(duì)一樣，推出具備競(jìng)爭(zhēng)力的代碼生成相關(guān)產(chǎn)品，也沒(méi)有研發(fā)多模態(tài)、音頻、視頻類模型。時(shí)至今日，其配套部署框架仍未成型，近期才開始招聘相關(guān)人員搭建框架。

長(zhǎng)期來(lái)看，DeepSeek始終堅(jiān)持開源路線，毫不吝嗇地分享自身核心技術(shù)。這一切舉動(dòng)看起來(lái)像是莽撞行事？或是無(wú)端耗費(fèi)資金？計(jì)劃向其注資百億美元的投資者，難道是在白白揮霍錢財(cái)？

在我看來(lái)，事實(shí)恰恰相反。

下文將梳理DeepSeek過(guò)往發(fā)展舉措，剖析其奉行的發(fā)展戰(zhàn)略。

DeepSeek創(chuàng)始人梁文峰著眼于更為宏大的目標(biāo)，企業(yè)自身有望達(dá)成萬(wàn)億美元估值，同時(shí)還將助力打造出規(guī)模達(dá)十萬(wàn)億美元的產(chǎn)業(yè)市場(chǎng)。

回顧DeepSeek的崛起之路

當(dāng)下行業(yè)普遍選擇循序漸進(jìn)優(yōu)化模型、快速落地應(yīng)用產(chǎn)品，代碼類產(chǎn)品便是主流方向，而DeepSeek始終逆勢(shì)而行。

我在 2025 年 1 月 27 日發(fā)過(guò)一條爆火推文，把 DeepSeek 的發(fā)展稱為“英雄之旅（Hero’s Journey）”。

而如今，這個(gè)故事變得更加有趣了。

當(dāng)別人還在構(gòu)建 Dense Model（稠密模型）時(shí)，DeepSeek 去做了訓(xùn)練難度極高的 MoE（Mixture of Experts，混合專家模型）。

他們采用“第一性原理”方法，發(fā)明了新的 GRPO 算法，用來(lái)替代 RL 中主流但昂貴的 PPO 算法。

他們提出 RLVR（Reinforcement Learning from Verified Rewards，基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)），把它作為提升模型推理能力的關(guān)鍵策略。

他們提出了通過(guò) “Multi Token Prediction” 實(shí)現(xiàn) Speculative Decoding（推測(cè)解碼）的簡(jiǎn)單策略，同時(shí)強(qiáng)化了訓(xùn)練信號(hào)。

他們完善了 “ZERO bubble” pipeline，以提升有限 GPU 資源的利用率。

他們發(fā)布了 Expert Load Balancer，使所有人都更容易部署 MoE 模型。尤其是 “Wide Expert Parallel” 策略，可以通過(guò)更大的 batch 極大降低推理成本。

他們發(fā)明了 MLA、DSA、CSA、HCA，用于減少 KV Cache 需求，并讓上下文增長(zhǎng)時(shí)的計(jì)算需求接近恒定。

他們發(fā)明了 Engram，用內(nèi)存換算力。

他們發(fā)明了 mHC，實(shí)現(xiàn)模型規(guī)模增長(zhǎng)時(shí)的穩(wěn)定訓(xùn)練。

還有更多……

在“英雄之旅”這種經(jīng)典敘事結(jié)構(gòu)里，英雄一開始并不知道自己的最終使命是什么。

他會(huì)在旅途中不斷學(xué)習(xí)，并逐漸發(fā)現(xiàn)自己真正的偉大使命。一路上，他會(huì)遇到大量質(zhì)疑者、惡意攻擊者；他自身也存在缺陷與短板；他會(huì)遭遇看似無(wú)法克服的挑戰(zhàn)；但最終，他會(huì)學(xué)會(huì)如何建立聯(lián)盟、如何高效利用有限資源，并最終完成使命。

正因?yàn)槿绱耍^眾才會(huì)為英雄加油。

這也是 DeepSeek 能夠贏得全球粉絲、尊敬，以及爭(zhēng)議的原因。

而接下來(lái)我會(huì)詳細(xì)說(shuō)明：DeepSeek 走到今天，似乎已經(jīng)發(fā)現(xiàn)了他們真正的終極目標(biāo)：不是賣編程訂閱服務(wù)，而是打造一個(gè)價(jià)值 10 萬(wàn)億美元的中國(guó) AI 硬件生態(tài)系統(tǒng)，并讓自身達(dá)到 1 萬(wàn)億美元估值。

與此同時(shí)，他們也會(huì)推動(dòng)西方硬件生態(tài)出現(xiàn)更多新進(jìn)入者。

歡迎各界評(píng)論探討

先來(lái)做一點(diǎn) KV Cache 的有趣計(jì)算

看看 @SemiAnalysis_ 最近這條非常及時(shí)的推文：

DeepSeek 已經(jīng)比任何人都更好地解決了這個(gè)問(wèn)題。

我們先做一點(diǎn)有趣的 KV Cache 數(shù)學(xué)計(jì)算。即使你不喜歡數(shù)學(xué)也沒(méi)關(guān)系。我們使用最近發(fā)布的 KV Cache 計(jì)算器，來(lái)看看 DeepSeek V4 Pro 相比最新的 GLM 和 Qwen 模型，在 KV Cache 上節(jié)省了多少。

計(jì)算條件：

100 萬(wàn) context
KV 精度：8-bit
indexer 精度：16-bit

你也可以自己玩這個(gè)計(jì)算器：

https://kvcache.ai/tools/kv-cache-calculator/

在 100 萬(wàn)上下文長(zhǎng)度下：

DeepSeek V4 只需要 5.48GB HBM
GLM5 需要 60GB HBM
Qwen3-235B-A22B 更夸張，需要 89GB

注意：

DeepSeek 是 1.6T 參數(shù)模型
GLM5 大約 700B 參數(shù)，已經(jīng)使用了 DeepSeek 的 MLA 與 DSA，但還沒(méi)使用最新壓縮 attention
Qwen3-235B-A22B 大約 235B 參數(shù)，使用的是 GQA attention

DeepSeek 在降低內(nèi)存壓力方面做出了基礎(chǔ)性貢獻(xiàn)。

如果這些創(chuàng)新被廣泛采用，它將使長(zhǎng)時(shí)任務(wù) Agent 的成本變得極低，并解鎖下一代應(yīng)用場(chǎng)景。

“瘋狂”背后的邏輯

KV Cache 之所以能做到如此小，而且不犧牲質(zhì)量，是因?yàn)椋?/p>

他們因此能夠以極低價(jià)格提供長(zhǎng)時(shí)間緩存服務(wù)——價(jià)格不到 Sonnet 4.6 Cache Hit 的 3%，并且緩存可保留數(shù)小時(shí)。

對(duì)于長(zhǎng)時(shí)任務(wù)而言，小 KV Cache 可以非常高效地卸載到 SSD，再重新加載。

這大幅降低了對(duì) HBM 的需求。

而 HBM 恰恰是中國(guó) AI 硬件產(chǎn)業(yè)中最短缺、最難制造的內(nèi)存。

DeepSeek 還在 Dual Path 論文中提出了更快從 SSD 加載 KV Cache 的技術(shù)。

KV Cache 壓縮的直接受益者是誰(shuí)？

誰(shuí)能大量供應(yīng) SSD？

別忘了，YMTC 正在崛起為 3D NAND 巨頭。

NAND 讓 DeepSeek 可以避免重復(fù)計(jì)算 KV。

反過(guò)來(lái)，DeepSeek 又為 NAND 與 SSD 創(chuàng)造了巨大的市場(chǎng)——不僅是 YMTC，而是整個(gè)產(chǎn)業(yè)。

不只是 NAND 與 SSD

LPDDR 也有巨大潛力。

它可以用來(lái)存儲(chǔ)模型權(quán)重，并在需要時(shí)“即時(shí)流式傳輸”到 HBM，從而降低 HBM 壓力。

SGLang 團(tuán)隊(duì)已經(jīng)發(fā)表過(guò)相關(guān)博客。

雖然 DeepSeek 沒(méi)有專門為此設(shè)計(jì)，但他們的 MoE 架構(gòu)、大量 Experts，以及 4-bit 權(quán)重，使這種方案非常容易實(shí)現(xiàn)。

這種創(chuàng)新，再加上超高壓縮率的 KV Cache（且?guī)缀鯚o(wú)損），會(huì)顯著降低 HBM 需求。

中國(guó)誰(shuí)在做 LPDDR？

CXMT。

他們?cè)?LPDDR 速度上只落后半代，在密度上只落后一代。

并不遠(yuǎn)。

再加上中國(guó)未來(lái)會(huì)擁有大量 NAND 與 LPDDR，這是否能緩解算力壓力？

答案是：可以。

更聰明地利用內(nèi)存，也能降低 GPU/ASIC 壓力

NAND 用于 KV Cache 的價(jià)值很明顯：

可以更長(zhǎng)時(shí)間保留 KV Cache
降低 HBM 壓力
避免重復(fù)計(jì)算 KV
緩解 GPU 與 ASIC 的算力壓力

那么 LPDDR 是否也能發(fā)揮類似作用？

答案仍然是：可以。

LPDDR 還可以存儲(chǔ)一種叫做 “Engram” 的結(jié)構(gòu)。

在 Engram 論文中，DeepSeek 指出：

雖然 MoE 通過(guò)條件計(jì)算擴(kuò)展模型容量，但 Transformer 缺乏原生的知識(shí)檢索機(jī)制。

因此，它們只能通過(guò)計(jì)算來(lái)低效地模擬“檢索”。

于是他們提出了 Engram：

一種基于 O(1) 哈希查找的現(xiàn)代化 N-gram embedding 模塊。

他們稱之為 “conditional memory（條件記憶）”。

這種方式節(jié)省了大量計(jì)算，但需要大量?jī)?nèi)存來(lái)存儲(chǔ) embedding table。

本質(zhì)上，這是經(jīng)典的“內(nèi)存換算力”。

關(guān)鍵洞察在于：

LPDDR 的內(nèi)存讀取成本，遠(yuǎn)遠(yuǎn)低于完整 Transformer forward pass 的計(jì)算成本。

因此，在大規(guī)模系統(tǒng)中，這種交換極其劃算。

這些取舍非常值得

中國(guó) GPU 與 ASIC 在原始 FLOPs 上，長(zhǎng)期都可能落后于西方 GPU。

原因包括：

沒(méi)有 EUV
晶體管密度不足
封裝技術(shù)落后

因此，“用更多內(nèi)存換更少計(jì)算”這種路線，非常值得。

尤其是在中國(guó)能夠大量生產(chǎn) NAND 與 LPDDR 的情況下。

DeepSeek 的長(zhǎng)期布局

從所有這些創(chuàng)新來(lái)看：

DeepSeek 的目標(biāo)，似乎并不是賺取幾億美元的短期利潤(rùn)。

否則，他們完全可以：

做多模態(tài)
做語(yǔ)音
做視頻

但他們沒(méi)有。

他們?cè)谕娴氖且粋€(gè)耐心的“10 萬(wàn)億美元游戲”：

打造替代性的 AI 硬件生態(tài)。

這不僅僅是讓中國(guó)內(nèi)存廠商成為 AI 硬件關(guān)鍵玩家。

更重要的是：

他們正在從根本上降低 AI 對(duì)資源的需求。

這樣一來(lái)：

更多 GPU/ASIC 廠商會(huì)變得可行
更多網(wǎng)絡(luò)芯片廠商會(huì)變得可行
西方開源生態(tài)也會(huì)受益
新硬件創(chuàng)業(yè)公司也會(huì)受益

所有的跡象都表明了這一點(diǎn)。讓我們來(lái)詳細(xì)重溫一下他們提出的所有創(chuàng)新：

1.在DeepSeek V2中引入了混合專家模型（MoE）和MLA。

MoE使得以減少40%到50%計(jì)算量的方式訓(xùn)練極具智慧的模型成為可能。MLA使得將KV Cache減少90%成為可能。這使得將KV Cache卸載到SSD變得非常高效。

這些想法是在他們2024年5月的DeepSeek V2論文中引入的。它隨后解鎖了DeepSeek V3的訓(xùn)練，這在當(dāng)時(shí)幾乎相當(dāng)于閉源水平，而他們當(dāng)時(shí)僅僅使用了2048張被閹割的H800 GPU。

2 .DSA（在DeepSeek V3.2 Exp中引入）用以減少長(zhǎng)上下文場(chǎng)景下的計(jì)算量，并緩解HBM帶寬的壓力。

它確保了計(jì)算量不會(huì)隨著上下文的增長(zhǎng)而暴漲。

請(qǐng)看下面的圖表——DeepSeek-v3.2的處理時(shí)間在不同上下文長(zhǎng)度下保持平穩(wěn)。

3. mHC于2025年12月在論文《mHC: Manifold-Constrained Hyper-Connections》中引入。

mHC是DeepSeek的一項(xiàng)宏觀架構(gòu)創(chuàng)新，它重新發(fā)明了信息在Transformer層之間流動(dòng)的方式。

自ResNet以來(lái)，行業(yè)一直使用標(biāo)準(zhǔn)的殘差連接（x + F(x)），而mHC將殘差流擴(kuò)展為多條平行的信息高速公路，并允許在它們之間進(jìn)行學(xué)習(xí)型的混合。

但至關(guān)重要的是，它將混合矩陣約束為雙隨機(jī)矩陣（通過(guò)Sinkhorn-Knopp投影到Birkhoff多胞形上），這在數(shù)學(xué)上保證了信號(hào)幅度在任意深度下都能得以保持。

這解決了此前困擾無(wú)約束Hyper-Connections（最初由ByteDance發(fā)明）的災(zāi)難性不穩(wěn)定問(wèn)題——在無(wú)約束情況下，信號(hào)放大在27B規(guī)模下暴增了3000倍，導(dǎo)致訓(xùn)練徹底崩潰。

其計(jì)算成本微乎其微：mHC僅增加了6.7%的實(shí)際訓(xùn)練耗時(shí)，因?yàn)樗鼪](méi)有改變注意力層或FFN層的FLOPs，只是改變了它們的輸出在層與層之間的路由方式。

然而，其性能提升卻是巨大的：在27B參數(shù)規(guī)模下，mHC在BIG-Bench Hard推理上提升了+7.2分，在DROP上提升了+3.2分，在GSM8K數(shù)學(xué)上提升了+2.8分，在MMLU通用知識(shí)上提升了+1.4分，而這一切都是在相同的模型大小和幾乎相同的計(jì)算預(yù)算下實(shí)現(xiàn)的。

從本質(zhì)上講，mHC通過(guò)為網(wǎng)絡(luò)提供更豐富、更具表現(xiàn)力的跨層信息路由拓?fù)浣Y(jié)構(gòu)，在幾乎不增加額外FLOPs成本的情況下，實(shí)現(xiàn)了顯著更高的“單參數(shù)智能”。

mHC是一個(gè)復(fù)雜的架構(gòu)；但它提供了極高的訓(xùn)練穩(wěn)定性和更高的單參數(shù)智能。

1 . CSA和HSA（于2026年4月在DeepSeek V4中引入）通過(guò)壓縮KV Token，將KV需求進(jìn)一步降低了90%，并大幅減少了所需的FLOPs，從而同時(shí)緩解了HBM和GPU/ASIC的壓力。

2 . Engram于2026年第一季度引入，他們?cè)谀撤N程度上用內(nèi)存（LPDDR內(nèi)存）換取了計(jì)算。

如下面的詳細(xì)圖表所示，在相同的總參數(shù)預(yù)算下，Engram帶來(lái)了顯著的性能提升。

3 . 極端專注于計(jì)算與通信的重疊，以及像Dual Path這樣的創(chuàng)新，可以被解釋為應(yīng)對(duì)資源限制的權(quán)宜之計(jì)。

但DeepSeek走得更遠(yuǎn)，他們甚至在ASIC設(shè)計(jì)上為硬件廠商提供建議，以確保他們不會(huì)浪費(fèi)寶貴的硅片資源。

這出自DeepSeek V4的論文。

這是他們?cè)贒eepSeek V4論文中分享的建議。可以肯定的是，他們?cè)谒降紫路窒淼姆答佉嗟枚唷?/p>

4 . 對(duì)TileLang的投入指向了同一個(gè)始終如一的方向：他們不僅是在解決自己的算力荒，更是在讓中國(guó)的硬件生態(tài)系統(tǒng)具備與西方生態(tài)系統(tǒng)競(jìng)爭(zhēng)的能力。

有了TileLang，只需開發(fā)一次算子內(nèi)核（用于計(jì)算的代碼），就可以在多個(gè)已提供TileLang后端的硬件平臺(tái)上成功運(yùn)行。

我預(yù)計(jì)中國(guó)其他所有的實(shí)驗(yàn)室也會(huì)加入進(jìn)來(lái)——間接幫助中國(guó)硬件廠商應(yīng)對(duì)“CUDA護(hù)城河”。這也解鎖了更多西方硬件（如AMD）的可能性。

注意：中國(guó)的許多AI平臺(tái)要么提供CUDA兼容性，要么提供CUDA轉(zhuǎn)換層：Moore Threads、MetaX、Biren和Iluvatar CoreX是通過(guò)轉(zhuǎn)換層實(shí)現(xiàn)CUDA兼容度最高的中國(guó)芯片。他們（在理論上）不需要TileLang。

大規(guī)模強(qiáng)化學(xué)習(xí)（RL）與RSI

通過(guò)獲取更多的算力（得益于更多潛在的硬件選擇）以及計(jì)算需求的降低，DeepSeek可以承擔(dān)更具雄心的訓(xùn)練項(xiàng)目，尤其是RL后訓(xùn)練（post training）。

RL涉及生成大量的軌跡（trajectories）——生成數(shù)萬(wàn)億的Token。這會(huì)很快變得非常昂貴。

此外，為了訓(xùn)練1M上下文的模型，你需要生成那么長(zhǎng)的軌跡。為如此長(zhǎng)的軌跡訓(xùn)練模型，才能夠解鎖長(zhǎng)文本任務(wù)。

此外，由于選擇增加，DeepSeek可以獲得更多硬件，這將使自動(dòng)化研究（RSI）成為可能。

RSI涉及AI自身來(lái)設(shè)計(jì)和開展實(shí)驗(yàn)。這種方法包含大量的試錯(cuò)，成本會(huì)迅速飆升。

然而，RSI對(duì)于探索整個(gè)設(shè)計(jì)空間至關(guān)重要。DeepSeek在邁向AGI以及隨后的ASI之前，需要具備RSI的能力。

DeepSeek今天所做的，就是整個(gè)行業(yè)明天要做的：

DeepSeek圍繞混合專家模型（MoE）、MLA、DSA的創(chuàng)新，已經(jīng)被來(lái)自全球和中國(guó)其余的AI實(shí)驗(yàn)室所采納。

例如，ZAI（GLM系列模型的創(chuàng)造者）使用了MLA和DSA。Kimi（Moonshot）采用了MLA，并且毫不避諱地表示他們的架構(gòu)是基于DeepSeek的架構(gòu)。

作為回報(bào)，DeepSeek使用了最早由Kimi（Moonshot）用于大規(guī)模訓(xùn)練的Muon優(yōu)化器。

（注：MoE于2017年在Google被發(fā)明，Noam Shazeer是關(guān)鍵作者。DeepSeek將其應(yīng)用到了極大的規(guī)模并發(fā)明了自己的獨(dú)門絕技。 Muon（由Newton-Schulz正交化的動(dòng)量）

優(yōu)化器由機(jī)器學(xué)習(xí)研究員Keller Jordan于2024年底創(chuàng)建。Kimi（Moonshot）團(tuán)隊(duì)是第一個(gè)將其投入大規(guī)模應(yīng)用的人。）

那么如何賺錢呢？

讓我們來(lái)研究一下OpenAI這個(gè)有趣的例子。

OpenAI獲得了根據(jù)算力消耗里程碑以低價(jià)購(gòu)買AMD和Cerebras股票的認(rèn)股權(quán)證/期權(quán)。這對(duì)AMD和Cerebras來(lái)說(shuō)是一筆偉大的交易。有了OpenAI對(duì)他們的綁定，使他們更有可能在長(zhǎng)期內(nèi)取得成功。

引自AMD的公告：“作為協(xié)議的一部分，為了進(jìn)一步對(duì)齊戰(zhàn)略利益，AMD已向OpenAI發(fā)行了高達(dá)1.6億股AMD普通股的認(rèn)股權(quán)證，結(jié)構(gòu)設(shè)計(jì)為隨著特定里程碑的達(dá)成而分批行權(quán)。第一批隨著初始1吉瓦（GW）的部署而行權(quán)，其余批次隨著采購(gòu)規(guī)模擴(kuò)大到6吉瓦而逐步行權(quán)。行權(quán)進(jìn)一步與AMD達(dá)到特定的股價(jià)目標(biāo)，以及OpenAI達(dá)成使AMD能夠規(guī)模化部署所需的技術(shù)和商業(yè)里程碑相掛鉤。”

我預(yù)測(cè)DeepSeek將與多家中國(guó)的內(nèi)存、ASIC、CPU和網(wǎng)絡(luò)棧廠商達(dá)成此類協(xié)議，并與他們緊密合作，以確保他們的硬件棧能夠勝任頂尖的AI工作負(fù)載。

鑒于西方（包括東亞盟友）所有AI股票的總市值遠(yuǎn)遠(yuǎn)超過(guò)10T USD。這種“通過(guò)授予股權(quán)進(jìn)行協(xié)作”的方法，讓DeepSeek能夠幫助在中國(guó)創(chuàng)造一個(gè)同樣巨大的產(chǎn)業(yè)，并在自己實(shí)現(xiàn)1T USD估值的同時(shí)，分得屬于自己的一塊蛋糕。

這將使他們能夠賺到多得多的錢，同時(shí)也能實(shí)現(xiàn)他們用自己的話所說(shuō)的“讓AGI惠及每個(gè)人”的目標(biāo)。

Liang Wenfeng——Jim Simons的崇拜者——是一位極其聰明的資本家，絕對(duì)不會(huì)錯(cuò)過(guò)這一點(diǎn)！

如果你回顧一下DeepSeek迄今為止所做的一切，這是唯一說(shuō)得通的邏輯……

這些是關(guān)鍵的AI股票。未顯示的還有超大規(guī)模云廠商（Hyper-scalars）及其他許多公司。

關(guān)于這些創(chuàng)新的詳細(xì)博客將于本周末發(fā)布，如果感興趣請(qǐng)關(guān)注我的Substack

https://polymath707.substack.com/ ...

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.