網易首頁 > 網易號 > 正文申請入駐

楊植麟離“追光的月亮”還有多少個Token？

2026-04-26 19:29:22　來源: 鈦媒體APP

北京舉報

分享至

文 | 影子備忘錄

在社交平臺上，這場對壘被冠以各種戲劇化的標題——“最強開源雙雄的正面較量”、“DeepSeek與Kimi的聽牌時刻”、“AI賽道的冰與火之歌”……人們熱衷于用一切的二元對立來概括這一切，仿佛只有用一種極致化的敘事，才能匹配這場注定被寫進中國AI編年史的競爭。

但在這些喧囂的表面之下，一個更值得追問的問題浮現出來：當DeepSeek用15個月的沉默換來V4的炸場，坐在對面的楊植麟，真的有閑情逸致享受這場競爭嗎？

如果說DeepSeek的焦慮是“選擇焦慮”——是選擇繼續保持沉默還是復出融資、是選擇閉源深耕還是擁抱生態——那么月之暗面楊植麟的焦慮，更像是一種包圍圈的縮窄：一種被技術、商業、資本三股力量同時鎖定，進退維谷的“生存焦慮”。

而這種焦慮的表達，不僅僅是個人層面的不安，更是一家初創公司在一個萬億美金級別的賽道中，面臨“既要又要”的戰略困境時的真實寫照。

這不是一篇唱衰Kimi的文章。恰恰相反，或許正是因為Kimi站得足夠高、承擔得足夠重，楊植麟的焦慮才具有普遍意義——它折射出的是所有中國獨立大模型初創公司的集體困境。

兩個創始人，兩種“天花板”

要理解楊植麟的焦慮，不能只盯著月之暗面一家公司看，必須將它放在與DeepSeek的比較框架中。這兩家公司不僅是技術上的競合對象，更在敘事層面形成了奇妙的鏡像關系。

2023年初，當投資人討論“誰是中國最有技術理想的人”時，楊植麟的名字占據了一半的回答。這位清華計算機系本科生、卡內基梅隆大學語言技術研究所年級第一的畢業生，以第一作者或共同第一作者身份參與提出的Transformer-XL和XLNet，至今仍是預訓練模型發展史上繞不開的名字。

2026年3月，楊植麟站在英偉達GTC大會的主舞臺上，與OpenAI、DeepMind的負責人并列而坐。他是臺上唯一獨立大模型創業公司的代表，其余均為科技巨頭旗下的項目負責人。這張照片傳回國內時，月之暗面的估值剛在三個月內翻了兩番，成為十角獸企業。

楊植麟GTC大會上發言

這是楊植麟的光環，但光環的另一面是“天花板”。

DeepSeek的創始人梁文鋒則走上了一條截然不同的路徑。2025年1月，DeepSeek R1的發布被華爾街稱為AI界的“斯普特尼克時刻”——英偉達市值單日蒸發近6000億美元，硅谷工程師徹夜研讀技術報告。

但隨后，進入漫長的15個月靜默，DeepSeek幾乎從主流視野中消失。直到2026年4月24日，V4預覽版上線，用1.6萬億參數、百萬上下文和低至每百萬token輸出0.28美元的價格，重塑了整個開源模型的競爭格局。

梁文鋒用15個月的閉關，換來了一個更強大的技術敘事。他在極少數公開場合說過一句話：“我們不做用來講故事的產品，我們做技術本身。”

而楊植麟呢？他身上正在形成一種很典型的創業者光環，但正是這層光環，讓他承受了一種獨特的壓力。這種壓力不是被忽視的焦慮，而是被過度期待卻又無法完全兌現的焦慮。

互相借鑒的競合美學

技術層面，月之暗面和DeepSeek可能是全球大模型領域最有趣的一對競合關系。

2026年4月的這一周，兩家公司上演了一場近乎完美的“隔空握手”。周一，Kimi發布K2.6；周五，DeepSeek V4上線。但在這套表面競爭之下，隱藏著一個更本質的事實：這兩家公司在以共享開源成果的方式，共同定義著國產大模型的技術邊界。

Kimi在2025年7月推出的K2模型，在底層架構上首次大規模驗證了二階優化器Muon，同時采用了DeepSeek首創的MLA（多頭潛在注意力）機制。到了2026年4月，DeepSeek V4在架構上也跟進采用Muon優化器，取代了過去已經使用了十年的Adam優化器。有評論形象地概括了這一現象：“你用我的架構，我用你的優化器”。

這種相互借鑒絕非偶然。開源正是中國AI公司加速追趕全球領先者的關鍵杠桿。中國目前唯二總參數超過萬億、已權重公開的模型，正是DeepSeek和Kimi。

但它們的技術側重點形成了差異化的分工。

DeepSeek V4的核心突破在于百萬上下文的成本重構。它采用全新的混合注意力機制，結合Token維度壓縮和DSA稀疏注意力（DeepSeek Sparse Attention），將單token推理計算量壓縮到V3.2的27%，KV Cache降至10%。

這不僅僅是技術指標的提升，更是將百萬上下文從技術演示變成“所有官方服務標配”的基礎設施。與此同時，V4在Agent能力上做了專項優化，還自建了名為DSec的沙箱平臺，單集群可并發管理數十萬個沙箱實例，用以支撐Agent強化學習訓練和測評。

Kimi K2.6的方向則更偏向長程編碼和Agent集群。它在Kimi Code Bench內部評測中得分68.2，相較K2.5的57.4提升約20%，最高可支持300個子Agent并行完成4000個協作步驟。K2.6可持續自主運行長達五天，在單次運行中即可獨立完成從文檔到網頁、PPT及表格的多產物端到端交付。

這兩種技術路線，宛如在給一棟大廈同時灌注地基和砌磚——DeepSeek想的是如何把地基建得更寬更穩（百萬上下文的普惠化），Kimi想的是如何讓房子蓋得更高更智能（多Agent協同的根本性進化）。各有所長，但也都各有極限。

值得留意的是，這種技術上的兩條腿走路，恰恰構成了國產大模型最寶貴的資產配置。

燒錢買量還是技術造血？

如果說技術上的相互借鑒為雙方建立了某種“英雄惜英雄”的默契，那么商業化的比拼則撕開了這一切浪漫幻想。

Kimi是獨立大模型公司中明星產品光環最亮的，但這本身也是它最大的包袱。根據業內人士透露的信息，月之暗面手握的資金、人才在國內屬于第一梯隊，但核心產品只有Kimi助手，這導致其收入來源極其有限，免費用戶占絕大多數，付費訂閱轉化率低，API調用量遠不如專注于B端的公司。

2025年，月之暗面做出了一項重大的戰略調整——退出了燒錢買量的軍備競賽，投流費用從前一年的7億元驟降至不足10萬元，轉而聚焦基座模型迭代與Agent產品開發，在半年內發布了K2、K2 Thinking、K2.5三大版本。這種“壯士斷腕”式的轉向，本質上是對商業化困境的直接回應。當用戶增長無法轉化為收入，唯有通過技術造血證明自己的真實價值。

但“技術造血”不是一日之功。楊植麟在2025年11月的內部信中坦言，Kimi海外API收入增長了4倍，海內外付費用戶月環比增速超過170%——但即便如此，從估值來看，月之暗面仍面臨巨大的尷尬：一旦投資人覺得它無法快速變成收入機器，二級市場能否買單就變成了巨大的未知數。

更棘手的是，大模型公司在C端面臨巨頭的降維打擊。有業內人士透露，月之暗面卷入了與大廠的競爭中，結果是在國內沒有打過字節跳動旗下的豆包，同時又錯過了海外市場開拓時間點。

海外相對還是充分競爭的市場，不止GPT和Gemini。如果有大量全球客戶愿意為國產大模型買單，仍存在巨大市場機會，但目前有效出海的領域集中AI視頻領域，而月之暗面在這一賽道上并無突出優勢。

DeepSeek雖然理論上也面臨類似的問題，但它的處境截然不同。梁文鋒過去對外部資金持克制立場，甚至被視作刻意遠離資本市場的行為藝術。但這種被動的“稀缺性”反而為其贏得了議價權。

有消息稱，DeepSeek正尋求融資，目標估值已從最初的至少100億美元上調至超200億美元，超過了月暗的180億美元估值。

估值的天平正在悄然搖擺——2023年楊植麟被視為“最值得投的人”，不到三年，資本方的注意力優先序已經出現了顯著移動。

國際博弈中的鏡像

把目光放得更遠一些，DeepSeek和Kimi的一切故事，都嵌套在一個更大的坐標系中——中美AI競爭和中國開源與閉源的生態博弈。

2026年4月，斯坦福大學HAI發布的《AI指數報告2026》，幾乎在每一篇中文媒體的總結中都突出了一組數字：中國頂尖模型與美國頂尖模型的Elo評分差距僅為2.7%。這意味著中美AI模型性能差距已經幾乎消失，中國的大模型已經在多個維度追平美國的最強產品。

而在中美追平的過程中，DeepSeek和Kimi都扮演了關鍵角色。全球市值最高的英偉達公司在展示下一代芯片性能時，選用的模型正是來自DeepSeek和Kimi。以Kimi K2.5為代表的開源模型，已成為全球芯片廠商測試硬件性能的“基準標尺”——新芯片發布后，需要通過Kimi等模型評測性能提升幅度。

更進一步看，DeepSeek還有一個關于“生態自主”的故事。DeepSeek V4打破了過往長期依賴英偉達芯片的格局，全面選用華為最新昇騰系列芯片作為核心算力底座。對此，英偉達CEO黃仁勛曾在采訪中直言，DeepSeek基于華為平臺開發的新模型“對美國來說將是一個糟糕的結果”。

由此，中國AI產業正在形成兩條相互交織的主線：一條是Kimi的“技術出海路徑”——通過開源模型影響全球研究社區；另一條是DeepSeek的“算力自主路徑”——推動芯片替代和國產算力生態成熟。兩者殊途同歸，但背后的驅動力各不相同。

創始人話語體系

在創始人的宏觀敘事上，楊植麟和梁文鋒的風格形成了有趣的對照。

楊植麟在2026年密集發聲，幾乎每一次都能成為行業焦點。

在英偉達GTC大會上，他系統披露了Kimi的技術路線圖，用三個關鍵詞概括其Scalin策略：Token效率、長上下文、Agent集群。他強調，要推動大模型智能上限的持續突破，必須對優化器、注意力機制及殘差連接等底層基石進行重構。

在中關村論壇上，他則押注了“開源”和“AI自主研究”兩個更宏觀的命題。他提出開源模型正成為全球AI產業的新“標準”，并給出了極具爭議的判斷——“最終如果模型能力達到同等水平，開源會是絕對的勝利者”。他還將AI研發劃分成三個階段：2023—2024年的天然數據與人工標注階段，2025年的人工精選可驗證任務階段，以及2026年起的AI主導研究階段。

在2025年底全員信中還明確了2026年的目標：在產品和商業化上聚焦Agent，不以絕對用戶數量為唯一目標，持續追求智能上限，創造更大的生產力價值，營收規模實現數量級增長。

梁文鋒的公開表達則稀缺得多。但每一次出口，都擲地有聲。

在去年底關于中美AI差距的追問中，他曾這樣坦言：“表面上中國AI與美國比可能僅有一兩年的技術代差，但真實的差距是原創和模仿之差，如果這個差距不改變，我國永遠只能是追逐者，不能做顛覆者……”而在另一次關于AI記憶的討論中，他提出上下文學習與記憶變得可靠的時刻，或許是2026年核心主題。

這背后的差異也恰恰揭示出：梁文鋒可以選擇以“消失”的方式換取更深度的零到一創新，而楊植麟作為一家獨立創業公司的掌舵者，其每一個戰略轉向、每一次公開發聲，都成為資本市場消化的信號。

為什么楊植麟不得不焦慮

“焦慮”不僅是形而上的問題。在實打實的資本戰場，楊植麟的處境正變得越發微妙。

從數據看，月之暗面的融資軌跡足夠驚艷——從2023年6月天使輪的3億美元估值，到2026年初的43億美元（C輪），再到2月的100億美元，三個月內又進一步攀升至3月后的180億美元。漲幅驚人，估值已逼近200億美元級別。

但硬幣的另一面是，一級市場的高估值傳遞到二級市場時的接受度存在巨大不確定性。有業內人士表示，去年底的月暗內部彌漫焦慮情緒——面對智譜和MiniMax接連在港股上市，部門員工難免士氣低落，很多人覺得大模型的窗口期很短，上市機會稍縱即逝。

楊植麟在2025年底還曾在內部展現出不急于上市的坦然，但僅過去了三個月，市場風向就迎來180度轉彎——月之暗面緊接著被爆出“考慮赴港IPO”的傳聞。

轉變得如此之快，答案幾乎只有一種可能性：資本不給足夠長的時間“等一等”了。

更關鍵的是，上市不是簡單的“變現退出”，它意味著更多約束、更多財報追問、每一季度都要向股東交代業績。而Kimi目前的變現模式仍處于艱難的爬坡階段。從收入結構看，月之暗面C端年收入預計約2億，API收入雖有增長但在高180億美元估值面前顯得杯水車薪。即便K2.5在發布不到20天內創造了比過去一整年還多的收入，也仍然不足以將其帶上健康的盈利路徑。

如果把月之暗面比成一家正在修建一座摩天大樓的公司——地基在大肆宣傳中被看成最堅固的，但實際上樓內極缺租賃客戶。上市就是向投資市場開放樣板間，可在大堂里只有零星的參觀者，沒有真正愿意長期付款的“租客”。屆時，資本市場的耐心能維持多久？

盡管兩家公司各走各路，但從投資者的視角看，DeepSeek的估值敘事形態已經對月之暗面形成制約。雖然月之暗面在某些場景被看作中國最具技術競爭力的獨立模型廠商，資本卻開始尋找參照系——DeepSeek R1的引爆效應讓人看到了另一個邏輯：完美閉環（爆款模型→全球影響力→生態吸引力→融資回歸）是可以由一家相對低調的公司完成的。

有消息稱，DeepSeek目前正以月之暗面的部分估值作為參照基準，但估值目標已調至超200億美元，超過了月暗的180億。這本身就說明了一個現象：資本市場愿意給De?epSeek出更高的溢價，或許是因為后者更接近“零到一顛覆者”的敘事。

2026年的中國大模型市場，不再是一個由Kimi獨占話語權的時代。某種意義上，DeepSeek已經成為月之暗面在融資和估值敘事上的天然精神對手——盡管兩家公司的商業模式和戰略方向不盡相同。

而一場無聲的“估值地震”不會因為基本面上雙方各有所長就能被消除。當Kimi準備IPO、DeepSeek也在籌劃融資時，這場座次的排序更有可能被公開討論。如果說楊植麟有什么焦慮是無法回避的，那便是在這場賽跑中，失去了“獨一無二”的標簽后該如何確立自己的不可替代的價值錨點。

結語

盡管用了如此長的篇幅去剖析楊植麟的焦慮——DeepSeek的V4追趕、商業化變現的壓力、上市窗口的逼迫——但在文章的最后，必須堅定不移地表明一種態度：競爭從來不是壞事。恰恰相反，在當前的國際AI博弈格局下，中國最需要的就是DeepSeek與Kimi的持續“互相追趕”。

回顧過去幾年，從Kimi從長文本開局，到最近兩年齊頭奔向底層架構創新，二者今天已經讓中國的開源模型走到了世界前列。根據OpenRouter 2025年的調研數據，全球約有三分之一AI模型的使用量來自中國，OpenRouter的數據表明，僅僅兩年前這個份額還是不可想象的，而DeepSeek在這一份額中處于領先位置。

中國的大模型產業正在經歷一個前所未有的“多極格局”。有的公司選擇閉源深耕，有的選擇開源協作；有的主攻C端超級應用，有的著眼于B端工具開發；有的自研Agent框架開發出集群智能，有的把記憶、上下文作為未來三年核心主戰場。

有專家曾言：未來五年開源模型占比可能達到80%，閉源模型約20%左右——中國在開源模型方面全球領先。更有行業報告指出，中國獨立大模型廠商憑借決策靈活性，有望與互聯網大廠呈現分層競合、互補共生的格局，大廠以算力、數據、生態主導通用基座與C端場景，獨立廠商則聚焦于垂直技術突破和開源創新。

現在，DeepSeek與Kimi的代表性已經超越了國內范疇——英偉達用它們測試下一代芯片，全球OpenClaw社區投票將Kimi K2.5設置為其官方主力模型，頂級閉源產品也在性能評測中被兩家奮起直追。但是，未來的關鍵在于：僅靠兩家公司跑在中國AI浪潮的最前排依然不夠。想讓國產大模型持續性地縮小和國際頂尖模型的距離，需要更多優秀的模型生產者涌現，讓基座模型的性能變得更加多元。

從更廣闊的視角看，中美兩國頂尖模型在Elo評分上只差2.7%。如此微小的差距意味著，任何一家中國模型公司率先抵達下一座性能高地的機會窗口是敞開的。中國大模型的歷史，實際上是在競爭性多元化催生下才逐步寫得精彩——百模大戰不是貶義詞，而是產業趨于成熟的信使。

從這個意義上說，楊植麟的焦慮或許是月之暗面未來走向更成熟的必經一步。但它不該成為公眾唱衰Kimi的理由。相反，我們應該向這兩位創始人不謀私利、一心向前沖的技術精神致敬——梁文鋒如是，楊植麟亦如是。

2026年4月已經走到尾聲。從硅谷GTC大會回到中關村論壇的楊植麟，或許已經無暇顧及外界關于“究竟DeepSeek和Kimi誰更強”的無休無止的口水戰。

因為他很清楚，最終決定哪一株小草率先迎來陽光的，不是狂風暴雨的到來與否，而是根扎得有多深、根扎得有多廣。

在這場國產大模型的暗夜并肩賽跑之中，楊植麟帶出了一條從學術精英到企業領軍人物的實戰磨礪路徑。有資可融、有人可用、有產品可迭代、有Agent可暢享的未來圖景——Kimi離它如今并不遙遠。而從“暗月”走到“追光的月亮”，或許只需要在多走一段布滿焦慮與質疑的暗黑隧道之后的第一步。

隧道盡頭的光亮，來自DeepSeek們，來自Kimi們，也來自更多本土大模型的后發后來者們。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.