網易首頁 > 網易號 > 正文申請入駐

總理座談會上的兩位年輕人，先后交出“萬億答卷”

2026-04-27 08:44:07　來源: 智谷趨勢

廣東舉報

分享至

DeepSeek V4昨天終于發布了。

V4模型擁有1.6萬億參數，100萬token上下文，再次刷新了開源模型的記錄。從春節開始被大家調侃了三個月的“下周一定”，終于一錘定音。

但我們翻完V4近60頁的技術文檔，突然反應過來一件事。這已經是本周第二個中國萬億開源模型了。

周一，Kimi K2.6剛剛開源。萬億參數MoE模型，支持300個子Agent協同，OpenRouter調用量直接沖到全球第一。

同一周，兩個萬億參數中國開源模型先后落地。

再看V4文檔里明確寫著的Muon優化器，正是月之暗面去年在Kimi K2中率先驗證的技術。而K2.6底層架構采用的MLA注意力機制，來自DeepSeek。

而這兩家公司的創始人，楊植麟和梁文鋒，在過去14個月里先后走進了國務院總理李強的座談會現場。一個33歲，一個40歲。而這兩個人，都來自廣東。

當“人工智能+”成為國家戰略，兩個廣東年輕人正在交出高度同步的答卷。

兩個廣東年輕人，先后坐到了總理對面

4月10日下午，李強總理主持召開經濟形勢專家和企業家座談會。8位受邀代表中，有7位是長期參與宏觀政策討論的經濟學者和央國企代表，另一位是全場唯一的90后，月之暗面創始人楊植麟。

李強在會上明確提出，“深化拓展‘人工智能+’，加快制造業數智化轉型”。對于一家做基礎大模型的公司來說，這句話既是方向，也是命題。10天后，Kimi K2.6開源。又過4天，DeepSeek V4上線。

更耐人尋味的，是14個月前的另一次對話。

2025年1月20日，李強召開過一場同級別的座談會。那天坐在9位發言代表中的，是深度求索創始人梁文鋒。當晚，DeepSeek開源了推理模型R1，引發全球熱議，被西方媒體稱為AI界的“斯普特尼克時刻”。

同一天，月之暗面發布了對標OpenAI o1的k1.5。兩家公司從這一天起，不約而同站到了同一條賽道上。

14個月，兩場座談會，兩位AI創業者先后坐到總理對面。

楊植麟1992年生于廣東汕頭，保送清華，CMU博士，師從蘋果AI研究負責人和DeepMind首席科學家。到2024年春節，公司估值已突破25億美元。

梁文鋒1985年生于廣東湛江吳川，父親是小學老師。吳川一中高考狀元，浙大碩士。2015年創辦幻方量化，四年后管理規模突破100億，2021年突破1000億?？拷灰踪崄淼腻X，他一直在悄悄買算力——2021年“螢火二號”搭載了約1萬張英偉達A100，那時候國內擁有超過1萬枚GPU的公司不超過5家。

一個從潮汕走進國際頂級實驗室，一個從粵西打進算力牌桌。出發點天差地別，卻在同一個房間里先后給出了“萬億答卷”。

梁文鋒說過一句話：“中國必然需要有人站到技術的前沿。”現在，這句話多了一個廣東版本的注腳。

頂尖玩家總在同一個山口相遇

回看過去15個月，DeepSeek和Kimi的技術方向和發布時機，對齊到讓人懷疑是約好的。

2025年1月，DeepSeek-R1推理模型和Kimi K1.5多模態思考模型同日上線，相隔僅兩小時。OpenAI的論文也指出，這兩家是最早復現o1思維鏈的團隊。

2025年2月，兩家前后腳發論文，都在改造Transformer注意力機制。DeepSeek的NSA做原生稀疏注意力，Kimi的MoBA做混合塊注意力。

2026年4月，萬億開源模型Kimi K2.6和DeepSeek V4同周上線。

三次標志性的同步，方向出奇一致。

除此之外，讓海外技術圈真正感到震動的還有一件事。今年3月，Kimi放出了「注意力殘差」技術，將Transformer的核心原理「注意力」應用到殘差連接上，在海外技術社區引發了廣泛關注和激烈討論。一家中國創業公司在動Transformer的地基，這件事本身就足夠讓硅谷技術圈緊張起來。

但更有意思的，是表面之下的技術交織。

你用我驗過的注意力，我用你驗過的優化器

把Kimi K2.6和DeepSeek V4的官方技術文檔擺在一起，會發現一張近乎疊影的圖譜。

先看Kimi K2.6，這款模型總參數1萬億，激活32B，384個專家，256K上下文窗口。技術路線上沿用了MLA注意力機制，使用了一款名為MuonClip的二階優化器，并引入了可伸縮至300個子智能體、4000步協同的Agent Swarm能力。

這樣的智能體集群能力使得其可以做到讓一個金融撮合引擎在13小時內被自主重構，代碼改動超過4000行。

而剛發布的DeepSeek V4是一款總參數1.6萬億，激活49B的開源模型，上下文窗口一次推到100萬token。為了實現百萬Token的上下文，技術文檔明確提到采用Muon優化器，推理算力降到V3.2的27%，KV緩存只剩十分之一。

兩份技術文檔上的名詞，各有各的來歷，但逐項對照下來，會發現它們之間已經不是簡單的借鑒，而是交織。

深度求索在2024年5月發布V2時首次公開MLA后，后續在2025年初的V3/R1模型上繼續優化，成為了主流的技術路線。2025年7月，月之暗面也選擇MLA作為K2系列的注意力機制。

Muon的出現則是另一個故事。美國研究員Keller Jordan在2024年底一篇博客里提出這個優化器后，月之暗面2025年2月發表《Muon is Scalable for LLM Training》，第一次在大模型訓練規模上把它穩定下來，并做出了一個更穩健的變種MuonClip，率先在Kimi K2中規?；瘧谩?/p>

一年之后，DeepSeek在V4技術報告里寫下那句："We employ the Muon optimizer for faster convergence and greater training stability."

一項技術創新從深度求索流向月之暗面，另一項又從月之暗面流向深度求索，兩家公司是在彼此驗證過的技術節點上，輪番向前踩一步。

同一張圖譜里也有分岔。

DeepSeek V4設計了CSA（壓縮稀疏注意力）和HCA（重壓縮注意力）交替堆疊，核心假設是長序列中大部分KV條目對當前query貢獻極小，可以安全跳過。Kimi下一代模型探索線性注意力，核心假設是注意力計算本身可以被重新表述為線性形式，把復雜度從序列長度的平方降到線性。

一個在篩選哪些token值得看，一個在改寫“看”這個動作本身的計算規則。殊途同歸，都在往Transformer最要命的成本結構里動刀。

過去十年，中國AI的技術飛輪一直轉在美國。OpenAI發了新論文，中國公司跟著復現；Meta開源了新模型，中國公司拿來微調。

這一次，一家中國公司驗過的技術節點，被另一家中國公司接手，再往前踩一步。中國AI的競爭，正在從“單點爆款”進化成“生態接力”。

硅谷有些公司，已經開始把底座換成中國模型

中國AI的故事，到這里還只是內部故事。

但今年開春以來，硅谷的發布會PPT上，出現了一個讓人意外的變化。

2026年3月，英偉達GTC 2026在美國圣何塞召開。黃仁勛展示下一代Rubin機柜性能的PPT上，訓練基準用的是DeepSeek，推理吞吐和token成本基準用的是Kimi K2-Thinking。同一張PPT，兩個中國開源模型。

同期GTC官方博客介紹新一代DGX Station時，明確列出了這臺工作站支持的前沿開源模型清單，兩款中國模型分別是Kimi K2.5和DeepSeek V3.2。那幾天，楊植麟作為唯一一位來自獨立大模型創業公司的中國嘉賓，在GTC現場做了一場演講。

同一個月更戲劇的事發生在Cursor身上。

2026年3月19日，估值約500億美元、被視為硅谷AI編程頭號玩家的Cursor，發布了新一代旗艦模型Composer 2，對外宣稱“自研”。不到一天，開發者在API日志中截下了請求，發現模型ID字段赫然寫著一串字符："kimi-k2p5-rl-0317-s515-fast"。

馬斯克親自在帖子下留言："Yeah, it's Kimi 2.5."

Cursor聯合創始人Aman Sanger事后承認，他們把市面上能拿到的基座模型跑了一遍，Kimi K2.5得分最高。在Cursor后來放出的技術報告中，這個候選名單里只有GLM5、Kimi K2.5和DeepSeek V3.2——沒有Claude，沒有Gemini，沒有GPT。更關鍵的是，基于Kimi K2.5微調出來的Composer 2，在CursorBench上直接超過了Claude Opus 4.6。

一家年化收入超過20億美元、被稱作“硅谷AI編程之王”的美國公司，選擇清單里原本有Claude、有Gemini、有GPT，但引以為傲的旗艦模型，底子是一家中國公司的開源基座。

幾乎同一時期，日本樂天集團發布旗艦大模型Rakuten AI 3.0，7000億參數，日本經濟產業省資助，官方宣傳為“日本自研”。開發者很快扒出，Hugging Face頁面上帶有deepseek_v3標簽，關鍵結構參數幾乎和DeepSeek V3一致，被廣泛視作基于DeepSeek V3的再訓練版本。

Meta也給了一次背書。發布Muse Spark時，代碼困惑度對比圖里用來對標的外部模型，是Llama 4 Maverick、DeepSeek-V3.1 Base和Kimi-K2 Base。

最硬的數據來自OpenRouter。這個平臺被業界視作全球AI大模型API調用的公共路口。據其公共榜單統計，到2026年一季度，中國開源大模型在該平臺的周Token調用量占比，已從2024年底的個位數上升到60%以上。截至今天，OpenRouter調用量前三中，兩個是中國模型，而他們正是Kimi和DeepSeek。

從黃仁勛的發布會PPT，到硅谷頭部應用的底座模型，再到日本大廠“自研”的底子，“Kimi”和“DeepSeek”這兩個名字，在全球越來越常見。

從追硅谷，到硅谷回頭看中國

“加速探索智能上限”，這句話真正落地，要回到芯片這一層。

DeepSeek V4發布當天，深度求索在推文里寫明V4使用華為昇騰進行推理，并補了一句：“受限于高端算力，目前Pro的服務吞吐十分有限，預計下半年昇騰950超節點批量上市后，Pro的價格會大幅下調?！?/p>

Kimi走的是另一條路。3月的英偉達GTC大會上，楊植麟在圣何塞做了一場主題演講，Kimi K2.5被列入英偉達DGX Station的官方支持清單。但同一時間，月之暗面也在走國產芯片路線。Kimi K2.6開源后，壁仞科技第一時間完成了適配；更早之前，Kimi K2.5已經在國產昇騰平臺上跑通了多模態推理。今年4月，Kimi團隊在一篇論文里提出了“Prefill-as-a-Service”的分離式推理架構，核心思路正是推進國產芯片的混合推理。

一邊是和英偉達保持深度合作，一邊在國產算力上提前布局。

兩條路，同一個方向。當美國不斷收緊高端芯片的閥門，這兩家中國創業公司說明了一件事：擺脫物理算力的卡脖子，不一定只有一條路。

14個月前，梁文鋒走進第一場座談會時，中國AI最需要證明的問題還是“能不能做出一款世界級的基礎模型”。14個月后，楊植麟走進第二場座談會時，問題已經變成“在被封鎖的算力生態里，能不能持續地做，一起做，讓基礎能力的躍遷變成常態”。

答案是能。

“我們不是有意成為一條鯰魚，只是不小心成了一條鯰魚?！绷何匿h2024年夏天說的這句話，在2026年春天再讀，更像一個被時間提前寫好的注腳。

兩年前，楊植麟把月之暗面的雄心形容為“承包一片森林，而不是種一棵樹”。兩年后，這片森林里至少已經長出了兩棵夠得著云層的樹。

過去十年，中國AI在追OpenAI，在追英偉達，在追硅谷。

這一次，輪到硅谷回頭看中國了。

原創不易，感謝有你！

一起轉發出去，讓更多人看到。

?智谷趨勢為中產階級的資本覺醒服務，幫助更多人獲得財富。宏觀經濟、商業邏輯、企業興衰、產業轉型……這里有最真實的中國，有許多人難以察覺到的趨勢信

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.