網易首頁 > 網易號 > 正文 申請入駐

DeepSeek V4登榜,全球開源前5都是中國模型了

0
分享至

4月24日,沉寂15個月的DeepSeek發布并開源了全新一代模型DeepSeek-V4。這款搭載百萬詞元超長上下文,在Agent 能力、世界知識、推理性能方面大幅提升,被海外開發者直呼 “鯨魚回歸”。

在剛剛更新的全球權威Artificial Analysis智能指數開源模型榜單上,DeepSeek V4 Pro(Max)相比上一代模型V3.2提升了10分,以52分的成績進入全球開源模型的前兩位。


來源:Artificial Analysis智能指數官網

拿到54分成績的是在本周一發布的中國萬億參數開源模型Kimi K2.6,也是全球排名前五的開源模型中,同時支持圖片和視頻理解的多模態模型,其他四個是純文本模型。

前后相差不到四天,兩個萬億參數級開源模型先后落地。

巧合的是,這并非中國AI開源雙雄的首次 “不謀而合”。從2025年1月至今,DeepSeek與Kimi已發生多次技術發布“撞車”,從推理模型、注意力架構到數學推理,再到此次萬億參數大模型迭代,兩家AI創業公司始終踩著同一條技術節拍前行。

DeepSeek與Kimi的技術“撞車”并非偶然,而是對AGI技術頂峰的同向追逐,更是中國開源AI陣營抱團突圍、直面美國閉源巨頭的戰略默契。當全球AI競爭從單一技術比拼升級為生態對抗,這對由兩位廣東籍創始人帶領的創業雙子星,正以 “技術共生、互利互惠” 的中國模式,嘗試改寫全球AI格局。

連續四次技術“撞車”

2025年1月20日,DeepSeek-R1與Kimi K1.5之間的“撞車”是最戲劇性的一次。

當晚,DeepSeek發布R1推理模型并以MIT協議完全開源。不到兩小時后,Kimi K1.5多模態思考模型亮相。兩個模型的目標高度一致:讓大模型從“張嘴就來”進化為“先想后說”——即通過強化學習跑通Long-CoT(長思維鏈)推理,復現OpenAI-o1的核心能力。

隨后,OpenAI在一篇官方論文中點名指出,DeepSeek和Kimi是“最早復現OpenAI-o1 Long-CoT”的兩家公司。 當全世界都在迷茫OpenAI的o1思路時,中國這兩家公司幾乎同步給出了獨立的復現方案。


來源:OpenAI《Competitive Programming with Large Reasoning Models》論文

2025年2月,雙方不約而同地改造Transformer注意力機制。DeepSeek發布NSA(Native Sparse Attention,原生稀疏注意力),Kimi發布MoBA(混合塊注意力)。稀疏注意力是解決Transformer長上下文成本爆炸問題的關鍵方向,能夠大幅降低KV緩存占用和注意力計算量。兩家在幾乎同一個時間窗口給出了各自的創新解法。

2025年4月,Kimi推出Kimina-Prover Preview數學推理專項模型,專注數學定理證明與復雜推理。不久后,DeepSeek-Prover-V2發布。兩者都走了“自驗證”路線——通過自我驗證機制提升數學推理的準確性和可靠性。

2026年初,DeepSeek發布mHC(流形約束超鏈接),系統性地改造深度神經網絡中沿用了近十年的傳統殘差連接結構,增強深層網絡信號傳播的穩定性。兩個月后,Kimi放出新成果“注意力殘差”,將Transformer的核心原理“注意力”重新應用到殘差連接上,引發AI大神Andrej Karpathy和埃隆·馬斯克等人點贊,兩人都對該技術表現出濃厚興趣。

另外值得關注的一個細節是,DeepSeek V4的訓練方案中的關鍵變化之一是引入Muon優化器。Muon由Keller Jordan等人提出,但最初僅在小模型上驗證其效果。而Kimi在2025年2月發布的論文《Muon is Scalable for LLM Training》驗證了Muon在480億參數模型的效果。在2025年7月發布的萬億參數模型K2上繼續使用Muon優化器,并且做了改進解決訓練不穩定的難題,最終在在相同訓練量下實現了2倍的token效率提升。

楊植麟在今年3月英偉達GTC 2026演講中,專門用最長篇幅講解Muon。如今,這項技術成為DeepSeek V4在架構層的三項關鍵升級之一,提升了訓練穩定性。


來源:Deepseek V4的Hugging Face主頁

開源陣營向閉源巨頭發起總攻

OpenAI在DeepSeek V4發布前一天上線了GPT-5.5,每百萬輸出token定價30美元。而DeepSeek V4 Pro的輸出定價僅為每百萬token 24元人民幣(約3.4美元),約為GPT-5.5的十分之一。

DeepSeek V4-Pro在發布的公眾號中稱,其在數學、STEM和競賽型代碼的評測中超越所有已公開開源模型。

而Kimi K2.6則在公眾號中稱,新模型在Humanity’s Last Exam全工具測試中以54.0%的得分登頂;在DeepSearchQA深度檢索中以92.5%的得分領先于GPT-5.4、Gemini 3.1 Pro和Claude Opus 4.6。

OpenRouter數據顯示,K2.6在發布后迅速躍居每日榜單的榜首,跟DeepSeek一起位居全球前五。


來源:OpenRouter官網(2026年04月25日)

Meta新模型Muse Spark發布時,官方博客對比的兩個基準模型正是DeepSeek和Kimi。

中美科技競爭的一個核心戰場是算力供應鏈。此次,DeepSeek V4明確支持華為昇騰950芯片。DeepSeek在官方定價說明的小字腳注中注明:“受限于高端算力,目前Pro的服務吞吐十分有限,預計下半年昇騰950超節點批量上市后,Pro的價格會大幅下調”。華為方面同步宣布,昇騰超節點全系產品已完成對V4的適配與支持,通過芯模技術緊密協同,實現了高吞吐、低時延的推理部署。

Kimi在國產芯片領域同樣走在前列。Kimi K2.6支持國產芯片混合推理,其技術路線強調在端側和云端協同運行,降低對英偉達CUDA生態的依賴。Kimi從K2 Thinking就加入了INT4量化技術——通過模型量化推理,顯著提升了對國產加速芯片的兼容性。華為昇騰官方平臺也披露,已完成Kimi K2.5在昇騰AI上的部署,實現多模態推理性能的全面躍升。

兩家同時推國產芯片適配:DeepSeek助力昇騰,Kimi開源異構推理路線。

黃仁勛在英偉達2026年度GPU技術大會的主題演講中,用來展示下一代Blackwell Ultra芯片性能的大模型,就是Kimi K2.5,將中國開源模型作為衡量下一代GPU的標桿。


來源:黃仁勛在英偉達GTC2026大會的主題演講

梁文鋒與楊植麟,兩個廣東人,相差八歲,一位從量化跨界,一位深耕學術。如今,他們各自帶領的團隊分別成長為中國的“萬億開源頭部”,推動行業協同互補的“團戰”。梁文鋒和楊植麟都相信,開源讓每個企業、每個研究者非常低門檻地獲取智能,是推動AI發展的最重要基石。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
太缺德!門口突然添兩座墳,開門就能見到,孩子晚上嚇得不敢出門

太缺德!門口突然添兩座墳,開門就能見到,孩子晚上嚇得不敢出門

川渝視覺
2026-04-19 21:31:23
美國出局,解放軍已進臺海,臺軍低調行事,島內為直面統一留后路

美國出局,解放軍已進臺海,臺軍低調行事,島內為直面統一留后路

補懂事的孩紙
2026-04-25 14:57:59
外國女人!天生就自帶飽滿骨架,和圓潤線條

外國女人!天生就自帶飽滿骨架,和圓潤線條

飛娛日記
2026-04-15 01:44:26
揭秘武漢江岸區江湖大佬李平貴,橫行江岸20年,斂財數十億!

揭秘武漢江岸區江湖大佬李平貴,橫行江岸20年,斂財數十億!

好笑娛樂君每一天
2026-04-25 01:02:44
官媒出手!被嘲“粉底液將軍”的張凌赫,沒想到口碑開始迎來反轉

官媒出手!被嘲“粉底液將軍”的張凌赫,沒想到口碑開始迎來反轉

洲洲影視娛評
2026-04-25 17:10:13
破防了!杰倫再遭傷病,衛冕冠軍迎噩耗,真要止步季后賽首輪?

破防了!杰倫再遭傷病,衛冕冠軍迎噩耗,真要止步季后賽首輪?

體育大朋說
2026-04-25 10:33:29
59歲王志文已準備好了后事,一切從簡,骨灰回歸自然,遺憾公開!

59歲王志文已準備好了后事,一切從簡,骨灰回歸自然,遺憾公開!

翰飛觀事
2026-04-13 22:14:07
快訊!美國傳來新消息!

快訊!美國傳來新消息!

達文西看世界
2026-04-25 13:38:56
73歲天賜父親訴說太辛苦,大女兒來家里帶妹妹,太暖心了

73歲天賜父親訴說太辛苦,大女兒來家里帶妹妹,太暖心了

童叔不飆車
2026-04-19 11:09:23
火箭絕望的并非出局而是以下三件事!杜蘭特被孤立,烏度卡留隊

火箭絕望的并非出局而是以下三件事!杜蘭特被孤立,烏度卡留隊

去山野間追風
2026-04-25 12:12:33
直沖31℃!四川雷雨大風要來了

直沖31℃!四川雷雨大風要來了

魯中晨報
2026-04-25 09:28:39
西班牙19歲網球天才打瘋了!橫掃世界第8,世界第一都來湊熱鬧!

西班牙19歲網球天才打瘋了!橫掃世界第8,世界第一都來湊熱鬧!

仰臥撐FTUer
2026-04-25 09:33:06
媒體人:北控邊緣化張帆孟子凱自斷一臂,現狀讓人可惜和痛心

媒體人:北控邊緣化張帆孟子凱自斷一臂,現狀讓人可惜和痛心

懂球帝
2026-04-25 15:51:09
“14歲少年手搓渦輪噴氣發動機”翻車  網友:哪家少爺?

“14歲少年手搓渦輪噴氣發動機”翻車 網友:哪家少爺?

可達鴨面面觀
2026-04-24 15:36:05
弗格森力挺!曼聯新帥人選浮出水面,這次可能真選對了

弗格森力挺!曼聯新帥人選浮出水面,這次可能真選對了

瀾歸序
2026-04-25 06:49:21
30多家法院集體引用一部“空氣法”:這不是荒唐劇,是恐怖片

30多家法院集體引用一部“空氣法”:這不是荒唐劇,是恐怖片

迷世書童H9527
2026-04-25 14:15:25
事態升級,中方開打第二波反擊,高市或突然辭職,石破茂已扛旗

事態升級,中方開打第二波反擊,高市或突然辭職,石破茂已扛旗

芳芳歷史燴
2026-04-25 00:45:20
家長曬“10歲女兒臭腳”,網友:父母童年凄慘,女兒也會養得很差

家長曬“10歲女兒臭腳”,網友:父母童年凄慘,女兒也會養得很差

妍妍教育日記
2026-04-16 08:00:07
新一輪降雨26日始,暴雨下4天,30日冷空氣南下確定,強度有分歧

新一輪降雨26日始,暴雨下4天,30日冷空氣南下確定,強度有分歧

風云圈天氣
2026-04-25 09:31:28
多名院士調查發現:吃一口放久變軟的香蕉,或等于進一次毒?真假

多名院士調查發現:吃一口放久變軟的香蕉,或等于進一次毒?真假

荊醫生科普
2026-04-25 16:03:38
2026-04-25 18:00:49
第一財經資訊 incentive-icons
第一財經資訊
第一財經官方賬號
251499文章數 622123關注度
往期回顧 全部

科技要聞

DeepSeek V4發布!黃仁勛預言的"災難"降臨

頭條要聞

伊朗最高領袖一條腿截肢面部嚴重燒傷 通信方式披露

頭條要聞

伊朗最高領袖一條腿截肢面部嚴重燒傷 通信方式披露

體育要聞

火箭0-3觸發百分百出局定律:本季加時賽9戰8敗

娛樂要聞

鄧超最大的幸運,就是遇見孫儷

財經要聞

90%訂單消失,中東旺季沒了

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態度原創

教育
藝術
時尚
房產
軍事航空

教育要聞

秀我中國|當大學生之前,先來村小當“小先生”

藝術要聞

美國發現一部《十七帖》!這字還原真實的王羲之筆法,放大10倍仍無瑕疵

上新|| 入夏第一件短袖,買它!

房產要聞

新一輪教育大爆發來了!海口,開始瘋狂建學校!

軍事要聞

美防長:戰事不會“沒完沒了”

無障礙瀏覽 進入關懷版