網易首頁 > 網易號 > 正文 申請入駐

剛剛,DeepSeek 悶聲開源,觸摸 GPU 性能上限

0
分享至

DeepSeek 又悄悄開源了一個項目,一套直接榨干 H100/H200/B200 的 GPU Kernel 庫,名字叫 TileKernels


它和之前放出來的 FlashMLA、DeepGEMM、DeepEP 是一個級別的「內功心法」,只不過這次換了TileLang來寫

簡介

TileKernels 是 DeepSeek 開源的一組專門為 LLM 訓練和推理優化的 GPU Kernel 集合

用 DeepSeek 官方自己的話說:

? Most kernels in this project approach the limit of hardware performance regarding the compute intensity and memory bandwidth. Some of them have already been used in internal training and inference scenarios.

翻譯一下就是:這些 kernel 基本已經摸到硬件性能上限了,無論是算力還是顯存帶寬,而且其中相當一部分已經在 DeepSeek 內部的訓練和推理里用過了

換句話說,這是從 DeepSeek 自家流水線里拆出來直接開源的真家伙,不是實驗室玩具

核心功能一覽:

  • Gating — MoE 路由里的 Top-k 專家選擇和打分

  • MoE Routing — Token 到 Expert 的映射、融合擴展/歸約、權重歸一化

  • Quantization — Per-token / per-block / per-channel 的 FP8 / FP4 / E5M6 量化,還把 SwiGLU 和量化融合在一起做

  • Transpose — 批量轉置

  • Engram — 融合了 RMSNorm、前向/反向傳播、權重梯度歸約的 Engram 門控 kernel

  • Manifold HyperConnection (mHC) — 包含 Sinkhorn 歸一化、混合拆分/應用的超連接 kernel

  • Modeling — 用 torch.autograd.Function 把底層 kernel 包成可訓練層(Engram Gate、mHC Pipeline)

看完這個列表我的第一反應是:這不就是 DeepSeek V3 / R1 那套 MoE + FP8 訓練體系的核心零件嗎?

  • MoE 路由、Gating、Token-to-Expert 映射 → V3 的 MoE 架構

  • FP8 / FP4 / E5M6 量化 + 融合 SwiGLU → V3 的低精度訓練和 V3.2 的量化推理

  • Engram、Manifold HyperConnection → 這倆名字就很"研究院",大概率和后續模型架構相關

關于 TileLang:為啥不直接寫 CUDA

這里插播一下,TileKernels 不是用傳統 CUDA 或 Triton 寫的,而是用的 TileLangtile-ai/tilelang

TileLang 是一門基于 TVM 的領域特定語言(DSL),專門用來寫高性能 GPU Kernel


它的定位和 Triton 有點像,但更"Pythonic",而且官方號稱:

  • 80 行 Python 代碼就能寫出 H100 上和 FlashMLA 打平的 MLA Decoding

  • 支持 H100 (Auto TMA/WGMMA)、A100、MI300X、甚至華為昇騰和 Apple Metal

  • 自動優化,寫得省心,跑得還快

所以 DeepSeek 選 TileLang 的意圖就很明顯了:用更簡潔的方式寫出性能逼近手工 CUDA 的 kernel。對于想學底層優化、又被 CUDA 勸退過的人,這套開源組合(TileLang + TileKernels)簡直是神級教材。

安裝

環境要求就一句話:你得有張 H100 級別的卡

  • Python 3.10+

  • PyTorch 2.10+

  • TileLang 0.1.9+

  • NVIDIA SM90 或 SM100 架構 GPU (也就是 H100 / H200 / B200 這個檔位)

  • CUDA Toolkit 13.1+

裝法有兩種:

# 本地開發版(可改代碼)
pip install -e ".[dev]"


# 直接裝發行版
pip install tile-kernels

這里就勸退一大波人了——SM90 起步,4090/A100 都不在支持列表里

測試與壓測

官方給了 pytest 跑法,可以只驗正確性,也可以跑 benchmark:

# 單文件:只驗正確性,4 個 worker 并行
pytest tests/transpose/test_transpose.py -n 4

# 單文件:正確性 + 性能 benchmark
pytest tests/transpose/test_transpose.py --run-benchmark

# 全量壓測(開 FULL_TEST 環境變量,跑 2 輪)
TK_FULL_TEST=1 pytest -n 4 --count 2

對做底層優化、學 kernel 的同學來說,這套測試腳手架本身就值得抄一份——正確性測試 + benchmark 一條龍,還帶壓力測試模式,工程完成度很高

目錄結構

tile_kernels/
├── moe/ # MoE 路由相關 kernel
├── quant/ # FP8/FP4/E5M6 量化
├── transpose/ # 批量轉置
├── engram/ # Engram 門控 kernel
├── mhc/ # Manifold HyperConnection kernel
├── modeling/ # 高層 autograd 封裝(Engram、mHC)
├── torch/ # PyTorch 參考實現(對標用)
└── testing/ # 測試和 benchmark 工具

最值得說的是 torch/ 這個目錄——每個 kernel 都配了一份純 PyTorch 的參考實現

這意味著你不僅能看到高性能版本,還能對著慢速但易懂的 PyTorch 版對照學習

這對想啃底層優化的同學來說,簡直就是"雙語對照教材"

我怎么看這個項目

先說優點,相當直接:

  1. 真家伙,不是 PPT 。DeepSeek 自己內部訓練用過的 kernel,性能逼近硬件上限

  2. 雙語對照 。每個 kernel 都配 PyTorch 參考實現,學習成本大幅降低

  3. 工程質量高 。測試、benchmark、壓測腳手架全都配齊,MIT 協議隨便用

  4. 覆蓋面精準 。MoE + FP8 量化這兩塊,恰好是當前大模型訓練最吃性能的地方

再說局限,也得真誠:

  1. 硬件門檻高 。SM90 起步,家用卡基本別想,連 A100 都不支持。

  2. 文檔幾乎為零 。官方自己也承認:"they do not represent best practices and we are actively working on improving the code quality and documentation." 目前想吃透,只能啃代碼。

  3. 依賴 TileLang 。這是一個相對新的 DSL,社區規模還沒 Triton 那么大,生態有待培養

  4. 面向研究者 / 框架開發者 。如果你只是調調 API、煉煉小模型,這套東西你用不著;它是給寫訓練框架、寫推理引擎的人看的

總結

DeepSeek 這次開源的 TileKernels,氣質和之前開源周放出來的 FlashMLA、DeepGEMM、DeepEP 一脈相承——不玩大新聞,就是把自己實打實用過的、能摸到硬件天花板的底層代碼直接公開

適合誰看:

  • 想深入理解 MoE 訓練底層 kernel 怎么寫的同學

  • 在做推理引擎、訓練框架、想榨干 H100 性能的工程師

  • 對 FP8 / FP4 低精度訓練感興趣的研究者

  • 想系統學習 TileLang 這門新 DSL 的朋友(配合 TileLang 官方的 Puzzle 學習路徑更香)

最后一句感慨:現在這個時代,開源一個模型權重已經算不上什么大新聞了,真正能體現一家公司技術深度的,是愿不愿意把底層這些"內功心法"也放出來

DeepSeek 在這件事上,誠意一直很足

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
為啥末代皇帝往往是昏君 看網友分析 思想境界都上了一個大臺階

為啥末代皇帝往往是昏君 看網友分析 思想境界都上了一個大臺階

侃神評故事
2026-04-23 15:40:03
剛剛宣布:加息25個基點

剛剛宣布:加息25個基點

中國基金報
2026-04-23 18:34:59
伊朗用血淚給中國換來了教訓:最大的敵人,并不是美國和以色列

伊朗用血淚給中國換來了教訓:最大的敵人,并不是美國和以色列

墨印齋
2026-04-23 15:42:00
嗜賭成性只是冰山一角,婚內出軌、睡有婦之夫,體壇丑聞毀三觀

嗜賭成性只是冰山一角,婚內出軌、睡有婦之夫,體壇丑聞毀三觀

夢想總會變成真
2026-04-23 01:11:47
5月1日起全面嚴查!在職退休無一例外,這5類人好日子到頭了

5月1日起全面嚴查!在職退休無一例外,這5類人好日子到頭了

細說職場
2026-04-23 10:38:58
李小冉的顏值被嚴重低估了!董潔、湯唯和她合影,都黯然失色了

李小冉的顏值被嚴重低估了!董潔、湯唯和她合影,都黯然失色了

八斗小先生
2026-04-23 16:31:41
霍汶希力挺張敬軒僅6天后續:英皇全藝人遭集體抵制 態度一邊倒

霍汶希力挺張敬軒僅6天后續:英皇全藝人遭集體抵制 態度一邊倒

觀察鑒娛
2026-04-23 12:01:07
上海地鐵站內,這個“高素質”習慣爆發沖突!上海已叫停多年!很多人改不過來……

上海地鐵站內,這個“高素質”習慣爆發沖突!上海已叫停多年!很多人改不過來……

環球網資訊
2026-04-23 11:11:44
拜合拉木談安東尼奧:沒有他選我進國青,可能我還在內蒙踢

拜合拉木談安東尼奧:沒有他選我進國青,可能我還在內蒙踢

懂球帝
2026-04-23 23:24:51
個人微信建了600多個工作群,離職時賬號歸誰

個人微信建了600多個工作群,離職時賬號歸誰

現代快報
2026-04-23 13:49:11
意大利體育部長:意大利遞補參加世界杯既不可能,也不合適

意大利體育部長:意大利遞補參加世界杯既不可能,也不合適

懂球帝
2026-04-23 22:18:05
泰國潑水節一名15歲少女遭軍人尾隨進公廁性侵,監控曝光,嫌疑人已投案自首,將被移送軍事法庭

泰國潑水節一名15歲少女遭軍人尾隨進公廁性侵,監控曝光,嫌疑人已投案自首,將被移送軍事法庭

揚子晚報
2026-04-21 22:25:47
大衣哥再登熱搜!高鐵站席地而坐刷手機,衣著樸素、毫無明星架子

大衣哥再登熱搜!高鐵站席地而坐刷手機,衣著樸素、毫無明星架子

火山詩話
2026-04-23 16:00:38
99年我在守水庫,遇到一個道士借宿,他走時叮囑我,最近先別下山

99年我在守水庫,遇到一個道士借宿,他走時叮囑我,最近先別下山

千秋文化
2026-04-20 19:50:05
“特朗普說什么都沒用” 德黑蘭掛起巨幅海報宣告“永久控制”霍爾木茲海峽

“特朗普說什么都沒用” 德黑蘭掛起巨幅海報宣告“永久控制”霍爾木茲海峽

新華社
2026-04-23 21:27:51
整整26年的太子,僅僅6個月的皇帝,換來5個月的太上皇

整整26年的太子,僅僅6個月的皇帝,換來5個月的太上皇

鶴羽說個事
2026-04-23 22:29:23
扮豬吃虎?忍耐四個月,委代總統撕破偽裝,率幾十萬大軍硬剛美國

扮豬吃虎?忍耐四個月,委代總統撕破偽裝,率幾十萬大軍硬剛美國

健身狂人
2026-04-23 17:45:54
比亞迪在馬來西亞的東盟首個整車基地已全面停工,項目陷入僵局

比亞迪在馬來西亞的東盟首個整車基地已全面停工,項目陷入僵局

流蘇晚晴
2026-04-22 19:05:45
伊朗戰事未停,五角大樓先“斬”海軍部長:“沒認清誰是老大”的代價

伊朗戰事未停,五角大樓先“斬”海軍部長:“沒認清誰是老大”的代價

上觀新聞
2026-04-23 16:28:28
伊朗斷網50多天,創下一個世界紀錄,是怕美國還是怕老百姓?

伊朗斷網50多天,創下一個世界紀錄,是怕美國還是怕老百姓?

云舟史策
2026-04-24 07:30:43
2026-04-24 09:27:00
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3348文章數 11139關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

女子網購1450單又退貨1450單 老板娘盤點后稱損失12萬

頭條要聞

女子網購1450單又退貨1450單 老板娘盤點后稱損失12萬

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

19家企業要"鋁代銅",格力偏不

汽車要聞

預售30.29萬起 嵐圖泰山X8配896線激光雷達

態度原創

本地
家居
教育
手機
公開課

本地新聞

SAGA GIRLS 2026女團選秀

家居要聞

浪漫協奏 法式風格

教育要聞

相似無刻度直尺作圖,一個視頻學會!

手機要聞

vivo X500 Pro Max被曝光:2nm工藝+5GHz,2K直屏九月發!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版