无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

剛剛,DeepSeek 悶聲開源,觸摸 GPU 性能上限

0
分享至

DeepSeek 又悄悄開源了一個項目,一套直接榨干 H100/H200/B200 的 GPU Kernel 庫,名字叫 TileKernels


它和之前放出來的 FlashMLA、DeepGEMM、DeepEP 是一個級別的「內功心法」,只不過這次換了TileLang來寫

簡介

TileKernels 是 DeepSeek 開源的一組專門為 LLM 訓練和推理優化的 GPU Kernel 集合

用 DeepSeek 官方自己的話說:

? Most kernels in this project approach the limit of hardware performance regarding the compute intensity and memory bandwidth. Some of them have already been used in internal training and inference scenarios.

翻譯一下就是:這些 kernel 基本已經摸到硬件性能上限了,無論是算力還是顯存帶寬,而且其中相當一部分已經在 DeepSeek 內部的訓練和推理里用過了

換句話說,這是從 DeepSeek 自家流水線里拆出來直接開源的真家伙,不是實驗室玩具

核心功能一覽:

  • Gating — MoE 路由里的 Top-k 專家選擇和打分

  • MoE Routing — Token 到 Expert 的映射、融合擴展/歸約、權重歸一化

  • Quantization — Per-token / per-block / per-channel 的 FP8 / FP4 / E5M6 量化,還把 SwiGLU 和量化融合在一起做

  • Transpose — 批量轉置

  • Engram — 融合了 RMSNorm、前向/反向傳播、權重梯度歸約的 Engram 門控 kernel

  • Manifold HyperConnection (mHC) — 包含 Sinkhorn 歸一化、混合拆分/應用的超連接 kernel

  • Modeling — 用 torch.autograd.Function 把底層 kernel 包成可訓練層(Engram Gate、mHC Pipeline)

看完這個列表我的第一反應是:這不就是 DeepSeek V3 / R1 那套 MoE + FP8 訓練體系的核心零件嗎?

  • MoE 路由、Gating、Token-to-Expert 映射 → V3 的 MoE 架構

  • FP8 / FP4 / E5M6 量化 + 融合 SwiGLU → V3 的低精度訓練和 V3.2 的量化推理

  • Engram、Manifold HyperConnection → 這倆名字就很"研究院",大概率和后續模型架構相關

關于 TileLang:為啥不直接寫 CUDA

這里插播一下,TileKernels 不是用傳統 CUDA 或 Triton 寫的,而是用的 TileLangtile-ai/tilelang

TileLang 是一門基于 TVM 的領域特定語言(DSL),專門用來寫高性能 GPU Kernel


它的定位和 Triton 有點像,但更"Pythonic",而且官方號稱:

  • 80 行 Python 代碼就能寫出 H100 上和 FlashMLA 打平的 MLA Decoding

  • 支持 H100 (Auto TMA/WGMMA)、A100、MI300X、甚至華為昇騰和 Apple Metal

  • 自動優化,寫得省心,跑得還快

所以 DeepSeek 選 TileLang 的意圖就很明顯了:用更簡潔的方式寫出性能逼近手工 CUDA 的 kernel。對于想學底層優化、又被 CUDA 勸退過的人,這套開源組合(TileLang + TileKernels)簡直是神級教材。

安裝

環境要求就一句話:你得有張 H100 級別的卡

  • Python 3.10+

  • PyTorch 2.10+

  • TileLang 0.1.9+

  • NVIDIA SM90 或 SM100 架構 GPU (也就是 H100 / H200 / B200 這個檔位)

  • CUDA Toolkit 13.1+

裝法有兩種:

# 本地開發版(可改代碼)
pip install -e ".[dev]"


# 直接裝發行版
pip install tile-kernels

這里就勸退一大波人了——SM90 起步,4090/A100 都不在支持列表里

測試與壓測

官方給了 pytest 跑法,可以只驗正確性,也可以跑 benchmark:

# 單文件:只驗正確性,4 個 worker 并行
pytest tests/transpose/test_transpose.py -n 4

# 單文件:正確性 + 性能 benchmark
pytest tests/transpose/test_transpose.py --run-benchmark

# 全量壓測(開 FULL_TEST 環境變量,跑 2 輪)
TK_FULL_TEST=1 pytest -n 4 --count 2

對做底層優化、學 kernel 的同學來說,這套測試腳手架本身就值得抄一份——正確性測試 + benchmark 一條龍,還帶壓力測試模式,工程完成度很高

目錄結構

tile_kernels/
├── moe/ # MoE 路由相關 kernel
├── quant/ # FP8/FP4/E5M6 量化
├── transpose/ # 批量轉置
├── engram/ # Engram 門控 kernel
├── mhc/ # Manifold HyperConnection kernel
├── modeling/ # 高層 autograd 封裝(Engram、mHC)
├── torch/ # PyTorch 參考實現(對標用)
└── testing/ # 測試和 benchmark 工具

最值得說的是 torch/ 這個目錄——每個 kernel 都配了一份純 PyTorch 的參考實現

這意味著你不僅能看到高性能版本,還能對著慢速但易懂的 PyTorch 版對照學習

這對想啃底層優化的同學來說,簡直就是"雙語對照教材"

我怎么看這個項目

先說優點,相當直接:

  1. 真家伙,不是 PPT 。DeepSeek 自己內部訓練用過的 kernel,性能逼近硬件上限

  2. 雙語對照 。每個 kernel 都配 PyTorch 參考實現,學習成本大幅降低

  3. 工程質量高 。測試、benchmark、壓測腳手架全都配齊,MIT 協議隨便用

  4. 覆蓋面精準 。MoE + FP8 量化這兩塊,恰好是當前大模型訓練最吃性能的地方

再說局限,也得真誠:

  1. 硬件門檻高 。SM90 起步,家用卡基本別想,連 A100 都不支持。

  2. 文檔幾乎為零 。官方自己也承認:"they do not represent best practices and we are actively working on improving the code quality and documentation." 目前想吃透,只能啃代碼。

  3. 依賴 TileLang 。這是一個相對新的 DSL,社區規模還沒 Triton 那么大,生態有待培養

  4. 面向研究者 / 框架開發者 。如果你只是調調 API、煉煉小模型,這套東西你用不著;它是給寫訓練框架、寫推理引擎的人看的

總結

DeepSeek 這次開源的 TileKernels,氣質和之前開源周放出來的 FlashMLA、DeepGEMM、DeepEP 一脈相承——不玩大新聞,就是把自己實打實用過的、能摸到硬件天花板的底層代碼直接公開

適合誰看:

  • 想深入理解 MoE 訓練底層 kernel 怎么寫的同學

  • 在做推理引擎、訓練框架、想榨干 H100 性能的工程師

  • 對 FP8 / FP4 低精度訓練感興趣的研究者

  • 想系統學習 TileLang 這門新 DSL 的朋友(配合 TileLang 官方的 Puzzle 學習路徑更香)

最后一句感慨:現在這個時代,開源一個模型權重已經算不上什么大新聞了,真正能體現一家公司技術深度的,是愿不愿意把底層這些"內功心法"也放出來

DeepSeek 在這件事上,誠意一直很足

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
菲律賓與廣東同是1億多人口,菲律賓創造3.3萬億,廣東是多少呢?

菲律賓與廣東同是1億多人口,菲律賓創造3.3萬億,廣東是多少呢?

混沌錄
2026-06-03 23:37:06
俄羅斯用血的教訓警告中國,想收臺,必須先打掉西太美軍基地

俄羅斯用血的教訓警告中國,想收臺,必須先打掉西太美軍基地

始于初見見
2026-06-18 18:31:54
臺灣統一方式可能出人意料:77年前毛主席的奇謀,是最佳解決方案

臺灣統一方式可能出人意料:77年前毛主席的奇謀,是最佳解決方案

史之銘
2026-06-17 19:50:32
73歲曾志偉現身佛山奶茶店,相伴十年紅顏知己側臉撞臉元秋

73歲曾志偉現身佛山奶茶店,相伴十年紅顏知己側臉撞臉元秋

琴琴有氧運動
2026-06-19 23:55:38
巴拉圭“胸神”16年后重返世界杯,靠火辣身材爆紅,愿為贏球裸奔

巴拉圭“胸神”16年后重返世界杯,靠火辣身材爆紅,愿為贏球裸奔

深析古今
2026-06-14 15:32:00
品牌紙尿褲含有毒物質!企業拿“符合國標”說事,我們該反思了

品牌紙尿褲含有毒物質!企業拿“符合國標”說事,我們該反思了

胡侃社會百態
2026-06-19 10:47:07
發現一個現象:根據歷史規律,中國可能是地球上最后一個超級大國

發現一個現象:根據歷史規律,中國可能是地球上最后一個超級大國

春日在捕月
2026-06-20 11:27:49
長得英俊帥氣,卻輸在“個子矮”上,這幾位男星的外形反差太大了

長得英俊帥氣,卻輸在“個子矮”上,這幾位男星的外形反差太大了

尺素a
2026-06-18 20:13:41
55%關稅砸向澳洲牛肉,餐桌上這盤肉老百姓還能吃得起嗎?

55%關稅砸向澳洲牛肉,餐桌上這盤肉老百姓還能吃得起嗎?

眼界看世界
2026-06-20 15:40:03
井噴,馮小剛《抓特務》首日全天票房2000多萬,以小博大!

井噴,馮小剛《抓特務》首日全天票房2000多萬,以小博大!

另子維愛讀史
2026-06-19 21:26:32
3:0!中國女排3度落后逆轉+橫掃法國,趙勇神奇換人,莊宇珊爆發

3:0!中國女排3度落后逆轉+橫掃法國,趙勇神奇換人,莊宇珊爆發

林子說事
2026-06-20 14:42:26
床上“爽”感翻倍指南:別害羞,這是婚姻的剛需

床上“爽”感翻倍指南:別害羞,這是婚姻的剛需

精彩分享快樂
2026-06-20 12:00:15
世界杯賽后爆發大規模沖突,比起6比0 更慘的是斷腿重傷

世界杯賽后爆發大規模沖突,比起6比0 更慘的是斷腿重傷

削桐作琴
2026-06-19 17:14:33
“初中女生壞起來比男孩更可怕”,班主任曝內情:三觀都被刷新了

“初中女生壞起來比男孩更可怕”,班主任曝內情:三觀都被刷新了

澤澤先生
2026-06-18 19:58:44
“特朗普和高市為這在G7吵起來了,還驚動其他領導人勸和”

“特朗普和高市為這在G7吵起來了,還驚動其他領導人勸和”

觀察者網
2026-06-19 19:42:04
明日夏至,提醒:1要除,2要避,吃3樣,4不做,準備入伏過盛夏

明日夏至,提醒:1要除,2要避,吃3樣,4不做,準備入伏過盛夏

小茉莉美食記
2026-06-20 12:51:53
全系混動是妥協還是升級?豐田第六代RAV4正式登陸市場

全系混動是妥協還是升級?豐田第六代RAV4正式登陸市場

音樂時光的娛樂
2026-06-18 09:05:54
明日夏至節氣,再忙牢記“吃4樣,做2事,忌1事”安康順遂人團圓

明日夏至節氣,再忙牢記“吃4樣,做2事,忌1事”安康順遂人團圓

雪峰兒
2026-06-20 07:15:37
羅滕:不明白若昂-內維斯的言論,他談C羅的方式是錯誤的

羅滕:不明白若昂-內維斯的言論,他談C羅的方式是錯誤的

懂球帝
2026-06-20 02:37:24
我國收回的南海最大島礁,面積超8400平方公里,到底有何價值?

我國收回的南海最大島礁,面積超8400平方公里,到底有何價值?

抽象派大師
2026-06-20 01:28:25
2026-06-20 16:16:49
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3436文章數 11166關注度
往期回顧 全部

科技要聞

DeepSeek上線識圖模式,看誰都像梁文鋒

頭條要聞

年輕人先沖了:85萬元拿下“老破小” 租金回報超3%

頭條要聞

年輕人先沖了:85萬元拿下“老破小” 租金回報超3%

體育要聞

全隊抱頭痛哭!5億歐土耳其出局 2場轟62腳0進球

娛樂要聞

官媒發文,張柏芝終迎一大喜訊

財經要聞

金飾克價年內大跌近450元 跌幅最高達26%

汽車要聞

驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

態度原創

教育
健康
藝術
時尚
軍事航空

教育要聞

中考加油!廈門5.32萬名中考生明天開考

吃粽子的3條保胃法則,消化科醫生推薦

藝術要聞

投資20億!中國第一大民企的浙江總部,正式啟動!

白背心能顯瘦?關鍵在領口和肩帶

軍事要聞

美伊瑞士談判因以色列攪局泡湯

無障礙瀏覽 進入關懷版