網易首頁 > 網易號 > 正文申請入駐

國產GPU組了個開源局，把SGLang等核心開發者都搖來了！

2026-05-14 17:49:23　來源: 量子位

北京舉報

分享至

金磊發自凹非寺
量子位 | 公眾號 QbitAI

沒有大廠高管站臺，一屋子卻擠滿了開源圈的熟面孔。

隨便往臺下掃一眼，就能對上好幾個GitHub上的明星ID：

有目前大模型推理框架頂流SGLang的核心開發者BBuf（Xiaoyu Zhang）；
有主導下一代算子編程生態TileLang的維護者唐正舉
有操刀KVCache解耦與傳輸神器Mooncake的核心貢獻者馬騰
有來自智源人工智能研究院、圍繞Triton/FlagOS死磕AI編譯器的肖航
還有像R0CKSTAR這樣在GitHub上異常活躍的硬核開發者。

這場看似是開源圈極客們的面基會，卻著實是有點反差在身上的——

活動的攢局者，是國產GPU玩家，摩爾線程。

這事確實有點意思。

因為過去提到國產GPU，外界最容易想到的關鍵詞，往往還是硬件參數、顯存容量、算力指標、生態替代、模型能不能跑起來。

但這場SGLang × MUSA Meetup真正拋出的問題已經變了：

怎么讓國產GPU真正進入大模型推理的主流開源工程鏈路？

說得更直接一點，就是讓SGLang、Triton/FlagOS、TileLang、Mooncake、KVCache、P/D分離、分布式通信、CI/CD、upstream PR這些東西，能夠圍著國產GPU一起轉起來。

有一說一，在整體聽下來之后，有一個非常直觀的感受。

那就是國產GPU的競爭，已經不只是芯片參數之爭，轉而開始邁向生態坐標之爭。

為什么這么說？我們繼續往下看。

國產GPU開始“擴圈”了

先看這場Meetup本身。

它的主題很明確：SGLang × MUSA。

SGLang是當下大模型推理serving領域關注度很高的開源框架，面向LLM和多模態模型，核心目標是低延遲、高吞吐，覆蓋從單卡到大規模分布式集群的部署場景。

這類框架之所以重要，是因為今天的大模型落地，早就不是“模型訓練好了，放上去跑”這么簡單。

真正進入生產環境后，系統要處理的是一整套復雜問題。

例如prefill和decode怎么拆，KVCache怎么復用，長上下文怎么省錢，多輪對話怎么降TTFT，大規模集群怎么調度，新模型發布后怎么day-0 support，出了性能gap怎么定位到具體kernel。

第一個上臺的是SGLang核心開發者BBuf。

△SGLang核心開發者BBuf

這個在GitHub上擁有27k星的開源推理框架，現在已經是全球開發者部署大模型的首選。

他帶來的SGLang 2026 Q2 Roadmap，每一條都踩在行業的痛點上：

針對DeepSeek V4的全鏈路優化，包括W4A16量化、MegaMoE加速和稀疏注意力支持；
jit_kernel全面替代傳統的sgl-kernel，用TVM-FFI把編譯速度提升了數倍，再也不用等幾個小時的wheel包；
Vibe Coding全面落地，用AI agent自動分析profiler、定位性能瓶頸、提交PR，5月前已經完成了超過60個優化任務；
多模態能力全面升級，支持LTX2、Wan、混元視頻等最新模型，性能比其他框架最高快5倍。

最讓人印象深刻的是他展示的一組數據。

SGLang通過P/D分離架構，在12個H100節點上跑出了52.3k輸入token/s/node、22.3k輸出token/s/node的成績，比DeepSeek官方API還便宜5倍，這個結果已經被全球10多個團隊復現。

緊接著上臺的摩爾線程ContributorR0CKSTAR，帶來了全場最硬核的工程實踐分享。

△摩爾線程工程師R0CKSTAR

他用一句話總結了過去半年的工作：

SGLang on MUSA已經完成了從環境構建到CI測試的全鏈路打通。

這意味著什么？

現在你只要克隆SGLang的官方倉庫，安裝sgl-kernel和sglang，就能在摩爾線程MTT S5000顯卡上直接運行幾乎所有主流大模型。

DeepSeek、通義千問3.5、GLM-4.5、FLUX、Wan這些熱門模型，都已經完成了深度優化。

他特別提到了MUSA的三層CUDA兼容棧。

過去適配一個推理框架要改幾千行代碼，現在只要在開頭加一行import torchada，99%的CUDA代碼就能直接運行。這個看似簡單的改動，解決了國產GPU生態的一大痛點。

據了解，截至5月12日，摩爾線程在SGLang主線累計提交47個PR，其中41個已合入，完成了從環境構建到分布式推理的全鏈路打通。

智源的肖航則帶來了DeepSeek V4在MUSA上的Day0 適配成果。

△智源AI編譯器研究員

通過FlagOS的Triton算子優化和摩爾線程的SQMMA張量加速引擎，他們把DeepSeek V4的首token延遲降低了56.7%，吞吐量提升了23%。

對此，肖航表示：

我們沒有做什么黑魔法，就是把兩個最關鍵的算子優化到了極致。

FP8 矩陣乘算子平均加速8.85倍，稀疏注意力算子平均加速6.01倍，這兩個占了推理時間80%的算子一優化，端到端性能自然就上去了。

TileLang維護者唐正舉的分享，則讓所有人看到了下一代算子編程的未來。

△TileLang維護者唐正舉

這個2025年2月才開源的項目，短短一年多就收獲了6k星和133位貢獻者，連DeepSeek V4的核心kernel都是用TileLang寫的，正如唐正舉所說：

用TileLang寫FlashAttention，只要50行Python代碼，性能和專家手寫的CUDA一模一樣。

并且從他在現場展示的對比圖來看，同樣的GEMM算子，TileLang用15行代碼達到了CUTLASS的性能，代碼量減少了90%。

最后上臺的阿里云馬騰，帶來了Mooncake項目的最新進展。

△Mooncake Contributor 馬騰

這個專注于KVCache解耦的項目，現在已經是SGLang、vLLM等主流推理框架的標配。

他展示的一組較為吸睛的數據：

通過RDMA P2P權重更新，Kimi K2 1T模型的權重同步時間從53秒降到了7.2秒，加速了7.37倍；EPD三級解耦架構讓多模態模型的首token延遲降低了6-8倍；HiCache + Mooncake后端讓多輪對話的緩存命中率超過90%。

至此，這場Meetup的拼圖基本完整——

SGLang是推理框架主鏈路，MUSA是國產GPU底層平臺，FlagOS/Triton解決關鍵算子優化，TileLang降低高性能kernel編程門檻，Mooncake補上KVCache和生產部署。

這，便是一條較為完整的工程鏈路。

為什么摩爾線程能把他們搖來？

這個問題的答案不能只歸結為辦了一場活動。

開源圈很現實，大家愿意來，核心原因不是誰會講故事，是這件事真的和他們正在做的工程問題有關。

首先看MUSA本身的設計初心。

摩爾線程CTO張鈺勃在開場中解釋，MUSA是Meta-computing Unified System Architecture。

△摩爾線程CTO張鈺勃

Meta-computing指向通用計算，摩爾線程希望GPU盡量擁抱通用計算，而不是給未來可計算的領域設限；Unified則意味著摩爾線程產品希望遵循同一套統一標準，避免不同產品線使用不同指令集和架構，導致軟件生態無法積累。

更關鍵的一句話是，MUSA不希望開發者為了使用MUSA而重新學習一套東西。

這句話看似樸素，其實直指國產GPU生態的痛點。

開發者最怕什么？

不是新硬件本身，是為了新硬件，學習一整套新API，重寫一堆代碼，改完還進不了上游，社區一更新又要重新補丁。

如果一個國產GPU生態要求開發者從頭學一遍，那它面對的便是巨大的遷移阻力。

所以MUSA的路線，是盡量貼近開發者已經熟悉的GPU編程方式、API接口和使用習慣。底層實現可以不同，但上層體驗盡可能一致。

三層CUDA兼容棧的意義就在這里。

torch_musa負責把PyTorch和MUSA的基礎能力接起來；torchada負責讓CUDA-first生態繼續工作；mthreads-ml-py負責把設備管理、拓撲、顯存、MTLink、P2P等信息暴露給上層框架。

用一句更通俗的話說，摩爾線程在盡量把原來的路修到自己門口。

這直接影響到開源社區協作的可行性。

因為上游項目最看重的是低侵入、可維護、可復用。如果一個適配方案需要大面積改動主線代碼，后續每次rebase都痛苦，上游很難接受。

反過來，如果適配可以通過更透明的方式完成，PR就更容易被review，也更容易持續跟隨社區迭代。

這就是從“我自己維護一個分支”到“我進入主線”的區別。

再看生態結合。

SGLang × MUSA，是推理主鏈路打通。

摩爾線程從去年開始把SGLang作為重點接入和貢獻的開源項目，經過大半年努力，MUSA后端近期已經合入SGLang主線。后續不只是跟隨feature，也希望在框架層面貢獻更多能力。

這件事的意義在于，國產GPU不再只是某個框架的外部適配對象，已經開始成為主線生態的一部分。

FlagOS × MUSA，是關鍵算子和新模型適配。

大模型推理的性能競爭，越來越多發生在kernel、編譯器、調度、低精度和通信層。DeepSeek V4 day-0適配這樣的工作，本質上考驗的是從模型發布到工程落地之間的反應速度。能不能第一時間跑通，能不能快速調優，能不能在真實shape上找到更好的配置，決定了生態跟不跟得上。

Mooncake × MUSA，是推理解耦和生產部署。

KVCache的價值在Agent、多輪對話、長上下文時代被進一步放大。Mooncake與MUSA的結合，不只是讓某個緩存后端能跑在國產GPU上，更是在探索跨實例KVCache共享、彈性擴縮容、緩存復用、原地升級這類生產級問題。

TileLang × MUSA，則是下一代算子生態的提前布局。

如果未來更多模型和硬件都需要定制kernel，算子編程不能永遠停留在少數專家手里。TileLang這類DSL的價值，是把高性能kernel編程變成更多開發者能上手的工程工具。

這四條線合在一起，才是摩爾線程能組局的底氣。

它把自己放進了大模型推理的真實工程網絡里，包括框架、算子、緩存、通信、部署、CI/CD、upstream等等。

而這，也是國產 GPU 生態真正要補的課。

國產GPU的生態位，正在走向協作

如果把這場Meetup從更宏大的算力發展角度來看，它的價值或許遠超技術分享本身。

過去幾年，國產GPU的生態困境是比較明顯的。

許多廠商習慣了閉門造車，自己從頭寫一套深度學習框架，自己攢一套算子庫，結果因為不符合主流開發者的習慣，鮮有人問津。

又或者，有的廠商只是拉一個私有Fork做適配，從來不向開源上游提交代碼，導致主流框架一更新，自己的適配版本就成了無人維護的孤品。

而現在，摩爾線程給出了一個完全不同的答案：

全面融入全球開源生態，去和世界上最聰明的一批人一起做事。

在這場活動中，我們頻繁聽到幾個詞：Day-0 Support、Upstream PR、CI/CD。

這說明國產GPU的生態位正在發生質變。摩爾線程不再只滿足于做一個被動的適配者，它要的是主動出擊，成為核心代碼的“貢獻者”，甚至是未來架構的“共建者”。

他們不僅僅是丟一個單點的Patch過去，而是把一整套包含環境構建、PR提交、CI自動化測試、Release發布、文檔維護在內的工程閉環，深深地嵌入到了SGLang等頂級項目的血脈中。

這種可持續的Upstream模式，才是真正掌握生態話語權的方式。

這場開源局還證明了一件事，國產GPU已經走上了大模型推理開源生態的公共牌桌。

在這個牌桌上，已經坐著風頭正勁的SGLang，坐著死磕底層編譯的Triton/FlagOS，坐著重塑算子生態的TileLang，坐著主導解耦架構的Mooncake。

而現在，國產GPU，也可以拉開椅子，從容地坐下來，和這群明星玩家們一起打好大模型時代最關鍵的這把牌。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

CerebrasIPO：深度綁定OpenAI，以“Fast Tokens”重塑AI芯片市場預期

華爾街見聞官方 2026-05-14 14:43:17
0 跟貼 0
天下苦CUDA久矣，又一國產方案上桌了

量子位 2026-01-30 21:59:52
6 跟貼 6

中國創造一門新編程語言的黃金時代來了？

虎嗅APP 2025-12-23 03:54:05
39 跟貼 39

00后小孩哥10天AI編程，陳天橋24小時砸3000萬！靠大四作業當上CEO

36氪 2026-03-08 17:24:08
0 跟貼 0
聯發科天璣開發者大會：全棧升級AI與游戲技術，開啟全場景智能體化

通信世界 2026-05-14 15:30:10
0 跟貼 0

國家隊出手！AI智能體要發「身份證」，首個互聯國標將落地

新智元 2026-05-12 10:10:05
28 跟貼 28

清華系團隊出手！一張 4090 即可「爆改」，1.3B小鋼炮震撼開源

新智元 2026-05-13 12:11:23
32 跟貼 32
大神程序員蒸餾自己，用16個skill給AI注入軟件工程之魂

量子位 2026-05-12 03:08:58
0 跟貼 0

從能力到商品：Skills市場正在重塑開發者的生產方式

36氪 2026-03-20 10:24:05
31 跟貼 31
AI摳圖GitHub爆火！實測3款開源工具：快是真快，糙也是真糙

雷科技 2026-05-13 20:07:54
0 跟貼 0
支持遠程操控和通用GUI操作3

機器之心Pro 2026-03-02 13:36:13
0 跟貼 0
人在養蝦，蝦在選人

經濟觀察報 2026-03-13 13:52:06
0 跟貼 0
LLM+運籌優化：工業級多機器人協同控制軟件生成新范式

機器之心Pro 2026-03-30 12:42:25
0 跟貼 0
賭自己會失業！田淵棟八人天團狂攬44億元，殺入「遞歸進化」賽道

新智元 2026-05-14 13:08:07
1 跟貼 1
訓練數據枯竭怎么辦？首篇「數據價值密度」綜述理清思路

機器之心Pro 2026-05-14 18:10:09
0 跟貼 0
1元錢285萬Token的陷阱！起底“AI中轉站”：封號跑路，模型降智，倒賣用戶數據

每日經濟新聞 2026-05-12 13:11:21
0 跟貼 0
8個AI頂流科學家，300億估值：他們要讓AI自我進化

DeepTech深科技 2026-05-14 17:51:57
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
新華三集團總裁兼首席執行官于英濤：中國有機會成為AI落地的領先市場

經濟觀察報 2026-05-14 17:46:46
0 跟貼 0
Anthropic高管震撼披露：公司90%代碼已由AI完成員工則負責檢查與把關

財聯社 2026-05-14 18:33:09
0 跟貼 0
國產GPU首獲全球頂級推理框架「原生門票」：MUSA合入SGLang主線

機器之心Pro 2026-05-14 16:03:08
0 跟貼 0
李想首度回應造芯！棄用傳統GPU路線，200人團隊苦干四年

車東西 2026-05-12 20:46:16
4 跟貼 4
美股最強50｜AI基礎設施里的隱形賣鏟人Credo，或是下一個超級增長神話？

財聯社 2026-05-14 15:37:16
0 跟貼 0
GPT-5.6曝光了！OpenAI砸錢宣戰：換掉Claude Code

新智元 2026-05-14 10:18:54
6 跟貼 6
熊媽媽帶四只幼崽過馬路，網友：嘴里那只一定最調皮

南陽日報 2026-05-13 19:44:30
585 跟貼 585
師傅在河里打撈廢鐵，結果吸到了鋼架構柱子上，技術不到位

卡卡愛生活 2026-05-13 10:34:23
4 跟貼 4
男孩一個月弄丟九次書包，媽媽偷偷跟著發現了真相

南陽日報 2026-05-13 19:40:39
103 跟貼 103
露臺框架終于完成了

小新的視界 2026-05-12 07:53:12
0 跟貼 0
15%全量Attention！「RTPurbo」阿里Qwen3長文本推理5倍壓縮方案

機器之心Pro 2025-12-23 12:52:34
0 跟貼 0
青島故事·追光者丨盲敲30萬代碼！視障少年開發數字工具箱，下一站：競逐全球發明大會

半島官網 2026-05-14 09:47:18
0 跟貼 0
九寨溝將實行“雙向檢票”？工作人員：出園檢票并非新政策，一直嚴禁溝內住宿

上游新聞 2026-05-11 15:40:24
2879 跟貼 2879
Claude Code 源碼泄露了，有人用Python復刻了一個極簡版

機器之心Pro 2026-04-02 11:30:10
4 跟貼 4
CVPR 2026 | 從視覺Token內在變化量出發，實現VLM無損加速1.87倍

機器之心Pro 2026-03-16 11:56:33
0 跟貼 0
紀實：美女社交軟件遇見真愛，懷孕后，竟發現自己還背了30萬

笨笨狗好吃 2026-05-11 16:37:18
0 跟貼 0
約0.01飛米！中國科學家重要發現，將改寫教科書

上觀新聞 2026-05-14 06:48:04
2132 跟貼 2132
潤米招聘程序員，做AI時代的ITBP！

劉潤 2026-05-14 13:48:28
0 跟貼 0
深夜脫口秀末日？2025年主持人集體自救

有態度網友ytd3049 2026-05-14 07:38:16
0 跟貼 0
LLM 僅靠自身就能增強推理？SePT 給出簡潔在線自訓練范式

機器之心Pro 2026-04-22 11:01:55
0 跟貼 0
戰甲迭代封神，鋼鐵俠戰力一路飆升

兔子王追劇 2026-05-13 11:14:14
1 跟貼 1
47歲貨拉拉司機，初二輟學，卻在AI圈建了Agents王國

36氪 2026-05-14 15:07:44
2 跟貼 2

量子位

追蹤人工智能動態

12623文章數 176462關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手機

健康

時尚

數碼

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

國產GPU組了個開源局，把SGLang等核心開發者都搖來了！

國產GPU開始“擴圈”了

為什么摩爾線程能把他們搖來？

國產GPU的生態位，正在走向協作

馬斯克說會談很順利 黃仁勛點贊 庫克比耶

中美元首會談細節：貝森特戴藍色領帶 魯比奧看天花板

中美元首會談細節：貝森特戴藍色領帶 魯比奧看天花板

爭議抽象天王山，和季后賽最穩定中鋒

何九華官宣當爸！全程不提孩子媽

李強會見美國工商界代表

雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

態度原創

華為Pura 90 Pro系列首周7日銷量曝光：超20萬臺，同比增70%

專家揭秘干細胞回輸的安全風險

T恤+低腰闊腿褲、襯衫+低腰半裙，今年夏天最時髦的搭配，誰穿誰好看！

TrendForce預估：主要移動端內存2026Q2合約價環比漲幅超70%

馬斯克說會談很順利黃仁勛點贊庫克比耶

中美元首會談細節：貝森特戴藍色領帶魯比奧看天花板

中美元首會談細節：貝森特戴藍色領帶魯比奧看天花板

雙零重力座椅/AI智能體/調光天幕啟境GT7內飾發布