无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

國產(chǎn)GPU首獲全球頂級推理框架「原生門票」:MUSA合入SGLang主線

0
分享至



機(jī)器之心編輯部

如果只看這場 Meetup 的嘉賓名單,你大概會(huì)先想到海外芯片巨頭,或者某家國際 AI 基礎(chǔ)設(shè)施公司。



畢竟,SGLang、TileLang、Triton 、Mooncake…… 這些今天大模型推理?xiàng)?/strong>里最活躍、也最有存在感的開源項(xiàng)目,幾乎都有核心開發(fā)者來到現(xiàn)場。

但真正把這群人聚到一起的,竟然是摩爾線程。

這才是這件事最值得看的地方。它說明一件事:國產(chǎn) GPU 廠商開始不只是追著生態(tài)跑,而是打入了全球主流開源 AI 軟件棧,成為共建者

近日,摩爾線程舉辦「SGLang × MUSA Meetup」,分享了其與 SGLang 社區(qū)及 MUSA 生態(tài)協(xié)同推進(jìn)的最新進(jìn)展。

自上個(gè)月 DeepSeek V4 發(fā)布后,摩爾線程第一時(shí)間基于 SGLang 開源推理框架,成功完成了 DeepSeek V4 的完整運(yùn)行驗(yàn)證,并率先打通了從硬件架構(gòu)核心計(jì)算引擎承接、熱點(diǎn)算子支持,再到端到端部署驗(yàn)證的系統(tǒng)化適配鏈路。

另一項(xiàng)關(guān)鍵進(jìn)展是,摩爾線程 MUSA 后端已正式加入 SGLang 官方支持體系,相關(guān)代碼也已成功合入 SGLang 主線,獲得了這一全球頂級開源推理框架的「原生支持」。



這意味著不僅是 DeepSeek V4,從 Qwen、GLM、MiniMax 到 Wan,越來越多主流大模型的推理加速能力,都正在向國產(chǎn)算力生態(tài)原生開放。

擁抱開源推理框架

摩爾線程做了什么

在 AI 技術(shù)棧中,SGLang 是連接大模型與底層硬件的推理服務(wù)框架,是讓頂尖 AI 真正落地成 App 的關(guān)鍵一環(huán)。自 2025 年起,SGLang 開始走向通用硬件適配,陸續(xù)加入了對 AMD、英特爾芯片的支持。

此次摩爾線程代碼合入 SGLang 主線,意味著摩爾線程已經(jīng)與國際主流芯片站在了同一陣列,正式躋身 SGLang 官方后端矩陣。

基于這一官方支持體系,開發(fā)者在使用 SGLang 運(yùn)行大語言模型及多模態(tài)推理任務(wù)時(shí),已經(jīng)可以直接調(diào)用摩爾線程全功能 GPU,完全無需再依賴任何第三方適配層。

為什么摩爾線程能做到這一步?摩爾線程 CTO 張鈺勃在這場技術(shù)分享上的致辭中給出了答案:立足「通用計(jì)算」,以 MUSA(Meta-computing Unified System Architecture)開放架構(gòu)擁抱開源生態(tài)。

他強(qiáng)調(diào),摩爾線程不走封閉路線,而是堅(jiān)持底層計(jì)算平臺(tái)的真正通用與高度統(tǒng)一。一方面,通用架構(gòu)能支撐從物理世界仿真、數(shù)字孿生到具身智能的未來技術(shù)演進(jìn),不為創(chuàng)新設(shè)限;另一方面,通過全產(chǎn)品線「統(tǒng)一」的指令集與架構(gòu)標(biāo)準(zhǔn),確保軟件生態(tài)能夠持續(xù)沉淀與積累。

針對開發(fā)者最為關(guān)心的「生態(tài)遷移」痛點(diǎn),張鈺勃直言:「摩爾線程秉持開放的態(tài)度,MUSA 在接口設(shè)計(jì)上最大程度復(fù)用了開發(fā)者熟悉的 GPU 編程習(xí)慣。我們不希望獨(dú)立創(chuàng)造一套封閉的生態(tài),而是以零學(xué)習(xí)成本,全面融入現(xiàn)有的繁榮生態(tài)。」

這種「零學(xué)習(xí)成本」的承諾,正真真切切地反映在摩爾線程與 SGLang 的工程落地中。



自今年 1 月起,摩爾線程向 SGLang 提交 issue,提供增加 MUSA 支持的完整路線圖和任務(wù)拆分,計(jì)劃涵蓋:在 runtime 部分對 LLM 的支持,AOT Kernel 的支持,多模態(tài)生成的支持,Docker、CI、release 的支持等等。

現(xiàn)在,AI 開發(fā)者使用國產(chǎn) GPU 后,不需要再做復(fù)雜底層改造,就能直接用上全球目前最先進(jìn)、最高效的大模型調(diào)度框架。目前,SGLang 已支持通過源碼方式進(jìn)行安裝,并可按照文檔直接完成部署,能夠直接在摩爾線程 MTT S5000 智算卡上正常運(yùn)行,并支持了幾乎所有的基礎(chǔ)模型,無需任何二次代碼改造,顯著降低了開發(fā)者的算力遷移門檻

過去將代碼遷移到國產(chǎn) GPU 需要手動(dòng)搜索和修改大量的 torch.cuda 原語。針對這個(gè)問題,摩爾線程開發(fā)了torchada 適配層,實(shí)現(xiàn)了「一次 import,全包搞定」。開發(fā)者只需引入適配包,即可自動(dòng)將大模型的顯存管理、流處理等 CUDA 接口無縫橋接到 MUSA 平臺(tái)上,大幅降低了適配與維護(hù)成本。

同時(shí),針對無法直接遷移或性能不佳的算子,摩爾線程應(yīng)用開源的MATE(MUSA AI Tensor Engine)高性能算子庫進(jìn)行替換和加速,其提供了高性能 Attention 與 GEMM 算子,已對接 FlashAttention、FlashMLA、DeepGEMM 等主流接口。



在模型一側(cè),摩爾線程已支持 DeepSeek 模型,在最新的 DeepSeek V4 上,摩爾線程正在與社區(qū)協(xié)作,希望以 Jit Kernel 和 TileLang 的方式實(shí)現(xiàn)優(yōu)化。摩爾線程支持 Qwen3、Qwen3.5、Qwen VL 視覺模型,以及 MiniMax 的 M2.5、M2.7 和智譜 AI 的 GLM 4、5 系列等模型。

Diffusion 模型方面,摩爾線程也完成了對文生圖、文生視頻、圖生圖、圖生視頻的支持,覆蓋 Qwen-Image、Wan 等模型。



量化方面,摩爾線程 MTT S5000天然支持 FP8,部分 GGUF、INT4 量化支持也已提供,能夠讓更多、更大的模型在國產(chǎn) GPU 上更好地運(yùn)行。

在分布式支持上,摩爾線程的目標(biāo)是支持所有的分布式方法,基于 MCCL 為底座和自身 Custom Allreduce,已經(jīng)支持 TP/PP/DP/CP/EP,通過 Mooncake 的方式支持 PD 分離。

在短短幾個(gè)月內(nèi),摩爾線程取得了大量工程和生態(tài)成果。截至 5 月 12 日,其已向 SGLang 官方提交了47 個(gè)PR(合并入主線41 個(gè)),完成了從環(huán)境構(gòu)建到分布式推理的全鏈路打通,MUSA 已經(jīng)正式成為 SGLang 官方原生支持的后端之一。

未來,摩爾線程計(jì)劃對更多國產(chǎn)開源模型提供支持。通過深度的軟硬件協(xié)同優(yōu)化,國產(chǎn) GPU 在 SGLang 這一先進(jìn)推理框架上具備了生產(chǎn)力價(jià)值,跟上了當(dāng)前 DeepSeek、多模態(tài)長文本等最前沿的 AI 技術(shù)演進(jìn)。

開源「全明星」見證

看見號召力

當(dāng)然,國產(chǎn)算力的適配與優(yōu)化,需要開源生態(tài)所有成員的貢獻(xiàn)。

前幾日「SGLang x MUSA Meetup」技術(shù)沙龍上,從 LLM 推理框架最炙手可熱的 SGLang,到底層算子編程語言 Triton 與 TileLang,再到分布式推理「卷王」項(xiàng)目 Mooncake,幾乎你能在 2026 年大模型推理技術(shù)棧上點(diǎn)到名的關(guān)鍵開源項(xiàng)目,都派出了核心維護(hù)者來到現(xiàn)場。

其中包括:

  • SGLang 核心開發(fā)成員 Xiaoyu Zhang(BBuf),來自全球最活躍的開源 LLM 推理框架之一;
  • 北京智源人工智能研究院 AI 編譯器研究員肖航,帶來基于 Triton/TileLang 的 FlagOS 生態(tài);
  • TileLang Maintainer 唐正舉,DeepSeek V3.2 與 V4 核心算子背后的 DSL 項(xiàng)目核心成員;
  • Mooncake Contributor 馬騰,分布式推理基礎(chǔ)設(shè)施 Mooncake 的核心開發(fā)者之一。



把這些名字放在一起看,會(huì)更有意思。SGLang 管推理框架,Triton 和 TileLang 往下深入到算子與編譯,Mooncake 則補(bǔ)上大規(guī)模分布式推理的基礎(chǔ)設(shè)施。它們并不是同一個(gè)項(xiàng)目,但幾乎拼出了當(dāng)前大模型推理?xiàng)W铌P(guān)鍵的一張地圖。

而這一次,地圖上的人都來了,且討論的重點(diǎn)之一,正是國產(chǎn) AI 算力。

SGLang 核心開發(fā)者 BBuf:推理框架的新底牌

SGLang 是當(dāng)前最流行的開源 LLM 推理框架之一,DeepSeek V3 的 EP 與 PD 分離方案就出自該社區(qū)。

BBuf 介紹了 SGLang 近期的關(guān)鍵進(jìn)展,包括支撐 DeepSeek-V4 等模型的 Prefill-Decode 分離架構(gòu)與分層緩存機(jī)制,以及 Zero?overhead Speculative Decoding 帶來的推測解碼效率提升。目前在算子層,原有的 sgl?kernel 包已逐步遷移至全新的 Jit?kernel 體系,基于 TVM?FFI 實(shí)現(xiàn)按需編譯,提升了開發(fā)與發(fā)版效率。同時(shí),SGLang 積極引入 Vibe Coding 實(shí)踐,利用 AI Agent 自動(dòng)完成了超 60 項(xiàng)性能分析與調(diào)優(yōu)任務(wù)。

2026 Q2 路線圖里,摩爾線程 MUSA 已經(jīng)與 GB200/GB300、AMD、TPU、Intel 一同列入官方硬件支持矩陣,未來雙方將深化原生算子支持,共同推動(dòng)頂級推理框架與國產(chǎn)算力底座的「原生」級融合。

智源 AI 編譯器研究員肖航:讓 Triton 在 MUSA 上跑通跑快

BAAI 智源研究院 AI 編譯器研究員肖航老師帶來了 FlagOS 生態(tài)的最新進(jìn)展。

FlagOS 基于 Triton 構(gòu)建,其核心是算子庫 FlagGems 與統(tǒng)一編譯器 FlagTree,目標(biāo)是「一套算子,多家芯片」。目前,F(xiàn)lagGEMs 算子庫已涵蓋超 497 個(gè)算子,并依托 FlagTree 編譯器與 Triton-TLE 語言擴(kuò)展,實(shí)現(xiàn)了跨芯片的高性能算子生成。

在 FlagOS 上,通過融化、量化等方式,F(xiàn)usedMoE 和 FP8 GEMM 等算子性能加速了四倍;FlagTune 把調(diào)優(yōu)結(jié)果做成了可下載的社區(qū)資產(chǎn)。

在 MUSA 平臺(tái)上,F(xiàn)lagOS 與摩爾線程聯(lián)調(diào),通過環(huán)境變量啟用 MUSA 的 TMA 向量加速引擎。在 DeepSeek-V4 的 Day0 適配中,通過摩爾線程專用的張量加速引擎與 FlagOSTune 調(diào)優(yōu)方案,TTFT 時(shí)延降低 56.7%,吞吐量提升 65.7%。這種跨芯片的統(tǒng)一抽象與優(yōu)化機(jī)制,正為摩爾線程等國產(chǎn) GPU 構(gòu)建起更加豐富、高效的算力應(yīng)用生態(tài)。

TileLang 維護(hù)者唐正舉:Tile 抽象兼顧少代碼與高性能

唐正舉老師介紹道:作為 Tile 級領(lǐng)域特定編程語言(DSL),TileLang 在化解算子硬件依賴與性能調(diào)優(yōu)上具有核心優(yōu)勢。開發(fā)者能以極簡代碼實(shí)現(xiàn)極致性能。

簡單來說,約 50 行代碼,開發(fā)者能夠構(gòu)建出性能比肩 FlashAttention 專家級實(shí)現(xiàn)的 Kernel;在 Attention-Sinks 等算子上,加速比超過 20 倍。為了覆蓋不同層次的用戶,TileLang 設(shè)計(jì)了 Beginner、Developer、Expert 三種編程模式,從快速上手到深度調(diào)優(yōu)都有對應(yīng)的入口。

開源不到一年,TileLang 已積累超過 6000 顆 Star。此次與摩爾線程 MUSA 生態(tài)的深度聯(lián)調(diào),目標(biāo)是為其全功能 GPU 構(gòu)建一套完整的高性能算子庫。Tile-AI 社區(qū)接下來還將在分布式算子編程、自動(dòng)調(diào)度等方向持續(xù)推進(jìn)。

Mooncake 貢獻(xiàn)者馬騰:推理解耦時(shí)代的基礎(chǔ)

馬騰老師介紹了 Mooncake 與 SGLang 深度結(jié)合的技術(shù)路線。

傳輸引擎層面,Mooncake 充分利用零拷貝 RDMA 與多協(xié)議支持,在高吞吐與超低延遲之間找到平衡;KV Cache Store 則把 GPU 顯存、DRAM、SSD 等異構(gòu)存儲(chǔ)統(tǒng)一池化,讓長上下文推理的成本大幅下降。

在彈性 EP 架構(gòu)中,Mooncake 支持故障節(jié)點(diǎn)的動(dòng)態(tài)摘除與 Expert 映射調(diào)整,集群容錯(cuò)能力顯著提升;在 RL 權(quán)重更新場景下,通過 P2P 傳輸,同步時(shí)間從 53 秒壓縮到了 7.2 秒。

目前,摩爾線程已作為 Mooncake 項(xiàng)目的核心 Maintainer 之一,深度參與多節(jié)點(diǎn)通信協(xié)議等關(guān)鍵特性的共建。從傳輸引擎到異構(gòu)存儲(chǔ)池化,再到彈性容錯(cuò),這一系列工程創(chuàng)新正在把 Mooncake 推向現(xiàn)代 AI 生產(chǎn)與部署軟件棧的核心位置。

結(jié)語

從單純的主動(dòng)推理框架適配,到與開源社區(qū)開發(fā)者共同推進(jìn)底層能力建設(shè),摩爾線程如今更像是在參與搭一張桌子,而不只是申請一張入場券。

這兩年,「大模型在國產(chǎn)卡上訓(xùn)練推理」的新聞層出不窮,但單點(diǎn)硬件適配的速度還遠(yuǎn)遠(yuǎn)跟不上 AI 技術(shù)演進(jìn)的步伐。真正稀缺的,從來不是跑通一個(gè) demo,而是建立一個(gè)能獲得大模型開源社區(qū)內(nèi)深度認(rèn)可、持續(xù)參與的穩(wěn)定研發(fā)生態(tài)

尤其是在 DeepSeek V4 的節(jié)點(diǎn)上,摩爾線程與社區(qū)的深度共建顯得尤為重要。

主流開源項(xiàng)目愿意把你寫進(jìn) Roadmap、寫進(jìn) CI 矩陣、寫進(jìn) Maintainer 名單。SGLang 官方支持列表里有 MUSA,F(xiàn)lagOS 與 TileLang 倉庫里有 MUSA 的適配,Mooncake 的 Maintainer 團(tuán)隊(duì)里有摩爾的工程師。每一條單獨(dú)拎出來或許都不算大新聞,合在一起就是另一回事:全球最活躍的幾個(gè)開源推理項(xiàng)目,都已經(jīng)把摩爾線程視作生態(tài)共建的穩(wěn)定一極。

國產(chǎn) GPU 的故事,常常被簡化成「對標(biāo)英偉達(dá)」,架構(gòu)、算力和制程是直觀的指標(biāo)。而隨著大模型真正跑起來,進(jìn)入生產(chǎn)部署環(huán)節(jié),我們可以看到:開源社區(qū)的活躍度和影響力,正在成為硬實(shí)力的證明。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
科學(xué)家證實(shí):只要連續(xù)兩天不吃飯,就能夠重建整個(gè)免疫系統(tǒng)?

科學(xué)家證實(shí):只要連續(xù)兩天不吃飯,就能夠重建整個(gè)免疫系統(tǒng)?

Thurman在昆明
2026-05-15 05:50:50
內(nèi)塔尼亞胡慫了,寧可得罪美國也對中國低頭,中國頂級陽謀顯現(xiàn)

內(nèi)塔尼亞胡慫了,寧可得罪美國也對中國低頭,中國頂級陽謀顯現(xiàn)

遁走的兩輪
2026-05-16 05:44:33
1.1億美元拿下,世界杯離不開中國!央視獲得2026世界杯版權(quán)!

1.1億美元拿下,世界杯離不開中國!央視獲得2026世界杯版權(quán)!

海浪星體育
2026-05-15 14:50:47
中美晚宴結(jié)束,雙方達(dá)成一項(xiàng)共識,馬斯克出面說了一句話,不簡單

中美晚宴結(jié)束,雙方達(dá)成一項(xiàng)共識,馬斯克出面說了一句話,不簡單

激情與榮耀并存
2026-05-15 14:05:23
晚宴上,馬斯克最放松喝得微醺,一直在搞怪,感覺像回到家一樣

晚宴上,馬斯克最放松喝得微醺,一直在搞怪,感覺像回到家一樣

魔都姐姐雜談
2026-05-15 00:46:56
黑化的法國隊(duì)!世界杯26人名單:21人有非洲血統(tǒng),姆巴佩都顯白了

黑化的法國隊(duì)!世界杯26人名單:21人有非洲血統(tǒng),姆巴佩都顯白了

阿晞體育
2026-05-15 14:39:29
日媒:日本隊(duì)26人大名單平均身高1米81,史上首次破1米8大關(guān)

日媒:日本隊(duì)26人大名單平均身高1米81,史上首次破1米8大關(guān)

懂球帝
2026-05-15 15:09:09
克橋關(guān)閉,烏東告急,俄羅斯卻要求烏克蘭撤走軍隊(duì),實(shí)在是買條咸魚放生——不知死活

克橋關(guān)閉,烏東告急,俄羅斯卻要求烏克蘭撤走軍隊(duì),實(shí)在是買條咸魚放生——不知死活

李未熟擒話2
2026-05-14 09:09:16
U20女足世界杯抽簽:中國與西班牙、尼日利亞和新喀里多尼亞同組

U20女足世界杯抽簽:中國與西班牙、尼日利亞和新喀里多尼亞同組

懂球帝
2026-05-15 23:52:09
美國近百億對烏援助草案出臺(tái)!特朗普百分百不會(huì)同意

美國近百億對烏援助草案出臺(tái)!特朗普百分百不會(huì)同意

項(xiàng)鵬飛
2026-05-14 17:40:28
丁海峰夫婦凌晨1點(diǎn)機(jī)場接娃,兒子身高超190,長相隨媽比爸爸還帥

丁海峰夫婦凌晨1點(diǎn)機(jī)場接娃,兒子身高超190,長相隨媽比爸爸還帥

八怪娛
2026-05-14 11:08:39
中方接到東京消息,高市內(nèi)閣爆發(fā)分歧,反華派冒頭要和中國掰手腕

中方接到東京消息,高市內(nèi)閣爆發(fā)分歧,反華派冒頭要和中國掰手腕

空谷幽幽藍(lán)
2026-05-16 05:33:50
美股半導(dǎo)體、存儲(chǔ)股,全線大跌

美股半導(dǎo)體、存儲(chǔ)股,全線大跌

第一財(cái)經(jīng)資訊
2026-05-15 21:52:36
中東風(fēng)向變了!一夜醒來徹底懵了:沙特科威特空軍輪番轟炸伊拉克

中東風(fēng)向變了!一夜醒來徹底懵了:沙特科威特空軍輪番轟炸伊拉克

標(biāo)體
2026-05-15 03:15:22
中美會(huì)談圓滿結(jié)束,中方當(dāng)面對臺(tái)灣問題定調(diào),特朗普反應(yīng)耐人尋味

中美會(huì)談圓滿結(jié)束,中方當(dāng)面對臺(tái)灣問題定調(diào),特朗普反應(yīng)耐人尋味

墨蘭史書
2026-05-16 05:45:03
突發(fā)特訊!外交部通告:強(qiáng)烈譴責(zé)巴方有關(guān)行徑,引全球高度關(guān)注

突發(fā)特訊!外交部通告:強(qiáng)烈譴責(zé)巴方有關(guān)行徑,引全球高度關(guān)注

劉襈說體壇
2026-05-16 00:59:30
悍匪10年來殺人無數(shù),女性受害者超100名,卻被農(nóng)婦砍斷作案器官

悍匪10年來殺人無數(shù),女性受害者超100名,卻被農(nóng)婦砍斷作案器官

莫地方
2026-05-16 01:40:03
每體:老佛爺和穆里尼奧達(dá)協(xié)議,若選舉程序結(jié)束且連任就官宣

每體:老佛爺和穆里尼奧達(dá)協(xié)議,若選舉程序結(jié)束且連任就官宣

懂球帝
2026-05-16 04:32:03
牡丹花下死!送走馬蓉又迎馮清,43歲王寶強(qiáng),終究栽進(jìn)“女人坑”

牡丹花下死!送走馬蓉又迎馮清,43歲王寶強(qiáng),終究栽進(jìn)“女人坑”

小噎論事
2026-04-15 05:19:35
范戴克梅開二度難救主,沃特金斯雙響,利物浦2-4維拉造恥辱紀(jì)錄

范戴克梅開二度難救主,沃特金斯雙響,利物浦2-4維拉造恥辱紀(jì)錄

釘釘陌上花開
2026-05-16 04:58:52
2026-05-16 06:24:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
13006文章數(shù) 142650關(guān)注度
往期回顧 全部

科技要聞

直降千元起步!蘋果華為率先開啟618讓利

頭條要聞

黃仁勛在北京喝豆汁痛苦皺眉 問“這是什么東西”

頭條要聞

黃仁勛在北京喝豆汁痛苦皺眉 問“這是什么東西”

體育要聞

德約科維奇買的球隊(duì),從第6級聯(lián)賽升入法甲

娛樂要聞

方媛為何要來《桃花塢6》沒苦硬吃?

財(cái)經(jīng)要聞

騰訊掉隊(duì),馬化騰戳破真相

汽車要聞

高爾夫GTI刷新紐北紀(jì)錄 ID. Polo GTI迎全球首秀

態(tài)度原創(chuàng)

家居
健康
旅游
游戲
軍事航空

家居要聞

110㎡淡而有致的生活表達(dá)

專家揭秘干細(xì)胞回輸?shù)陌踩L(fēng)險(xiǎn)

旅游要聞

藏在沈陽鬧市的金色秘境!2 萬㎡油菜花全開,地鐵直達(dá)還免費(fèi)

《街霸6》春麗新品來了!招牌肉腿完美還原

軍事要聞

烏克蘭首都基輔遭空襲 死亡人數(shù)增至12人

無障礙瀏覽 進(jìn)入關(guān)懷版