无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

用國產(chǎn)GPU訓練AI給自己寫內核,摩爾線程刷榜硬核基準

0
分享至



編輯|澤南

國產(chǎn)算力生態(tài)的難題,從此有了 AI 解。

最近,在比「AI 生成 GPU 內核」的硬核基準 KernelBench 上,摩爾線程的模型拿下了第一。



在 MooreEval 執(zhí)行式驗證協(xié)議的加持下,摩爾線程的 MusaCoder-27B-RL 取得了領先業(yè)界的表現(xiàn),超越了 Claude Opus、GLM-5.1、Kimi K2.6 等一眾國內外先進大模型。

這次拿下成績的,是上周才正式發(fā)布并開源的 MusaCoder,這是一款面向 GPU 底層算子生成的專用大模型,能自動把 PyTorch 代碼轉換為 CUDA 與 MUSA 內核,為 AI 訓練等任務提供加速,旨在降低開發(fā)者手寫底層 GPU 算子的門檻。



  • 論文:《MusaCoder: Native GPU Kernel Generation with Full-Stack Training on Moore Threads GPU》
  • 論文地址:http://arxiv.org/abs/2606.04847
  • 模型權重:https://huggingface.co/MooreThreads/MusaCoder-27B

值得關注的是,MusaCoder 是業(yè)內首個基于國產(chǎn) GPU 算力底座完成全鏈路訓練與驗證的開源代碼大模型,其完整后訓練流程均在基于 MTT S5000 的夸娥智算集群上完成。從 AI 模型到 GPU 硬件,全部國產(chǎn)化。

這是國產(chǎn) AI 算力領域的一次突破。

生成 GPU 內核的競賽

比的是真實性能提升

用 AI 來生成 GPU 內核(Kernel),是當前大語言模型(LLM)最硬核的挑戰(zhàn)之一。

KernelBench 由斯坦福大學和普林斯頓大學于 2025 年推出,它被設計為一個「真實世界的工程環(huán)境」,專門用來衡量大模型編寫高效 GPU 內核代碼的能力。

簡單來說,其核心任務是:

給定一個 PyTorch 模型架構,讓大模型生成一個定制的、內嵌 C/C++ 的 CUDA 內核,以替換原有的 PyTorch 算子,目標是實現(xiàn)程序加速。

與其他代碼生成任務不同的是,該基準不僅關注內核能否正確運行,更看重其相對于基線能否帶來實際的性能提升

另一方面,讓 AI 自動化編寫高效、底層的 GPU/CUDA 代碼又是當前突破算力瓶頸的關鍵。讓 AI 掌握這項能力不僅能推動生成代碼的研究,更會在實際應用中為降低算力成本、提高能效提供直接可用的工具。

為了全面評估模型能力,KernelBench 包含了超過 250 個 PyTorch 機器學習任務,并按復雜度和粒度分為 4 個遞進難度級別,從 Level 1 的核心基礎算子如卷積、矩陣乘法、歸一化等,到 Level 4,Hugging Face 上的生產(chǎn)級模型優(yōu)化任務。

在這之上還有級化的評估流程,基于一個三階段的嚴格驗證流水線,以確保結果的可靠性。另外,KernelBench 還要求其加速比超過用戶可設定的閾值:AI 生成的代碼光「正確」還不夠,必須真正有提供加速效果的價值。

因此,KernelBench 被視為一個非常嚴苛的基準。剛剛推出時,DeepSeek R1 在所有任務上的通過率也只有 30%,注意這只是「能用」的比例,還不是 AI 生成的代碼能帶來性能提升的比例。MusaCoder 現(xiàn)在已經(jīng)做到了通過率 88.6%,超越的個個都是以寫代碼能力著稱的大模型。

在論文中,研究人員報告了 MusaCoder 在 Level 1 到 Level 3 能力的各項指標:



可見大多數(shù)知名通用大模型在 GPU 內核生成任務上的能力并不盡如人意,而 MusaCoder 不僅可以做到生成的代碼能用,部分代碼已可以做到「好用」:性能比基準線高至少 1.1 倍。

那么,摩爾線程是如何用一款「小模型」做到的?

MusaCoder 的秘訣

讓 AI 自我改進

在 KernelBench 上,MusaCoder 超越的模型參數(shù)量都在大幾千億到萬億級別,自己卻只有 270 億。能實現(xiàn)「以小博大」,其背后的方法創(chuàng)新是核心。

與通用的代碼生成任務不同,GPU 核心的生成對并行計算、線程組織、內存訪問、索引映射和硬件執(zhí)行等特性要求很高,生成的代碼不僅要語法對,還要能通過編譯,不投機取巧,在真實執(zhí)行中獲得性能收益。

為此,KernelBench 構建了一套專門針對 GPU 原生內核生成任務的「全棧訓練」方案,其中最關鍵的一環(huán)是MooreEval 執(zhí)行式驗證協(xié)議



MooreEval 的架構:這是一個基于執(zhí)行的可擴展評估環(huán)境,用于對生成的原生 GPU 內核函數(shù)進行編譯、驗證、性能分析及獎勵。

簡單來說,MooreEval 是研究人員為 GPU 內核生成任務設計的一套自動化、分布式、結構化的「考試評判系統(tǒng)」。它不像傳統(tǒng)方法只檢查代碼文本相似度或進行簡單的靜態(tài)分析,而是通過真實地編譯、運行和評測模型生成的代碼,提供結構化的反饋和獎勵信號,用于指導大模型的訓練和評估。

對于模型生成的每個候選內核代碼,MooreEval 都會執(zhí)行一個分階段的驗證管道,包括接口和編譯檢查、正確性驗證、反作弊檢測、以及性能測試。只有當上一階段通過后,候選的方法才會進入下一階段。

經(jīng)過流程審核的代碼會根據(jù)一個層次化的獎勵函數(shù)計算分數(shù),除了用于判斷最終實力的分數(shù),還會輸出豐富的結構化信息,它們會自動轉化為可供模型理解的自然語言診斷,用于模型的進一步訓練。

為了能在強化學習訓練中高效處理大批量代碼編譯和執(zhí)行,MooreEval 被設計成一個分布式異步流水線系統(tǒng),它將編譯與執(zhí)行進行了解耦,CPU 密集型的編譯工作和 GPU 密集型的執(zhí)行工作被分配給不同類型的執(zhí)行器(Worker),彼此獨立伸縮,避免了 GPU 在等待編譯時的空閑。

在 GPU 內核生成這件事上,MooreEval 就像是一個自動打分的考官,它通過真實地編譯、運行、反作弊檢測和性能測試,實現(xiàn)了高效率和大規(guī)模的驗證,并為模型提供了精準的學習信號,是驅動 MusaCoder 實現(xiàn)高性能的關鍵引擎。

讓 AI 能 Know How

全棧后訓練體系

MooreEval 只是 MusaCoder 模型特性的一小部分。

MusaCoder 的訓練流程,包含利用多種原始數(shù)據(jù)源構建面向 Kernel 的語料庫、數(shù)據(jù)增強、SFT 與 RFT、兩階段強化學習流程的優(yōu)化,以及 PrimeEcho、MirrorPop 和 Buffered Dynamic Retry 三種穩(wěn)定技術。



為了讓 AI 模型能夠真正學會寫 GPU 內核,MusaCoder 構建了一套面向 GPU 原生算子生成的全棧后訓練體系。

在數(shù)據(jù)構建階段,MusaCoder 通過一個三階段漸進式的數(shù)據(jù)合成管道,系統(tǒng)地培養(yǎng)了模型理解 GPU 編程所需的「思維模式」:

  • 第一階段是通過 GitHub 真實代碼、NNSmith 自動生成圖等多種來源,構建一個龐大的 PyTorch-CUDA/MUSA 任務集,并注入 GPU 編程基礎知識;
  • 第二階段是結構化推理和顯式的 Shape 信息注入,其增強了模型對張量形狀、內存布局和索引關系的理解,讓模型不僅知道要做什么,還要理解「怎么做」;
  • 第三階段是多輪的交互與環(huán)境反饋解析,通過接收編譯錯誤、運行時報錯、性能瓶頸等反饋,讓模型據(jù)此進行針對性的修復和優(yōu)化,為后續(xù)的強化學習模擬多輪修復場景,緩解獎勵稀疏的問題。



SFT 數(shù)據(jù)構建流水線的三階段演進。

為提升強化學習的穩(wěn)定性,MusaCoder 又引入了 PrimeEcho、Buffered Dynamic Retry,以及 MirrorPop 三個機制。

為了防止模型獎勵作弊,為了「及格」而過度依賴多輪反饋,研究團隊設計了基于首輪交互錨定的多輪獎勵機制 PrimeEcho。這是一個全新的軌跡級獎勵公式,將首輪生成質量和整個過程中的最好表現(xiàn)按權重結合,確保了模型優(yōu)化的主要目標始終是提升首輪生成質量,多輪修復只是輔助。

緩沖動態(tài)重試(Buffered Dynamic Retry,BDR)用于從完全失敗的困難樣本中恢復信號,目標是解決 GPU 內核生成這種高難度任務中正樣本稀少的挑戰(zhàn)。一旦某輪任務徹底失敗,BDR 會將任務描述、失敗的代碼和報錯信息打包成一個新任務,放入一個「動態(tài)緩存池」。模型會以較低概率從中學習如何修復自己的錯誤,從而挽救原本無學習價值的失敗樣本。

MirrorPop則用于解決強化學習過程中模型訓練不穩(wěn)定的問題。它通過一個更精準的過濾器,能夠精準剔除高風險樣本。

根據(jù)實驗數(shù)據(jù),這三項機制在提升模型最終性能上都獲得了明顯的性能提升效果。

國產(chǎn) AI 算力技術棧

全流程跑通

當然,MusaCoder 的意義也不止于模型本身。

AI 模型的構建,是一個硬件與軟件棧的復雜磨合過程,對編譯棧的兼容性、運行時穩(wěn)定性、調度系統(tǒng)的低延遲、評測基礎設施的魯棒性都提出了嚴苛的要求。

從監(jiān)督微調到強化學習,MusaCoder 的整個訓練流程全部運行在摩爾線程自己的「夸娥」智算集群上。能完整跑通這一套全流程,證明了國產(chǎn) GPU 集群已經(jīng)具備支撐此類復雜、動態(tài)、交互式訓練任務的能力。

這在一定程度上打破了我們對于國產(chǎn) AI 算力「只能跑推理」的刻板印象。能夠穩(wěn)定承載代碼大模型的后訓練全周期算力需求,意味著在 AI 基礎設施的關鍵環(huán)節(jié)上,國產(chǎn)硬件已經(jīng)從可用走到了好用的階段。MusaCoder 的成功實踐或許會成為可復用的工程范式,為未來更多復雜的 AI 研發(fā)提供參考價值和遷移路徑。

在大模型時代,「自主可控」不僅關乎芯片制造,更包括上層的軟件棧、訓練平臺、評測體系和開源模型生態(tài)。MusaCoder 證明了在這些層面,國產(chǎn)力量已經(jīng)能夠形成閉環(huán)。

而對于廣大開發(fā)者來說,一個能直接從 PyTorch 自動生成高性能 MUSA 內核的基礎模型,更是開啟了 AI 驅動開發(fā)的新路。

或許過不了多久,應用國產(chǎn)算力的底層加速能力,會變得像用 AI 寫代碼一樣簡單。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
呂麗君罕曬母子合照,16歲劉子峰身高已超過媽媽,長得不像劉鑾雄

呂麗君罕曬母子合照,16歲劉子峰身高已超過媽媽,長得不像劉鑾雄

陳意小可愛
2026-06-16 13:28:06
人到中年,女人最吃的從來不是甜言蜜語,是走心的偏愛

人到中年,女人最吃的從來不是甜言蜜語,是走心的偏愛

青蘋果sht
2026-05-20 05:30:11
李夢官宣新戀情?三年情斷終分手告別張隆:女籃一姐重啟獲新生!

李夢官宣新戀情?三年情斷終分手告別張隆:女籃一姐重啟獲新生!

生性灑脫
2026-06-15 21:34:38
“不怕被取消成績嗎?”高考換答題卡事件持續(xù)發(fā)酵,當事人道歉

“不怕被取消成績嗎?”高考換答題卡事件持續(xù)發(fā)酵,當事人道歉

妍妍教育日記
2026-06-15 19:11:32
火箭一夜4消息!范喬丹降薪+伊森4年8000萬?謝潑德距主控差一步

火箭一夜4消息!范喬丹降薪+伊森4年8000萬?謝潑德距主控差一步

鍋子籃球
2026-06-15 21:52:54
2026年起,取消中高級職稱評審!

2026年起,取消中高級職稱評審!

新浪財經(jīng)
2026-06-07 04:42:39
俄軍后勤部隊將油罐車改裝成民用牛奶罐車,突破克里米亞補給封鎖

俄軍后勤部隊將油罐車改裝成民用牛奶罐車,突破克里米亞補給封鎖

涼湫瑾言
2026-06-15 09:25:12
婆婆逼我替大姑姐還債,抱走我9個月兒子,我直接報警全家慌了

婆婆逼我替大姑姐還債,抱走我9個月兒子,我直接報警全家慌了

麥子情感故事
2026-06-16 15:24:39
世排升到152!鄭欽文:一直沒覺得我打得差在哪里 已找到輸球原因

世排升到152!鄭欽文:一直沒覺得我打得差在哪里 已找到輸球原因

風過鄉(xiāng)
2026-06-16 07:44:24
央視發(fā)文,高調官宣鄧亞萍新身份,涉嫌貪腐被帶走傳聞早水落石出

央視發(fā)文,高調官宣鄧亞萍新身份,涉嫌貪腐被帶走傳聞早水落石出

觀察鑒娛
2026-06-16 10:16:33
殲-36最新試飛畫面曝光,帶2架隱身無人僚機,驗證實戰(zhàn)配置

殲-36最新試飛畫面曝光,帶2架隱身無人僚機,驗證實戰(zhàn)配置

阿龍聊軍事
2026-06-16 15:59:12
在80歲生日當天被罵慘,特朗普卻情緒高漲:感謝中國俄羅斯幫忙!

在80歲生日當天被罵慘,特朗普卻情緒高漲:感謝中國俄羅斯幫忙!

霽寒飄雪
2026-06-16 16:34:11
一油傳三代,人走油還在,日本一炸雞店一鍋油用了66年拿全國金獎

一油傳三代,人走油還在,日本一炸雞店一鍋油用了66年拿全國金獎

大廠編外實習生
2026-06-12 13:36:01
伊朗外長:結束黎巴嫩戰(zhàn)事是伊美協(xié)議基本要求

伊朗外長:結束黎巴嫩戰(zhàn)事是伊美協(xié)議基本要求

財聯(lián)社
2026-06-16 16:19:28
CCTV5直播!中國女排沖擊四連勝,首發(fā)恐變陣,輸球最多扣15分

CCTV5直播!中國女排沖擊四連勝,首發(fā)恐變陣,輸球最多扣15分

跑者排球視角
2026-06-16 07:13:49
葉珂被吐槽臉太小沒精氣神,葉珂終于聽勸回應:正在認真增肥

葉珂被吐槽臉太小沒精氣神,葉珂終于聽勸回應:正在認真增肥

觀魚聽雨
2026-06-15 23:30:40
父親做心臟支架很成功,出院前突發(fā)腦出血成植物人,我們簽了放棄

父親做心臟支架很成功,出院前突發(fā)腦出血成植物人,我們簽了放棄

牛鍋巴小釩
2026-06-15 17:05:47
沒想到,回國近一個月,朱婷走上一條康莊大道,郎平當初說對了

沒想到,回國近一個月,朱婷走上一條康莊大道,郎平當初說對了

幽棠的趣式
2026-06-14 12:47:30
上海一小區(qū)內,特斯拉后備箱30萬現(xiàn)金消失!女車主:“可能是感應到我5樓的藍牙鑰匙了”,這個致命錯誤很多車主都犯過!

上海一小區(qū)內,特斯拉后備箱30萬現(xiàn)金消失!女車主:“可能是感應到我5樓的藍牙鑰匙了”,這個致命錯誤很多車主都犯過!

揚子晚報
2026-06-16 07:38:05
收評:創(chuàng)業(yè)板指沖高回落漲1.72% PCB概念股集體大漲

收評:創(chuàng)業(yè)板指沖高回落漲1.72% PCB概念股集體大漲

每日經(jīng)濟新聞
2026-06-16 15:13:51
2026-06-16 17:19:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
13276文章數(shù) 142670關注度
往期回顧 全部

科技要聞

DeepSeek融資500億,梁文鋒牢牢握住控制權

頭條要聞

上海100多萬二手房被指遭中介"吃差價"74萬 鏈家回應

頭條要聞

上海100多萬二手房被指遭中介"吃差價"74萬 鏈家回應

體育要聞

身價5萬的門將,擋住了12億歐元的狂轟濫炸

娛樂要聞

吳文忻葬禮:2個女兒在靈堂內茫然失措

財經(jīng)要聞

2萬億存款去哪兒了?

汽車要聞

smart #6上市后 竟然很少被討論參數(shù)

態(tài)度原創(chuàng)

數(shù)碼
教育
家居
藝術
手機

數(shù)碼要聞

799元,華為MEDELI C25 Mini音樂鍵盤正式開售

教育要聞

孩子叛逆頂嘴、一溝通就吵架?父母先做好這4點再教育!

家居要聞

綠意盎然 自然之境

藝術要聞

日本寫實畫家作品《祈禱終究只是祈禱》

手機要聞

大疆產(chǎn)品經(jīng)理回應手機廠加入Pocket賽道:最終比拼的不是單一價格

無障礙瀏覽 進入關懷版