網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請入駐

國產(chǎn)GPU開始造世界！國內(nèi)首個(gè)全棧具身智能仿真平臺(tái)來了

2026-05-19 14:58:44　來源: 量子位

北京舉報(bào)

分享至

金磊發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

沒有新的GPU，沒有新的智算卡。

但一家國產(chǎn)GPU廠商，卻在一整場發(fā)布會(huì)的時(shí)間里，做了一件非常物理的事兒——

發(fā)布首個(gè)全棧國產(chǎn)化的具身智能仿真平臺(tái)。

先來看效果。

這只名叫小飛的機(jī)器狗，緩緩走上了舞臺(tái)。

在走到舞臺(tái)中央后，只見屏幕里仿真世界的小飛側(cè)空翻了一下，隨即，物理世界的小飛便做出了一模一樣的動(dòng)作。

轉(zhuǎn)個(gè)身，再來一次，動(dòng)作依舊是像粘貼復(fù)制的似的。

小飛的運(yùn)動(dòng)策略是這樣的：

100%是在仿真世界中訓(xùn)練出來，并無損遷移到真實(shí)物理世界的。

那么它背后這家國產(chǎn)GPU玩家是誰？這個(gè)具身智能仿真平臺(tái)又叫什么？

不賣關(guān)子。

正是由摩爾線程新鮮發(fā)布的MT Lambda。

剛才小飛的一套操作，可以理解為：

這是首次在全國產(chǎn)的硬件平臺(tái)上訓(xùn)練出的運(yùn)控策略，完整部署到全國產(chǎn)的端側(cè)芯片上，第一次實(shí)現(xiàn)了Sim-to-Real（仿真到現(xiàn)實(shí)）的真機(jī)驗(yàn)證。

至此，摩爾線程也就成為了國內(nèi)唯一打通“大模型訓(xùn)練 — 仿真模擬 — 端側(cè)部署”全鏈路的GPU企業(yè)。

如果說大模型的爆發(fā)是依靠海量互聯(lián)網(wǎng)數(shù)據(jù)“喂”出來的，那么具身智能的爆發(fā)，則迫切需要一個(gè)極度真實(shí)的虛擬世界。

而現(xiàn)在，國產(chǎn)GPU，開始自己動(dòng)手造世界了。

更像是一套物理AI訓(xùn)練的流水線

若我們把MT Lambda拆開來看，其實(shí)，它更像一條圍繞機(jī)器人訓(xùn)練展開的流水線。

最上層，是兩個(gè)平臺(tái)：MT Lambda-Lab和MT Lambda-Sim。

MT Lambda-Lab更偏具身策略開發(fā)與訓(xùn)練，面向強(qiáng)化學(xué)習(xí)、模仿學(xué)習(xí)、VLA模型等任務(wù)。

對(duì)于開發(fā)者來說，這一層要解決的是“怎么讓智能體學(xué)會(huì)做事”的問題，即動(dòng)作策略怎么訓(xùn)練、行為怎么迭代、模型怎么在復(fù)雜任務(wù)中逐步變得更穩(wěn)定等等。

MT Lambda-Sim則更偏高保真物理仿真與渲染，負(fù)責(zé)場景構(gòu)建、傳感器模擬、數(shù)據(jù)生成和仿真驗(yàn)證。

它關(guān)心的是另一個(gè)問題：機(jī)器人看到的世界、碰到的物體、執(zhí)行動(dòng)作后的反饋，能不能盡可能接近真實(shí)世界。

這兩者合在一起，就構(gòu)成一條具身智能開發(fā)的主鏈路：數(shù)據(jù)合成—策略訓(xùn)練—仿真驗(yàn)證—端側(cè)部署。

為什么這條鏈路重要？因?yàn)楝F(xiàn)實(shí)世界太貴了。

張建中在發(fā)布會(huì)上，便提到了訓(xùn)練一個(gè)好的智能體的三大痛點(diǎn)：

首先缺少大量高質(zhì)量數(shù)據(jù)，靠人采集、靠遙操作采集，成本都很高；
其次，真機(jī)訓(xùn)練風(fēng)險(xiǎn)和代價(jià)很高，不可能讓機(jī)器人或機(jī)器狗每天反復(fù)摔倒、損壞；
第三，真實(shí)場景往往不可控，也不容易泛化，實(shí)驗(yàn)室里能跑，換個(gè)環(huán)境就可能失效。

這幾句話其實(shí)點(diǎn)出了具身智能行業(yè)當(dāng)下最現(xiàn)實(shí)的矛盾，即模型進(jìn)化很快，物理場景積累很慢。

大模型可以吃互聯(lián)網(wǎng)數(shù)據(jù)，但機(jī)器人吃的是現(xiàn)實(shí)世界的數(shù)據(jù)。一個(gè)杯子從桌邊滑落，一塊布料被夾爪抓起，一輛車在雨夜里遇到突發(fā)障礙，這些任務(wù)很難用簡單文本描述完整。它們涉及光照、材質(zhì)、摩擦、碰撞、運(yùn)動(dòng)軌跡和傳感器反饋。要讓機(jī)器人真正學(xué)會(huì)行動(dòng)，就必須把這些復(fù)雜場景低成本、大規(guī)模、可復(fù)現(xiàn)地生產(chǎn)出來。

MT Lambda的底層能力，就圍繞三類引擎展開：物理、渲染、AI。

先看物理引擎。

MT Lambda集成了MuJoCo-Warp-MUSA、Newton-MUSA等開源后端，也包括摩爾線程自研的AlphaCore物理引擎。

它們基于MUSA架構(gòu)進(jìn)行并行求解，支持高精度、可微分的物理計(jì)算。在典型仿真負(fù)載下，整體仿真吞吐效率可實(shí)現(xiàn)約30倍提升。

這意味著什么？

對(duì)于機(jī)器人來說，物理引擎的價(jià)值遠(yuǎn)遠(yuǎn)不止讓畫面里的東西動(dòng)起來。機(jī)械臂抓起一個(gè)柔性物體，指尖接觸時(shí)有力的反饋；四足機(jī)器人落地時(shí)，不同地面材質(zhì)會(huì)改變受力和姿態(tài)；自動(dòng)駕駛仿真里，車輛、行人、障礙物之間的運(yùn)動(dòng)關(guān)系要符合真實(shí)物理規(guī)律。仿真如果不準(zhǔn)，訓(xùn)練出來的策略就容易在現(xiàn)實(shí)中翻車。

再看渲染引擎。

MT Lambda搭載MT Photon光子引擎，融合光線追蹤與混合渲染能力，同時(shí)引入3DGS和自研AI生成式渲染能力，用來提升仿真畫面的真實(shí)感、細(xì)膩度和渲染效率。

這部分尤其關(guān)鍵。具身智能既要算動(dòng)作，也要看世界。攝像頭、深度相機(jī)、激光雷達(dá)、觸覺傳感器等多模態(tài)輸入，都會(huì)影響機(jī)器人如何判斷環(huán)境。渲染越真實(shí)，合成數(shù)據(jù)越接近真實(shí)數(shù)據(jù)，Sim to Real的鴻溝就越有機(jī)會(huì)縮小。

現(xiàn)場講到與光輪智能合作時(shí)，張建中提到，MTT S5000具備RT Core光線追蹤核心，可以帶來接近3倍的圖形渲染能力提升；在相關(guān)測試中，使用MTT S5000 RT Core硬件光線追蹤加速渲染，可獲得2.7倍性能提升。

最后是AI引擎。

MT Lambda集成深度適配PyTorch的Torch-MUSA框架，配合muSolver、muFFT等加速庫，支持VLA模型開發(fā)部署，并融合強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)訓(xùn)練范式。

放到具身智能里，AI引擎對(duì)應(yīng)的是機(jī)器人大腦的訓(xùn)練：它要把視覺、語言、動(dòng)作連接起來，把環(huán)境反饋?zhàn)兂上乱徊經(jīng)Q策。

為什么摩爾線程能把“算、仿、渲”裝進(jìn)一個(gè)Lambda？

其實(shí)，這也是全功能GPU價(jià)值被放大的地方。畢竟，全功能GPU在國內(nèi)本身便是稀缺的。

因?yàn)榫呱碇悄軐?duì)芯片的要求，遠(yuǎn)不止AI矩陣計(jì)算。

機(jī)器人訓(xùn)練要跑VLA模型、強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)，這是AI智算；要模擬碰撞、摩擦、動(dòng)力學(xué)和復(fù)雜接觸，這是科學(xué)計(jì)算和物理AI；要生成足夠真實(shí)的訓(xùn)練畫面和傳感器數(shù)據(jù)，這是3D渲染；未來還會(huì)涉及大量視頻數(shù)據(jù)的采集、傳輸、生成和回放，這又離不開超高清視頻編解碼。

TPU、NPU或者一些GPGPU路線，往往更聚焦AI計(jì)算或通用計(jì)算的某一類任務(wù)。它們在特定場景里可以把效率做到很高，但具身智能的問題更雜，既要訓(xùn)練數(shù)字大腦，也要構(gòu)建物理世界，還要把真實(shí)畫面和傳感器反饋一起納入訓(xùn)練閉環(huán)。

摩爾線程之所以能把MT Lambda做成物理、渲染、AI三大引擎一體的平臺(tái)，底層原因正在于它從成立以來堅(jiān)持的全功能GPU路線。

按照摩爾線程給出的定義，全功能GPU依托自研MUSA架構(gòu)，在單顆芯片中同時(shí)支持AI計(jì)算、圖形渲染、物理仿真、科學(xué)計(jì)算和超高清視頻編解碼。

換句話說，MT Lambda并非是在一堆割裂工具之上硬拼出來的套件，而是長在全功能GPU和MUSA統(tǒng)一架構(gòu)上的平臺(tái)能力。

對(duì)于具身智能來說，這種“算、仿、渲”一體化，恰好對(duì)應(yīng)了機(jī)器人訓(xùn)練的真實(shí)需求，即一邊跑AI模型、一邊算物理碰撞、一邊渲染真實(shí)畫面。

過去，開發(fā)者可能需要在不同硬件、不同軟件棧之間切換：AI訓(xùn)練用一套平臺(tái)，圖形渲染用另一套平臺(tái)，物理仿真又要接第三套工具。數(shù)據(jù)在不同系統(tǒng)之間搬來搬去，效率低，調(diào)試難，誤差也會(huì)累積。

MT Lambda想做的，是把這些原本割裂的環(huán)節(jié)盡可能放回同一套底座上。對(duì)于開發(fā)者而言，更理想的狀態(tài)是少花時(shí)間和底層適配搏斗，把更多精力放在算法、任務(wù)和場景本身。

云端、端側(cè)、生態(tài)，也開始閉環(huán)了

如果說MT Lambda解決的是怎么訓(xùn)練和仿真，那么摩爾線程另一條線索，是把云端、端側(cè)和生態(tài)一起補(bǔ)上。

云端，是夸娥（KUAE）智算集群。

在大模型時(shí)代，集群首先被理解為訓(xùn)練底座；但到了具身智能時(shí)代，它還像一個(gè)巨大的機(jī)器人訓(xùn)練場。因?yàn)榉抡鏀?shù)據(jù)一旦規(guī)模化，需求會(huì)迅速膨脹：

一條機(jī)械臂軌跡可能要生成多個(gè)機(jī)位、多種光照、多種材質(zhì)、多種擾動(dòng)下的畫面；自動(dòng)駕駛世界模型每周可能生成海量測試?yán)锍蹋蝗诵螜C(jī)器人訓(xùn)練也需要大量并行環(huán)境反復(fù)試錯(cuò)……

當(dāng)數(shù)據(jù)進(jìn)入百萬幀、千萬幀規(guī)模，底層算力的角色也會(huì)從加速器變成一條生產(chǎn)線。

摩爾線程的夸娥智算集群，核心加速單元包括MTT S5000。其中，MTT S5000基于第四代MUSA架構(gòu)平湖，單卡AI稠密算力最高1000 TFLOPS，配備80GB顯存、1.6TB/s顯存帶寬，支持FP8到FP64全精度計(jì)算，同時(shí)也是國內(nèi)極少數(shù)同時(shí)支持硬件級(jí)光線追蹤和AI訓(xùn)推的國產(chǎn)GPU。

這類指標(biāo)放到具身智能語境下，含義會(huì)更清楚：FP8、BF16、FP16等能力服務(wù)AI訓(xùn)推，光線追蹤服務(wù)高保真渲染，物理仿真和科學(xué)計(jì)算能力服務(wù)復(fù)雜動(dòng)力學(xué)求解。也就是說，具身智能需要多種能力在同一套架構(gòu)中協(xié)同起來。

端側(cè)，則是長江SoC和E300 AI模組。

云端負(fù)責(zé)大規(guī)模訓(xùn)練，仿真平臺(tái)負(fù)責(zé)試錯(cuò)和驗(yàn)證，但最終，策略還是要跑到機(jī)器人本體上。機(jī)器人在真實(shí)世界行動(dòng)，很多時(shí)候不能完全依賴云端響應(yīng)。它需要本地完成感知、決策和控制，尤其在低延遲、高可靠要求的任務(wù)中，端側(cè)算力是必須補(bǔ)齊的一環(huán)。

基于長江SoC的MTT E300 AI模組提供50 TOPS級(jí)本地算力，可直接部署于機(jī)器人終端，支持低延遲、高可靠的實(shí)時(shí)響應(yīng)。換句話說，云端訓(xùn)練出來的經(jīng)驗(yàn)，需要通過端側(cè)模組變成機(jī)器人身上的即時(shí)反應(yīng)。

這就形成了一個(gè)更完整的閉環(huán)：云端做大規(guī)模訓(xùn)練和并行仿真，MT Lambda完成策略開發(fā)、數(shù)據(jù)合成和仿真驗(yàn)證，E300 AI模組負(fù)責(zé)把訓(xùn)練結(jié)果帶到機(jī)器人終端執(zhí)行。

更重要的是，摩爾線程這套布局已經(jīng)開始進(jìn)入真實(shí)生態(tài)驗(yàn)證。

比如，與智源的合作中，RoboBrain 2.5基于MTT S5000千卡集群完成端到端訓(xùn)練。相關(guān)驗(yàn)證結(jié)果顯示，其訓(xùn)練Loss走勢與H100集群結(jié)果高度重合，差異僅0.62%，并在部分任務(wù)表現(xiàn)更優(yōu)；集群從64卡擴(kuò)展至1024卡，實(shí)現(xiàn)90%以上線性擴(kuò)展效率。

這類結(jié)果的意義在于，它驗(yàn)證了國產(chǎn)算力集群作為具身模型訓(xùn)練底座的可用性。

再比如，與光輪智能的合作，更多指向仿真數(shù)據(jù)量產(chǎn)。雙方依托摩爾線程全功能GPU與夸娥智算集群，結(jié)合光輪智能“求解—測量—生成”三位一體的仿真平臺(tái)，聯(lián)合打造高置信度仿真數(shù)據(jù)合成方案。光輪智能的高精度GPU物理求解器已適配MUSA架構(gòu)，支持剛體、柔體、流體、顆粒等復(fù)雜物理過程的高精度實(shí)時(shí)仿真，相關(guān)案例中，核心物理參數(shù)仿真準(zhǔn)確度達(dá)到99%以上。

與小馬智行的合作，則把場景擴(kuò)展到自動(dòng)駕駛。雙方基于MTT S5000和夸娥智算集群，推進(jìn)世界模型及車端模型訓(xùn)練的適配與驗(yàn)證。小馬智行世界模型每周可生成超過100億公里測試數(shù)據(jù)，并衍生出大量極端場景。對(duì)于自動(dòng)駕駛來說，長尾場景、極端險(xiǎn)境和安全驗(yàn)證，本來就是仿真最能發(fā)揮價(jià)值的地方。

此外，摩爾線程還與五一視界、光線云等伙伴推進(jìn)物理AI仿真體系和具身仿真平臺(tái)建設(shè)。無論是4DGS模型訓(xùn)練推理、合成數(shù)據(jù)生成，還是任務(wù)庫、仿真計(jì)算、虛實(shí)驗(yàn)證閉環(huán)，本質(zhì)上都在回答同一個(gè)問題：具身智能很難靠單家公司閉門造車，它需要算力、仿真、算法、場景方一起把生態(tài)跑通。

這也是摩爾線程這次發(fā)布比較值得關(guān)注的地方。

它把故事從“我有一顆芯片”，推進(jìn)到“我能搭一套基礎(chǔ)設(shè)施”。

從底層MUSA架構(gòu)和全功能GPU往上搭平臺(tái)，往下接端側(cè)，橫向拉生態(tài)。這個(gè)打法未必一夜之間改變產(chǎn)業(yè)格局，但它已經(jīng)把國產(chǎn)GPU的戰(zhàn)場，從大模型訓(xùn)推進(jìn)一步推向了物理AI基礎(chǔ)設(shè)施。

要做的是國產(chǎn)具身智能基礎(chǔ)設(shè)施

具身智能現(xiàn)在很大的矛盾點(diǎn)在于，模型很快，但場景很慢。

在數(shù)字世界里，大模型可以靠海量文本、圖片、視頻數(shù)據(jù)持續(xù)進(jìn)化；但在物理世界里，機(jī)器人要學(xué)會(huì)開門、搬箱子、抓柔性物體、穿過復(fù)雜路口，每一個(gè)動(dòng)作背后都是真實(shí)成本。

真機(jī)采集貴，遙操作慢，設(shè)備損壞風(fēng)險(xiǎn)高，危險(xiǎn)場景不能隨便試，長尾情況又難以窮盡。于是，仿真合成數(shù)據(jù)和Sim to Real閉環(huán)，就成了具身智能從實(shí)驗(yàn)室走向產(chǎn)業(yè)的關(guān)鍵基礎(chǔ)設(shè)施。

這也是為什么“造世界”會(huì)成為具身智能競爭的核心命題。

這里的世界，核心價(jià)值不在于游戲意義上的好看，而在于能訓(xùn)練機(jī)器人、驗(yàn)證機(jī)器人、糾正機(jī)器人行為。它既要足夠真實(shí)，能反映光照、材質(zhì)、碰撞、摩擦、傳感器噪聲；也要足夠高效，能大規(guī)模并行生成數(shù)據(jù)；還要足夠開放，讓不同模型、不同機(jī)器人、不同場景都能接入。

從這個(gè)角度看，摩爾線程的優(yōu)勢很難只用某個(gè)單點(diǎn)參數(shù)概括，其“全功能GPU+MUSA生態(tài)”的技術(shù)路線，天然更貼近具身智能的復(fù)合需求。

全功能GPU提供AI計(jì)算、圖形渲染、物理仿真、科學(xué)計(jì)算和視頻編解碼等多類能力；MUSA提供統(tǒng)一軟件生態(tài)；MT Lambda把物理、渲染、AI三大引擎整合起來；夸娥智算集群負(fù)責(zé)大規(guī)模訓(xùn)練和仿真；長江SoC與E300 AI模組把能力帶向端側(cè)；外部生態(tài)伙伴則補(bǔ)足數(shù)據(jù)、場景、仿真平臺(tái)和行業(yè)應(yīng)用。

這條鏈路的價(jià)值在于，具身智能本質(zhì)上是一項(xiàng)系統(tǒng)工程。

大模型公司可以先拼數(shù)字大腦，但機(jī)器人公司最終要面對(duì)的，是大腦如何控制身體、身體如何理解環(huán)境、環(huán)境如何被低成本復(fù)現(xiàn)。誰能用更低成本、更高效率，給機(jī)器人造出足夠真實(shí)、足夠可控、足夠大規(guī)模的訓(xùn)練世界，誰就更有機(jī)會(huì)把具身智能從Demo帶到真實(shí)生產(chǎn)線、道路、家庭和城市空間。

當(dāng)然，國產(chǎn)具身智能基礎(chǔ)設(shè)施的建設(shè)不會(huì)一蹴而就。

無論是仿真真實(shí)性、Sim to Real遷移效果、開發(fā)者生態(tài)成熟度，還是產(chǎn)業(yè)客戶的大規(guī)模采用，都需要持續(xù)驗(yàn)證。摩爾線程這套方案能走多遠(yuǎn)，也要看后續(xù)更多真實(shí)項(xiàng)目、更多開發(fā)者和更多機(jī)器人本體的反饋。

但至少從這次發(fā)布會(huì)看，國產(chǎn)GPU正在進(jìn)入一個(gè)新階段。

它開始跳出能不能替代某塊卡的被動(dòng)敘事，主動(dòng)定義新的算力場景：發(fā)布會(huì)上升級(jí)的“小麥”是數(shù)字智能體；翻跟頭的機(jī)器狗“小飛”是物理智能體。當(dāng)AI從屏幕走向現(xiàn)實(shí)，當(dāng)智能體從會(huì)說話走向會(huì)行動(dòng)，底層算力就必須同時(shí)理解模型、圖形和物理。

張建中在活動(dòng)中有提到，希望摩爾線程的產(chǎn)品從夸娥到長江，能夠賦能所有智能體。

放在具身智能這條線上，這句話可以翻譯得更具體一點(diǎn)：云端有大訓(xùn)練場，仿真里有虛擬世界，端側(cè)有小腦執(zhí)行，生態(tài)里有真實(shí)場景。

大模型競爭拼的是誰能訓(xùn)練出更強(qiáng)的數(shù)字大腦，具身智能競爭還要拼另一件事：誰能先造出一個(gè)足夠真實(shí)的訓(xùn)練世界。

這一次，國產(chǎn)GPU已經(jīng)開始下場造世界了。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.