網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

大曉機(jī)器人開源實(shí)時(shí)生成世界模型， “原生大腦” 讓機(jī)器人能干活

2026-03-13 20:39:26　來源: 科技每日推送

廣東舉報(bào)

分享至

Kairos 3.0-4B 是專為具身智能打造的原生世界模型，具備極致的物理因果一致性，可實(shí)現(xiàn)跨本體泛化，讓同一“大腦”驅(qū)動(dòng)多形態(tài)機(jī)器人。
Kairos 3.0-4B 憑借“多模態(tài)理解 — 生成 — 預(yù)測(cè)”一體化架構(gòu)，實(shí)現(xiàn)物理級(jí)深度理解、長時(shí)動(dòng)態(tài)交互，以及精準(zhǔn)的動(dòng)作軌跡預(yù)測(cè)和控制。7分鐘長時(shí)連貫場景動(dòng)態(tài)交互視頻樹立行業(yè)新標(biāo)桿。
Kairos 3.0-4B 作為輕量化模型，以 4B 參數(shù)超越主流具身世界模型的能力，兼具高效能推理優(yōu)勢(shì)，云端和端側(cè)推理速度大幅領(lǐng)先行業(yè)水平；行業(yè)首個(gè)在 THOR 平臺(tái)達(dá)成 1:1.5 （視頻生成時(shí)間：視頻時(shí)長）端側(cè)實(shí)時(shí)生成的具身世界模型
Kairos 3.0-4B 在多項(xiàng)權(quán)威 Benchmark 中準(zhǔn)確率全面領(lǐng)跑。同時(shí)，基于模型能力和推理工具，其推理速度較 Cosmos 2.5 提升 72 倍，刷新全球具身世界模型性能紀(jì)錄。

近日，大曉機(jī)器人重磅開源開悟世界模型 3.0（Kairos 3.0）-4B 系列具身原生世界模型。作為業(yè)內(nèi)首個(gè)實(shí)現(xiàn)“多模態(tài)理解 — 生成 — 預(yù)測(cè)”一體化的開源具身原生世界模型，該模型以“物理因果一致、跨本體泛化、超長時(shí)交互、云側(cè)實(shí)時(shí)生成、輕量化高效能、端側(cè)本體控制”為核心優(yōu)勢(shì)，性能全面領(lǐng)跑國內(nèi)外主流具身世界模型。

Kairos 3.0-4B 是全球首個(gè)可端側(cè)驅(qū)動(dòng)具身智能本體控制的世界模型，也是行業(yè)內(nèi)首個(gè)在 THOR 端側(cè)平臺(tái)達(dá)成 1:1.5 （視頻生成時(shí)間：視頻時(shí)長）實(shí)時(shí)生成的具身世界模型。該模型部署于Jetson Thor T5000 端側(cè)平臺(tái)，算力可達(dá)517 TFLOPS，不僅能在 3D 仿真環(huán)境中精準(zhǔn)生成機(jī)械臂運(yùn)動(dòng)形態(tài)、完成運(yùn)動(dòng)軌跡的預(yù)測(cè)與規(guī)劃，更可依托 THOR 端側(cè)平臺(tái)實(shí)現(xiàn)機(jī)器人本體的真實(shí)驅(qū)動(dòng)與作業(yè)執(zhí)行，讓機(jī)器人真正從“會(huì)表演”走向“能干活”。

在全球權(quán)威具身智能 Benchmark 評(píng)測(cè)中，Kairos 3.0-4B 各項(xiàng)指標(biāo)全面領(lǐng)先。在 A800 GPU Benchmark 中，基于模型能力和推理工具，Kairos 3.0-4B 的推理速度較 Cosmos 2.5 提升 72 倍，刷新全球具身世界模型性能紀(jì)錄，充分驗(yàn)證了其硬核技術(shù)實(shí)力。

Kairos 3.0-4B 兼具通用世界模型能力與具身場景深度賦能優(yōu)勢(shì)。在通用場景下，該模型可生成高度還原的真實(shí)物理世界，以黃果樹瀑布為例，其能精準(zhǔn)呈現(xiàn)自然光影效果，支持流暢運(yùn)鏡且無畫面跳幀，云、水、葉片等元素均可實(shí)現(xiàn)動(dòng)態(tài)演化；同時(shí)，模型深度適配具身智能需求，憑借雙重能力打通數(shù)字仿真與物理執(zhí)行，以中國自研核心技術(shù)破解行業(yè)核心痛點(diǎn)，為具身智能規(guī)模化落地提供核心引擎，成為具備全球競爭力的具身世界模型標(biāo)桿。

以原生世界模型架構(gòu)，筑牢具身智能對(duì)物理世界的底層認(rèn)知

當(dāng)前，具身智能行業(yè)深陷數(shù)據(jù)稀缺且割裂的困境，傳統(tǒng)生成式模型僅側(cè)重視頻生成，缺乏對(duì)物理世界的深度認(rèn)知，因此面臨長時(shí)序交互不足、部署算力成本高昂、狀態(tài)預(yù)測(cè)物理一致性差等行業(yè)瓶頸。

作為業(yè)內(nèi)首個(gè)實(shí)現(xiàn) “多模態(tài)理解 — 生成 — 預(yù)測(cè)” 一體化的開源具身原生世界模型，Kairos 3.0-4B 與市面上 “大模型改款” 的生成式模型有著本質(zhì)區(qū)別。該模型并非在大語言或視覺模型后簡單附加運(yùn)動(dòng)接口，而是從架構(gòu)底層為機(jī)器人在真實(shí)世界的運(yùn)行進(jìn)行設(shè)計(jì)，以自然界基本物理規(guī)律與因果規(guī)律為認(rèn)知根基，構(gòu)建起跨本體的統(tǒng)一世界理解框架，徹底打破傳統(tǒng)具身智能 “行為模仿” 的技術(shù)局限，將模型能力升級(jí)至 “物理級(jí)深度理解” 的全新維度。

圍繞 “理解世界、生成世界、預(yù)測(cè)世界” 三大核心能力，Kairos 3.0-4B 將物理規(guī)律與因果思維鏈深度嵌入模型決策過程，讓模型做到 “知其然更知其所以然”。其核心突破在于深度融合機(jī)器人真機(jī)交互、人類行為結(jié)構(gòu)化與思維鏈文本三類關(guān)鍵數(shù)據(jù)，有效打破多元數(shù)據(jù)壁壘，大幅提升真實(shí)世界數(shù)據(jù)的復(fù)用效率，顯著優(yōu)化具身智能的尺度定律效率。

得益于原生架構(gòu)的優(yōu)勢(shì)，該模型不再依賴昂貴且稀缺的真機(jī)數(shù)據(jù)，而是通過內(nèi)化物理規(guī)律、推演因果邏輯，在更優(yōu)的模型與數(shù)據(jù)規(guī)模下，實(shí)現(xiàn)強(qiáng)泛化、長時(shí)序推理與可靠的端側(cè)部署。它能精準(zhǔn)解析物體受力、重心、摩擦等物理約束，完成復(fù)雜任務(wù)的推理、規(guī)劃與可行性分析，兼容多模態(tài)傳感器指令，高效理解機(jī)器人動(dòng)作與人類行為邏輯，實(shí)現(xiàn)從 “執(zhí)行指令” 到 “理解任務(wù)” 的本質(zhì)跨越。

在復(fù)雜交互場景的實(shí)測(cè)中，機(jī)器人可平穩(wěn)端起盛有水的托盤，運(yùn)動(dòng)過程中水面呈現(xiàn)自然真實(shí)的水波動(dòng)態(tài)；將托盤放置桌面后，模型憑借任務(wù)思維鏈自主規(guī)劃，精準(zhǔn)判斷牛奶蘋果的擺放位置，有序?qū)⑽锲芬?guī)整放置于托盤之上。

物理因果一致性全面領(lǐng)先全球主流模型

在倒水、疊平衡石等具有一定難度的物理交互場景中，Kairos 3.0-4B 憑借原生世界模型的物理因果一致性優(yōu)勢(shì)，通過內(nèi)化物理規(guī)律與因果思維鏈，實(shí)現(xiàn)了物理因果一致性全面領(lǐng)先主流具身世界模型，展現(xiàn)出對(duì)真實(shí)世界規(guī)則的深度理解與精準(zhǔn)復(fù)現(xiàn)。

在倒水場景中，Kairos 3.0-4B 控制機(jī)器人將水從水杯倒入水槽時(shí)，水流速度平穩(wěn)且液體總量嚴(yán)格匹配水杯容量，完全符合質(zhì)量守恒與流體動(dòng)力學(xué)規(guī)律；而 Cosmos 2.5 與 Lingbot 在該場景中則出現(xiàn)水流速度過快的問題，甚至出現(xiàn)液體總量遠(yuǎn)超水杯實(shí)際容量的異常情況，物理邏輯嚴(yán)重失真。

在疊平衡石場景中，Kairos 3.0-4B 精準(zhǔn)復(fù)現(xiàn)了石頭的剛性與力學(xué)平衡特性，每一塊石頭的堆疊都嚴(yán)格遵循重力與支撐結(jié)構(gòu)的物理規(guī)律；Cosmos 2.5 生成的石頭出現(xiàn)懸浮現(xiàn)象，Lingbot 的石頭則喪失剛性屬性，最底層的石頭甚至憑空消失，物理一致性徹底崩塌。

7分鐘長時(shí)連貫場景動(dòng)態(tài)交互

在具身智能領(lǐng)域，長時(shí)序視頻生成始終是制約技術(shù)落地的核心瓶頸。

憑借“多模態(tài)理解 — 生成 — 預(yù)測(cè)”一體化架構(gòu)，大曉機(jī)器人推出的 Kairos 3.0-4B，可結(jié)合Agent智能體技術(shù)，在長時(shí)序視頻生成能力上實(shí)現(xiàn)顛覆性突破。Kairos智能體可將用戶復(fù)雜交互指令進(jìn)行層級(jí)化解析與結(jié)構(gòu)化拆解，依托模型對(duì)序列間的時(shí)空演化、物理規(guī)則、場景動(dòng)態(tài)及交互邏輯精細(xì)化預(yù)測(cè)，補(bǔ)全連續(xù)世界信息，并通過自我反思機(jī)制實(shí)現(xiàn)閉環(huán)迭代優(yōu)化。最終生成長達(dá) 7 分鐘的具身動(dòng)態(tài)交互視頻，且全程保持場景連貫與物理真實(shí)，為具身智能的訓(xùn)練與落地開辟了全新路徑。

在家庭場景 Demo 中，機(jī)器人實(shí)現(xiàn)全流程一鏡到底的自主作業(yè)：先有序整理桌面上的杯子與紙巾盒，規(guī)劃合適位置擺放物品，隨后自主進(jìn)入洗衣機(jī)，撿拾衣服，打開洗衣機(jī)、完成衣物投放與清洗操作；接著穿過客廳進(jìn)入廚房，開啟冰箱取出牛奶，打開壁櫥取出麥片，并打開抽屜取出碗與勺子，將麥片和牛奶倒入碗中，自主完成早餐制備。整個(gè)過程無斷點(diǎn)，真實(shí)展現(xiàn)了模型的流暢動(dòng)態(tài)交互、物體屬性識(shí)別、符合物理規(guī)則的受力操控、柔性衣物物理表征能力，并依托完整任務(wù)思維鏈實(shí)現(xiàn)多場景自主規(guī)劃與連貫執(zhí)行，驗(yàn)證了模型在復(fù)雜家居環(huán)境下的物理認(rèn)知、長時(shí)序推理與動(dòng)態(tài)交互能力，后續(xù)將持續(xù)提升超精細(xì)操作能力。

這一能力讓具身智能能夠從容應(yīng)對(duì)多場景下的復(fù)雜動(dòng)態(tài)任務(wù)。無論是工業(yè)制造中的長流程裝配，還是家庭服務(wù)中的持續(xù)交互，Kairos 3.0-4B 都能生成連貫、真實(shí)的場景模擬，顯著提升模型的泛化能力與部署可靠性，推動(dòng)具身智能從實(shí)驗(yàn)室走向產(chǎn)業(yè)一線。

以輕量化實(shí)現(xiàn)高效能推理速度

Kairos 3.0-4B 模型憑借架構(gòu)創(chuàng)新與技術(shù)突破，在推理效率、算力消耗、部署適配三大維度均實(shí)現(xiàn)業(yè)界領(lǐng)先，同時(shí)徹底突破具身智能端側(cè)實(shí)時(shí)部署的核心瓶頸。

Kairos 3.0-4B 在行業(yè)內(nèi)率先實(shí)現(xiàn)云側(cè) 1:1 實(shí)時(shí)推理，推理速度較 Cosmos 2.5 提升 72 倍。同時(shí)，它也是行業(yè)首個(gè)在 THOR 平臺(tái)端側(cè)部署的具身世界模型，可在端側(cè)實(shí)現(xiàn)高效實(shí)時(shí)推理。依托端側(cè)部署，模型可直接輸出機(jī)器人從上肢到手指再到下肢的全方位控制指令，省去中間轉(zhuǎn)譯環(huán)節(jié)，讓機(jī)器人“想到即可做到”。

在 A800 GPU 性能 Benchmark 中，Kairos 3.0-4B 憑借自研的混合時(shí)間線性注意力算子，實(shí)現(xiàn)了算力效率與推理速度的數(shù)量級(jí)突破，性能全面碾壓主流具身世界模型。

推理速度上，Kairos 3.0-4B 完成10秒生成任務(wù)耗時(shí)僅 9.5 秒，比 Cosmos 2.5（687.2 秒）快約 72 倍，比 Wan 2.2（85 秒）快約 9 倍，比 Lingbot（1436 秒）快約 151 倍。

Kairos 3.0-4B 以 4B 輕量化參數(shù)實(shí)現(xiàn) 23.5GB 顯存占用，與 5B 的 Wan 2.2 相當(dāng)，遠(yuǎn)低于 14B 的 Cosmos（70.2GB）和 28B 的 Lingbot（46.1GB），在保持極致性能的同時(shí)，大幅降低部署門檻，完美適配具身智能端側(cè)實(shí)時(shí)推理需求，打破“大參數(shù) = 高性能”的行業(yè)固有認(rèn)知。

Kairos 3.0-4B 憑借極低的算力消耗與顯存占用，在單卡、多卡環(huán)境下均實(shí)現(xiàn)業(yè)界領(lǐng)先的實(shí)時(shí)推理速度，完美適配英偉達(dá)、沐曦、海光、壁仞等多款 GPU。其高效能特性可直接滿足具身智能系統(tǒng)低延遲、高可靠、端側(cè)實(shí)時(shí)部署的需求，無需依賴昂貴的真機(jī)數(shù)據(jù)，即可實(shí)現(xiàn)強(qiáng)泛化與可靠部署。

一腦多形，實(shí)現(xiàn)多本體泛化新高度

Kairos 3.0-4B 模型另一大核心優(yōu)勢(shì)是強(qiáng)大的多本體泛化能力，徹底破解了傳統(tǒng)具身模型“一本體一訓(xùn)練”的行業(yè)痛點(diǎn)，實(shí)現(xiàn)“同一大腦適配多本體、多任務(wù)”的高效落地。

Kairos 3.0-4B 支持跨本體任務(wù)一鍵生成，可無縫適配單臂、雙臂、靈巧手等不同形態(tài)的機(jī)器人本體，針對(duì)同一任務(wù)無需額外訓(xùn)練，即可快速生成適配各本體的執(zhí)行策略，實(shí)現(xiàn)世界知識(shí)的高效共享與遷移，適配性拉滿。在硬件兼容上，模型深度支持智元 - 精靈 G1、松靈 - PIPER、宇樹 G1 等主流機(jī)器人硬件，打破不同廠商、不同形態(tài)設(shè)備的本體壁壘。

權(quán)威Benchmark性能全面領(lǐng)跑

Kairos 3.0-4B 模型在全球權(quán)威具身智能與世界模型評(píng)測(cè)基準(zhǔn)中展現(xiàn)出壓倒性的綜合性能，在具身場景實(shí)現(xiàn)全面領(lǐng)跑，精準(zhǔn)驗(yàn)證了其“物理級(jí)深度理解 + 高效能架構(gòu)”的核心優(yōu)勢(shì)。

在具身場景中，Kairos 3.0-4B 在三項(xiàng)權(quán)威 Benchmark 中均實(shí)現(xiàn)性能領(lǐng)跑：

PAI-Bench-robot（物理 AI 具身綜合基準(zhǔn)）：由佐治亞理工學(xué)院與卡內(nèi)基梅隆大學(xué)聯(lián)合開發(fā)，是物理 AI 領(lǐng)域首個(gè)針對(duì)具身場景的綜合評(píng)測(cè)框架，覆蓋 2808 個(gè)真實(shí)世界案例，被全球頂尖團(tuán)隊(duì)廣泛采用。

Kairos 3.0-4B 以 80.03 分領(lǐng)跑，全面超越 Cosmos 2.5-2B（78.3 分）、阿里 Wan 2.2-5B（78.6 分）、Cosmos 2.5-14B（79.4 分）及螞蟻 Lingbot（79.96 分），驗(yàn)證了其在具身任務(wù)執(zhí)行、物理交互穩(wěn)定性上的行業(yè)第一地位。

WorldModelBench-robot TI2V（文本到具身視覺生成基準(zhǔn)）：在CVPR 2025 Workshop提出，是首個(gè)專門評(píng)估世界模型文本到具身視覺生成能力的基準(zhǔn)，通過 67K 人類標(biāo)注數(shù)據(jù)精準(zhǔn)檢測(cè)物理一致性與指令遵循能力。

Kairos 3.0-4B 以 9.08 分超越所有競品，顯著領(lǐng)先阿里 Wan 2.2-5B（8.52 分）、Cosmos 2.5-14B（8.94 分），以及 Cosmos 2.5-2B、螞蟻 Lingbot（均為 9.04 分），證明其在長時(shí)序物理場景理解與生成精度上的領(lǐng)先性。

DreamGen Bench (PA/IF)（機(jī)器人視頻生成基準(zhǔn)）：由 NVIDIA GEAR Lab 開發(fā)，通過物理對(duì)齊（PA）與交互保真（IF）兩項(xiàng)核心指標(biāo)，直接評(píng)估模型生成數(shù)據(jù)的物理合理性與交互質(zhì)量，是機(jī)器人領(lǐng)域的權(quán)威評(píng)測(cè)工具。

Kairos 3.0-4B 的 PA 得分為 0.529，大幅領(lǐng)先阿里 Wan 2.2-5B（0.314），提升近 70%；同時(shí)領(lǐng)先 Cosmos 2.5-2B（0.418）、Cosmos 2.5-14B（0.495）、螞蟻 Lingbot（0.466），分別提升 27%、7% 和 14%。IF 得分為 0.609，同樣全面超越競品，相較于 Cosmos 2.5-2B、阿里 Wan 2.2-5B、Cosmos 2.5-14B、螞蟻 Lingbot，分別提升 7%、12%、27% 和 7%，直接驗(yàn)證了其物理因果一致性的核心優(yōu)勢(shì)。

*（上述精度測(cè)試基于開源模型復(fù)現(xiàn)，其中robot為對(duì)應(yīng)具身子集的結(jié)果）

作為中國自研的原生具身世界模型，Kairos 3.0-4B 直擊行業(yè)數(shù)據(jù)、算力、物理推理與落地部署等核心瓶頸。該模型既可作為高效數(shù)據(jù)仿真器，低成本、規(guī)模化放大訓(xùn)練數(shù)據(jù)體量，有效破解真機(jī)交互數(shù)據(jù)稀缺的行業(yè)痛點(diǎn)；更能跳出純仿真應(yīng)用范疇，直接驅(qū)動(dòng)機(jī)器人本體完成各類實(shí)體任務(wù)，真正打通從虛擬仿真到物理執(zhí)行的全鏈路，讓機(jī)器人擁有聰明的“大腦”，加速具身智能智慧躍遷，為具身智能的規(guī)模化落地提供核心技術(shù)支撐，為全球具身智能行業(yè)發(fā)展貢獻(xiàn)了領(lǐng)先的中國方案。

該技術(shù)成果已上傳：

Code : https://github.com/kairos-agi/kairos-sensenova

Hugging Face: https://huggingface.co/kairos-agi/kairos-sensenova-common

關(guān)于大曉機(jī)器人（ACE ROBOTICS）——讓機(jī)器人擁有聰明的“大腦”和有趣的“靈魂”

大曉機(jī)器人（ACE ROBOTICS）是加速具身智能智慧躍遷的機(jī)器人公司，由商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事王曉剛出任董事長，世界級(jí)AI科學(xué)家陶大程院士擔(dān)任首席科學(xué)家，公司匯聚全球稀缺的青年AI科學(xué)家及來自產(chǎn)業(yè)界的卓越專家，共同深耕具身智能領(lǐng)域，旨在通過突破性技術(shù)創(chuàng)新，對(duì)具身智能場景的深刻洞察，推動(dòng)機(jī)器人自主理解和探索物理世界，加速具身智能的商業(yè)化場景落地。

大曉機(jī)器人首創(chuàng)ACE研發(fā)范式，構(gòu)建 “環(huán)境式數(shù)據(jù)采集—開悟世界模型3.0—具身交互”的全鏈路技術(shù)體系。大曉機(jī)器人以全時(shí)空多視角環(huán)境采集為引擎，國內(nèi)首個(gè)開源且已實(shí)現(xiàn)商業(yè)應(yīng)用的“開悟”世界模型3.0（Kairos 3.0）和具身基模型為技術(shù)基座，解決具身智能行業(yè)目前面臨的數(shù)據(jù)荒、常識(shí)差、泛化難、通用性不足等核心挑戰(zhàn)。大曉機(jī)器人同步重磅推出“具身超級(jí)大腦模組A1”，加速具身智能在安防、巡檢、服務(wù)等多元場景的規(guī)模化、商業(yè)化落地。

大曉機(jī)器人不僅是技術(shù)的開拓者，更是生態(tài)的共建者。大曉機(jī)器人通過與頂尖的芯片廠商、硬件廠商、云服務(wù)商及垂直場景伙伴的戰(zhàn)略合作，共同打通“模型—硬件—場景”的產(chǎn)業(yè)閉環(huán)，提供標(biāo)準(zhǔn)化與定制化結(jié)合的解決方案，共同成為具身智能領(lǐng)域極具潛力的中國創(chuàng)新力量。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.