![]()
責編 | 夢依丹
出品丨AI 科技大本營(ID:rgznai100)
具身智能領域,世界模型正成為繼大模型之后的新一輪技術競爭焦點。
近日,大曉機器人宣布,其開悟世界模型 Kairos 在 RoboTwin 2.0、LIBERO-Plus、WorldModelBench Robot、DreamGen Bench 四項國際權威評測中均取得第一名成績,超過 Cosmos3、Pi、MotuBrain、Being-H0.7、Abot、Fast-WAM、Wan2.2 等當前主流世界模型。
![]()
從雙臂操作、場景泛化,到物理建模與視頻預測能力,這也是目前少見同時在多個核心維度實現領先的具身世界模型。
![]()
從“視頻生成”走向“理解—生成—預測”統一架構
過去一年,世界模型快速發展,但行業主流路線大多仍建立在視頻生成模型基礎之上。
這種路徑雖然能夠生成逼真的未來畫面,卻普遍存在物理規律建模不足、因果關系理解有限以及推理鏈路較長等問題。
針對這一行業現狀,大曉機器人于 2025 年底推出 Kairos 世界模型,并提出原生統一世界模型架構,將多模態理解、視頻生成與狀態預測整合到同一模型體系中。
據了解,Kairos 并未采用當前較為普遍的后訓練改造路線,而是從底層網絡架構和預訓練范式重新設計世界模型。其核心包括自研混合線性注意力機制以及全局狀態共享機制,使理解、生成和預測能力能夠在統一框架下協同運行。
這一技術路線與當前國際主流世界模型的發展方向高度一致。英偉達近期發布的 Cosmos 3.0 也采用了類似的統一架構設計,進一步驗證了該方向在行業中的重要價值。
![]()
十余萬小時真實數據構建世界認知能力
除了模型架構之外,數據規模同樣是決定世界模型能力的重要因素。
在訓練階段,Kairos 使用了超過十萬小時 human-centric 真實場景數據,以及數百萬小時互聯網真實世界視頻,覆蓋數百種職業和生活場景。
在此基礎上,團隊結合顯式模仿學習與隱空間強化學習,使模型能夠同時學習環境變化規律、動作演化邏輯以及任務執行過程中的因果關系。
大曉機器人認為,這種訓練方式不僅提升了模型的場景理解能力,也增強了其在未知環境中的泛化能力,為具身智能領域關于世界模型 Scaling Law 的探索提供了新的實踐樣本。
![]()
Kairos-4B:讓機器人直接使用世界模型
在世界模型的發展過程中,一個長期存在的問題是模型預測結果與機器人執行系統之間往往存在多層轉換環節。
Kairos-4B嘗試解決這一問題。
據介紹,這是首個能夠在端側直接驅動機器人本體運行的具身世界模型。模型可以同時完成世界理解和狀態預測,并直接輸出機器人所需的決策結果,從而減少中間轉換帶來的延遲。
對于機器人而言,這意味著更快的響應速度和更高的執行精度,也讓世界模型真正開始從“認知系統”向“執行系統”延伸。
RoboTwin 2.0 登頂:雙臂操作能力獲得驗證
RoboTwin 2.0 被認為是當前最具挑戰性的雙臂機器人操作評測之一。
![]()
該基準由上海交通大學、香港大學以及上海人工智能實驗室等機構聯合推出,共包含 50 項復雜雙臂協同任務,重點考察機器人在復雜環境下的操作能力和規劃能力。
測試結果顯示,Kairos 取得 96.1% 平均成功率,排名所有參評模型第一。
其中:
Clean 場景:96.9%
Randomized 場景:95.2%
這一成績不僅超過 G0.5(93.2%)、starVLA(88.3%)等 VLA 模型,也超過 AIM(93.1%)、Fast-WAM(91.8%)、MotuBrain(96.0%)等世界模型方案。
評測結果表明,Kairos 在復雜雙臂協同操作、精細動作控制以及多任務泛化方面具備較強能力。
![]()
LIBERO-Plus:世界模型首次超越主流 VLA 路線
如果說 RoboTwin 關注操作能力,那么 LIBERO-Plus 更關注機器人能否適應真實世界。
該基準由上海創智學院、復旦大學、同濟大學和新加坡國立大學團隊聯合提出,通過光照、背景、噪聲、語言指令、相機視角等七類變量模擬真實環境變化,被視為機器人泛化能力的重要測試平臺。
在該評測中,Kairos 以 89.0 分排名第一。
![]()
其成績超過:
ACoT-VLA(88.0)
Pi 0.5(85.7)
ProGAL-VLA(85.5)
Being-H0.7(84.8)
尤其是在環境魯棒性方面表現突出:
光照:97.7
背景:95.8
噪聲:96.8
相機視角:95.5
這一結果顯示,世界模型路線在場景級泛化能力上已經開始展現超越傳統 VLA 路線的潛力。
對于產業落地而言,這意味著機器人部署到家庭、工廠、商場等不同環境時,對重新訓練和環境適配的依賴進一步降低。
![]()
WorldModelBench Robot:4B 參數挑戰更大模型
在由加州大學伯克利分校、加州大學圣迭戈分校、英偉達和麻省理工學院聯合推出的 WorldModelBench Robot 中,Kairos-4B 取得 9.30 分總成績。
![]()
值得關注的是,其參數規模僅為 4B。
相比之下:
Lingbot:28B
Cosmos3:16B
Abot-PhysWorld:14B
Wan2.2:5B
評測結果顯示:
指令遵循:2.36(與 Cosmos3 并列第一)
物理遵循:4.96
牛頓力學:1.00
重力規律:1.00
時序質量:1.00
在更小參數規模下達到同等甚至更優表現,也體現出 Kairos 在參數效率方面的優勢。
![]()
DreamGen 雙項第一:驗證世界模型泛化價值
DreamGen Bench 是當前專門面向機器人世界模型泛化能力設計的重要評測。
該基準由英偉達聯合華盛頓大學、加州大學伯克利分校、加州大學洛杉磯分校等機構共同提出,其評分結果與機器人策略訓練效果具有較高相關性。
![]()
評測數據顯示:
AVG_PA(平均物理遵循):0.538,全球第一
AVG_Score(總平均分):0.618,全球第一
在核心泛化場景中:
新行為執行 PA:0.489,第一
新環境適配 PA:0.581,第一
新行為執行 IF:0.745,第一
相比 Cosmos3、Lingbot、Abot-PhysWorld 等模型,Kairos 在多個維度取得領先。
從結果來看,Kairos 不僅能夠生成符合物理規律的數據,也具備較強的跨場景遷移能力,為機器人訓練數據生成提供了新的技術路徑。
從 RoboTwin 的操作能力,到 LIBERO-Plus 的場景泛化,再到 WorldModelBench 的物理建模和 DreamGen 的數據生成能力,Kairos 在四項國際評測中的表現,展示了當前世界模型技術路線的發展趨勢。
對于具身智能而言,行業關注點正在從單純的動作生成,逐漸轉向對世界規律的理解、預測與推理。
而世界模型,也正從實驗室研究走向機器人實際部署的核心基礎設施。
隨著 Kairos 等新一代世界模型的出現,具身智能距離大規模商業化落地或許又近了一步。
![]()
CSDN 6 月寵粉福利
200 小時 GP U 算力免費領
瑞幸咖啡/肯德基早餐/下午茶等能量套餐任選其一
入群還可每月定期抽取旗艦顯卡、AI PC 等極客神裝
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.