網易首頁 > 網易號 > 正文申請入駐

具身大一統不是口號:北京人形再度登頂WorldArena，拿下雙冠王

2026-05-18 11:10:53　來源: 機器之心Pro

河北舉報

分享至

機器之心編輯部

最近，全球的網民都化身「監工」，圍觀了 Figure AI 的人形機器人直播在物流傳送帶上連續幾十個小時，不間斷地分揀包裹。

機器人能夠在真實的生產環境中連續工作，完全依靠自身的視覺系統自主完成了識別、抓取，和分揀的全套動作，標志著具身智能的一個里程碑。

這次技術躍進的背后，是當前具身智能的核心：智能體（Agent）。如今，機器人已正式邁向了「基于模型的端到端推理」。

機器人不再只是按照預設程序完成單一動作，而是要依靠自身視覺系統識別環境、理解目標、規劃動作，并在持續變化的物理世界中完成任務。

誰能讓機器人更好地看懂世界、推理任務、想象后果、執行動作，誰就更接近通用具身智能的核心。

也正是在這個關鍵節點，國內具身智能領域傳來一個重要進展。

北京人形機器人創新中心（以下簡稱「北京人形」）在 WorldArena 全球權威評測中取得連續突破。

具身大一統模型 Pelican-Unify 1.0 登頂 WorldArena 權威榜單，EWM Score（綜合得分）穩居榜首，3D Accuracy 接近滿分。

WorldArena 最新排行榜

此前，北京人形發布的 WoW 具身世界模型就已經登頂 WorldArena Data Engine（數據引擎）賽道，并獲得 Hugging Face 官方重點推薦，隨后被斯坦福、Physical Intelligence（PI）等頂尖團隊引用，顯示出其在具身世界模型與數據引擎方向上的技術影響力。

這意味著，北京人形成為全球唯一同時登頂 WorldArena 兩大核心賽道的機構，也由此拿下具身智能領域首個「雙冠王」，躋身具身大腦能力世界第一梯隊。

從榜單成績來看，Pelican-Unify 1.0 以得分位居榜首，在 WorldArena 覆蓋視覺質量、運動質量、內容一致性、物理遵循、3D 準確性、可控性等多維度的嚴苛評估中，Pelican-Unify 1.0 拿下綜合第一，展現出較強的均衡能力。其中在 3D Accuracy (3D 準確率) 上更是達到了驚人的，接近滿分。

這說明該模型已經具備接近真實世界的空間建模能力。因為 3D Accuracy 評估的并不是簡單的畫面質量，而是模型對空間幾何關系的理解能力。Pelican-Unify 1.0 在這一指標上接近滿分，說明它不只是看起來生成得像，而是能夠較準確地理解和重建場景中的空間關系，這對于機器人而言非常關鍵。

讓智能體走向物理世界

2025 年以來，智能體成了整個 AI 行業最熱的詞。OpenAI、谷歌、Anthropic 接連押注，國內大模型廠商幾乎無一缺席。智能體的核心邏輯并不復雜：讓模型不只是回答問題，而是「完成任務」—— 感知環境、制定計劃、調用工具、持續執行。

這個邏輯放在數字世界尚且勉強成立，但一旦進入物理世界，問題就變得根本得多。

一個機器人要完成「把桌上的藍色零件放進右側料箱」，它需要看懂當前場景、理解指令意圖、預判抓取后的結果、再生成精確到毫米級的動作序列。

傳統具身智能系統的邏輯更像是「堆積木」：視覺模型負責看，語言模型負責說，世界模型負責預測，動作策略負責執行。模型之間各司其職，流水線調用。

這套方案夠用，但有一個深層缺陷：模塊之間的語義鴻溝，始終是阻礙機器人真正「理解」任務的天花板。

2025 年 3 月，北京人形發布通用具身智能平臺「慧思開物」，提出了一條不同的路徑：讓理解、推理、想象與行動在同一個模型內部協同演化，而不是在外部拼湊。

經過超過一年的持續迭代與實踐積累，這一思路在 2026 年 5 月迎來了最具說服力的技術驗證：昨天，北京人形發布「慧思開物」平臺的首個「大一統」具身基礎模型：Pelican-Unify 1.0

技術報告：Pelican-Unify 1.0: A Unified Embodied Intelligence Model (UEI) for Understanding, Reasoning, Imagination and Action
報告地址：https://arxiv.org/pdf/2605.15153

Pelican-Unify 1.0 一問世就給出了非常亮眼的成績：在三個國際榜單上均實現了近 SOTA 的性能，不僅在 World Arena 上登頂，在 8 個 VLM Benchmark 的榜單在同級別（4B 以內）模型性能第一，也在 VLA 榜單 RoboTwin 評測中穩居前列。成為全球首個在理解、推理、想象、行動等維度同時達到全球頂尖水平的統一具身智能模型

「大一統」的具體含義：

三大統一

在 Pelican-Unify 1.0 技術報告的開篇，北京人形團隊引用了三句名言：亞里士多德的「靈魂從不離開意象而思考」；詹姆斯?威廉的「我的思考，始終服務于我的行動」；以及《禮記?中庸》中的「博學之，審問之，慎思之，明辨之，篤行之。」

它們其實反映了 Pelican-Unify 1.0 背后的一個核心判斷：要讓具身智能變強，需要一個能夠讓理解、推理、想象、行動互相約束、共同演化的統一回路。

也就是說，Pelican-Unify 1.0 的統一不是「把幾個模塊輸出拼在一起」，而是結構上共享表征、相互約束條件、以同一個訓練過程共同演化。

架構上，Pelican-Unify 1.0 實現了三類統一：理解、推理和生成。這能讓理解、推理、想象、行動同生共長，同時學習「如何理解任務」、「未來會發生什么」以及「應該執行什么動作」。

而在具體的工程實現上，整個模型由兩個緊耦合的組件構成：一個視覺-語言模型（VLM），承擔統一理解與統一推理；一個統一未來生成器（Unified Future Generator，UFG），承擔統一生成。

Pelican-Unify 1.0 與 VLA 模型和世界模型的架構對比

統一建模：共享表征，三路協同

傳統流水線中，每個模塊都有自己的內部狀態：視覺模塊有特征向量，語言模塊有 token 序列，動作模塊有策略分布，世界模型有潛在狀態。它們各自優化，彼此之間只傳遞壓縮后的輸出信號 —— 這正是語義鴻溝產生的根源。

Pelican-Unify 1.0 的做法是：用一個共享的稠密潛變量 z 取代所有這些分散的內部狀態，讓語言推理、視頻想象、動作預測的訓練梯度全部作用于同一塊表征。如此一來，推理、想象、行動就不再是通過接口通信的三個系統，而是能在共同的表征中相互約束、協同演化。

統一編碼器：把歷史、指令、場景壓入同一語義空間

統一編碼器由基于 Qwen3-VL 4B 初始化的視覺 - 語言模型承擔。

它接收的輸入是一個多模態上下文 c_t，其中包含三類信息：過去時刻的觀測序列 o（連續幀圖像）、歷史動作序列 a 、以及當前語言指令 l。

這三類信息被統一編碼進共享語義空間，而非由三個平行分支分別處理。

在此基礎上，VLM 自回歸地生成一條思維鏈推理跡 τ_t。這條推理跡并非事后解釋，而是模型對任務意圖、物理約束、未來后果與動作選擇的中間表征，它能讓語言推理成為具身生成過程中可訓練、可監督的一個組件，而不是漂浮在決策之外的語言注釋。

推理跡生成完畢后，VLM 取最后一層隱狀態 h_{τ_t}，通過一個投影層 P_? 壓縮為稠密潛變量 z：

這一步是整個架構的關鍵耦合點。z 不只針對語言建模優化，它還被下游的視頻和動作生成損失持續施壓，被迫同時編碼「物理世界將如何演化」和「應當執行什么動作」所需的信息。

統一未來生成器：視頻想象與動作序列在同一個擴散過程中聯合讀出

統一未來生成器由基于 Wan2.2-5B 初始化的擴散 Transformer（DiT）承擔，以 z 為條件，在同一個去噪過程中聯合生成未來視頻幀和低層動作序列。

具體而言，未來視頻先經過視頻自編碼器壓縮為潛變量 x^v，動作軌跡歸一化為連續表示 x^a。在擴散的每一步，視頻 token 和動作 token 被各自的輸入嵌入層轉換后，一起送入同一個 DiT 主干網絡處理：

其中 s 是擴散時間步，z 通過交叉注意力注入。自注意力負責建模生成序列內部的時序與空間依賴，交叉注意力負責注入語言 grounding 的任務語義，擴散時間步則通過自適應歸一化調控整體計算。

DiT 主干是兩類 token 共享的，只有輸入嵌入和輸出頭（d_v 讀出視頻、d_a 讀出動作）是模態專屬的。這意味著：視頻 token 和動作 token 在去噪過程的每一步都在同一空間中相互感知、相互約束。

訓練目標由三路損失組成：語言推理損失 _text（自回歸負對數似然）、視頻流匹配損失 _video（連續時間 flow matching）、以及動作預測損失 _action（SmoothL1 魯棒回歸）：

三路損失共同作用于同一表征 z：

語言損失讓 z 與任務級語義對齊
視頻損失迫使 z 對物理世界的動態演化有預測性
動作損失將 z 錨定在可執行的控制空間里

z 必須同時滿足三重壓力，才能在訓練中存活。這正是統一范式的優化層面含義：推理、想象、行動的一致性是通過梯度博弈自然涌現的。

實驗結果

第三方評測平臺驗證單項能力

技術架構上的優雅，最終要接受評測的檢驗。Pelican-Unify 1.0 給出了亮眼的解答：統一不意味著全面平庸，而是可以在專項能力上與專用模型同臺競爭。

在統一的理解和推理能力上達到了同級別模型第一。在 VLM 評測中，Pelican-Unify 1.0 在 8 個 General / Embodied Benchmarks 上取得64.7平均分，均達到 SOTA 水平，并在更具具身屬性的 Where2Place 和 PhyX 上相比基座模型分別提升28.220.6分，證明統一訓練并沒有削弱通用多模態能力，反而增強了空間理解、物理理解和行動相關語義。

Pelican-Unify 1.0 與其它方法在一些通用和具身基準上的成績比較

在統一的動作生成能力方面，整體性能和最佳模型性能相當。Pelican-Unify 1.0 在 RoboTwin 50-task dual-arm benchmark 上取得93.5%平均成功率，其中 50 個任務中有 31 個任務成功率達到至少 95%，15 個任務達到 100%，覆蓋插拔、堆疊、交接等不同類型任務，跟當前 SOTA 模型性能基本持平，證明具身大一統模型具備強動作執行能力。

Pelican-Unify 1.0 與主要 VLA 和世界模型在 RoboTwin 雙臂操作 50 任務基準上的成績

這些成績單放在一起，傳達了一個清晰的信息：Pelican-Unify 1.0 確實能通過結構性共享表征讓理解、推理、行動互相增強。這在具身智能研究中，尚屬首次如此全面的驗證。

北京人形與「慧思開物」

理解 Pelican-Unify 1.0 的完整意義，需要將其放回「慧思開物」平臺的整體布局，以及北京人形的機構定位中來看。

2025 年 3 月，慧思開物正式發布，定位為全球首個「一腦多能、一腦多機」的通用具身智能平臺。其由 AI 大模型驅動的任務規劃「大腦」與數據驅動的端到端技能執行「小腦」構成，能實現單一軟件系統在機械臂、輪式機器人、人形機器人等多構型本體上的兼容部署。

Pelican-Unify 1.0 作為平臺統一具身基礎模型的首發版本，為慧思開物提供了真正意義上的「認知內核」，讓「一腦多機」不再只是一個調度層把多個專家模型串起來，而是同一個理解-推理-想象-行動回路在不同本體上的自然泛化

這一能力在真實硬件上得到了驗證。模型在 UR5e 工業機械臂和天工人形機器人上的工業控制面板操作任務中，在零樣本泛化和組合任務兩類評測上，均全面超越模塊化基線方法。尤其在組合泛化測試中，模型僅憑各原子任務的訓練數據，無需任何組合示范，便能在自然語言指令下完成兩段任務的連續執行。

組合泛化評估。在訓練過程中，模型僅針對單個原子操作任務進行優化，未接觸其組合版本。測試時，會評估模型在未見過的組合任務上的表現，這些任務需要結合多種已習得的技能，從而展示了模型在長周期具身操作中強大的組合泛化能力。

這正是「先想象，再行動」的閉環在物理世界中最直接的體現：想象面在訓練中已將每個原子動詞映射為未來幀分布，因此能夠在 A 階段結束后渲染出新初始態，并以此重新條件化 B 階段的動作。整個過程沒有人工設計的狀態機，沒有模塊間的顯式通信。

Pelican-Unify 1.0 可將動作作為條件輸入，從而實現動作條件視頻預測。左圖：動作條件視頻預測模型概覽。右圖：本方法生成的視頻與真實值的對比。基于歷史觀測，該動作條件視頻預測模型實現了輸入動作指令與生成視頻幀之間的細粒度對齊。

如今，經過一年多的場景打磨，慧思開物已從發布時的技術演示走向可量產的工業落地：

2025 年 9 月，搭載慧思開物的「具身天工 2.0」進入福田康明斯發動機工廠，在無人生產線上完成料箱取放與搬運任務；
同年 10 月，「慧思開物」SDK 正式開放，面向高校與產業伙伴構建開源生態；
在世界人工智能大會（WAIC）上，「慧思開物」協調四個異構機器人完成多本體、多任務異步協作，展示了分布式具身智能體系統的協同能力。

北京人形的身份，在國內具身智能版圖中具有獨特性。2023 年成立，由京城機電、優必選、亦莊機器人、首程資本等共同發起；2024 年 10 月，獲授「國家地方共建具身智能機器人創新中心」稱號，正式確立國家級創新平臺定位；2026 年 2 月，完成首輪超 7 億元市場化融資，投資方涵蓋北京市人工智能產業投資基金、百度、東土科技等機構與產業方。

軟硬件層面，北京人形已于今年 2 月發布了新一代通用機器人平臺具身天工 3.0，這也是行業內首個實現觸物交互式全身高動態運動控制的全尺寸人形機器人；而此番 Pelican-Unify 1.0 同時登頂 WorldArena 兩大核心賽道，拿下具身智能領域首個「雙冠王」—— 運動能力與認知智能的雙線突破，印證了北京人形軟硬件協同迭代的系統性能力積累。

作為國家隊，北京人形對「大一統」范式的堅持是一條需要更高研發門檻、更長周期驗證的路線。Pelican-Unify 1.0 登頂 WorldArena 的成績，是這條路線第一次在全球權威評測體系上得到系統性驗證。

而開源 RoboMIND 數據集、開放慧思開物 SDK、聯合高校建立聯合實驗室，則說明北京人形想做的不只是一家在榜單上領先的機構，而是一個讓中國具身智能整體研發效率因共同底座而加速的基礎設施提供者。

統一，不是終點

是全新的起點

2026 年，具身智能行業正處于真正的技術分層時刻。

量產端，頭部企業已跨過千臺乃至萬臺交付門檻，產業開始觸碰制造體系的真實極限；資本端，國家大基金三期首次出手具身賽道，單輪融資紀錄持續刷新；競爭端，百余家相關企業并立，行業的核心問題已經從「能不能做出來」變成「做出來的東西，能不能在從未見過的場景里真正好用」。

這正是 Pelican-Unify 1.0 所回應的問題。

在自然語言處理領域，大規模預訓練范式的核心洞見是：讓理解、生成、推理在同一個表征空間中共同演化，能力的邊界會因相互增強而持續外擴。這一洞見在文本世界已被充分驗證，并重塑了整個 AI 行業的格局。

現在，同樣的邏輯開始在物理世界尋找它的對應物。

不同之處在于，物理世界的「生成」不是輸出文字，而是移動物體；物理世界的「推理」不能只停留在語言層面，必須被動作后果所檢驗；物理世界的「理解」，必須真正 grounding—— 遵循三維空間中物體之間的物理約束關系。

這使得具身智能的統一，比語言模型的統一難得多，也重要得多。

Pelican-Unify 1.0 給出的，是這個方向上的一個早期但有說服力的答案。當推理能夠塑造想象、想象能夠約束行動、行動的結果能夠反過來校正推理，整個回路就不再是能力的疊加，而是能力的乘積。

從「功能拼湊」到「閉環智能」，這一步的距離正被跨越。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.