網易首頁 > 網易號 > 正文申請入駐

中國具身大模型該怎么走？自變量找了條可復制的路

2026-01-09 14:42:33　來源: 具身研習社

北京舉報

分享至

作者：彭堃方

編輯：呂鑫燚

出品：具身研習社

近日，在全球首個大規模、多任務的，在真實物理環境中由真實機器人執行操作任務的基準測試RoboChallenge榜單新鮮出爐。總得分排行第一為Physcial Intelligence的開源模型pi0.5，第二為自變量的開源模型WALL-OSS，第三為PI的另一開源模型pi0。其中，WALL-OSS總分數為54.69，加上成功率35.33%。

這是一份非常有意思的榜單，首先自變量的表現說明具身智能大模型領域的“中美差距“正在像LLM(大語言模型)一樣，迅速填平差距。其次，所有評測模型皆為開源模型，從而讓所有模型在公眾的視野下接受評測，打開了具身智能神秘的黑盒。

可以說RoboChallenge為具身智能大模型找到了一條基準線，也為外界窺探具身智能大腦的真實能力進展打開了窗口。

以自變量為例，去年9月，自變量開源了其具身基礎模型WALL-OSS。對于生態來說，自變量選擇開源WALL-OSS，本質上是重塑了產業的協同邏輯，它將“重復造輪子”的內耗，轉化為“聚沙成塔”的合力。提供了一個高可靠性的通用底座，讓全球開發者可以在此基礎上貢獻長尾場景數據，共同喂養出一個真正理解物理法則的“超級大腦”。

對于產業來說，自變量此舉讓成百上千的中小機器人企業能夠基于WALL-OSS快速生長出垂直領域的應用，從而讓機器人用更聰明的大腦引爆整個產業的商業化臨界點。

值得注意的是，WALL-OSS開源是更為稀缺的“真開源”，和其他開源為“閹割代碼”不同，它開放一整套完整、可復現的具身大模型解決方案，包括預訓練模型權重、訓練代碼、數據集接口，甚至附上詳細部署文檔。讓開發者能更好微調或者復現能力。

可以說，在具身智能這片長坡厚雪的賽道上，開源不僅是在跑自己的馬拉松，更是在為整個行業鏟雪修路。因為只有當“大腦”不再成為稀缺品時，通用機器人的黃金時代才會真正到來。

RoboChallenge是由Dexmal原力靈機與Hugging Face共同發起的全球首個大規模、多任務的真機基準測試平臺。它旨在為VLA在視覺-語言-動作模型在機器人上的應用提供一個開放、公正、可復現的評估標準，以解決機器人行業長期缺乏統一評測基準的痛點，推動具身智能從實驗室研究走向現實世界應用。

其核心測試集Table30作為RoboChallenge平臺首發的桌面操作基準測試集，構建了一個涵蓋30項真實生活情境的“全科考場”。從擦桌子、折疊洗碗布等基礎家務，到插花、插網線等精細操作，再到打開水龍頭、制作三明治等復雜交互，細致全面的考察了模型的智能邊界。

雖然RoboChallenge一定程度上打破了具身模型的“自唱自說”，但其并不是完全的“一錘定音”。畢竟，具身模型與大語言模型的測評存在本質區別，具身模型采用提前公開任務的“類開卷”考試范式，核心評價指標為視頻化的實際動作執行效果，和大語言模型“裸考”有著本質區別。

在此背景下，具身模型測評的另一條信號在于，公開代碼的開源模型更具技術真實性與產業價值，不僅支持全流程復現，還能賦能行業生態。

以自變量的WALL-OSS表現為例，在put_opener_in_drawer（開瓶器入抽屜）、hang_toothbrush_cup（掛牙刷杯）、move_objects_into_box（移動目標物入箱）等高難度任務上，WALL-OSS單項得分位列前茅，甚至超過總分第一的pi0.5，展現了模型頂尖的執行效率和穩定性。

在“開瓶器入抽屜”的實戰中，模型需要從咖啡機、盆栽等干擾項中精準識別目標，然后依循執行邏輯，率先完成精確的“捏拉”動作打開抽屜，最后憑借對空間位置的深入理解，拿放開瓶器，實現閉環操作。

透過上述任務執行可見，WALL-OSS在復雜長指令任務中的穩定發揮，意味著其已經進化為一個具備出色邏輯推理與空間感知能力的“聰明大腦”。換句話說，WALL-OSS的出色表現，完全基于其對物理世界的本質理解與多模態指令的深度對齊，而非針對已知考題進行的特殊訓練。

此外，WALL-OSS作為一款完全開源的模型，代碼邏輯與模型參數均公開透明，其測評表現是真實且可復驗的。（開發者最快一周就能在自有機器人上完成適配）

可見，WALL-OSS的表現，不僅僅是一個具身大模型的成績，而是其開源后能實打實賦能開發者的真實底氣。

正如開文所述，RoboChallenge榜單前七名均為開源模型，其參賽主體分別為Pi0.5Pi0WALL-OSSpi05_generalistCogACTpi0_generalistopenvla-oft。（主要模型為Pi0.5Pi0WALL-OSSCogACTopenvla）。

其中，Pi0、pi0.5背后的公司Physical Intelligence主要團隊成員來自伯克利、斯坦福等高校和谷歌專家等。由?前Google DeepMind機器人科學家，斯坦福大學兼職教授Karol Hausman?擔任CEO。聯合創始人Sergey Levine?為加州大學伯克利分校（UC Berkeley）副教授，深度強化學習領域的奠基人之一，致力于通用機器人模型開發。

WALL-OSS背后的自變量機器人，創始人王潛為南加州大學博士學位，曾于美國頂級機器人實驗室從事機器人學習與人機交互研究，是全球最早在神經網絡中提出Attention機制的研究者之一，其成果與谷歌同期發表于國際會議。CTO王昊為北京大學計算物理博士，曾任職于粵港澳大灣區數字經濟研究院（IDEA研究院），主導開發國內首個多模態開源大模型“太乙”、百億級大語言模型“燃燈”及千億級模型“姜子牙”，累計下載量超百萬次。

?CogACT的研究團隊來自清華大學、微軟亞研院等機構；OpenVLA模型由斯坦福大學、加州大學伯克利分校、谷歌DeepMind等機構的研究團隊聯合開發。

開源模型齊聚榜單為具身大模型的未來發展釋放了一個清晰的信號，開源模型更具有含金量，也更能賦能行業成長。這一點從不同主體基于同一個開源模型調整參賽就能看出。

時至今日，沒有人會再爭議“開源”和“閉源”孰優孰劣，但一定會有人好奇：開源能帶來什么？

回答這個問題，可以從AI大模型找到答案。

開源不是因為“卷不過”，而是為了“贏下未來”。DeepSeek、Qwen的成功不在于它是否永遠霸榜，而在于它把大模型的價格打了下來，把技術門檻拆了下來，讓萬千開發者能用上“握在自己手里”的模型。如果你還記得，你會想起年初各大國企接入DeepSeek，到了年末，甚至連美國企業反倒用起了中國的AI模型。

自變量開源WALL-OSS的意義如出一轍：國內無數本體機器人公司和中小具身廠商，原本都在各自為戰、重復造輪子。

此前在《硅谷101》博客中，談及開源的初心時，自變量曾表示主要出于兩點考慮。其一，是技術成熟度，其二是行業需要的程度。從技術成熟度來講，類似于VLA的結構，經過了很長時間的論證，大家在訓練方法上有很多探索，相當于有一定的應用上的共識以及經驗。所以從技術成熟來講，此時具有這樣結構的模型對產業來講是個很需要的事情。

從需要程度來看，國內產業里（開源時間為2025年9月）沒有在一個框架下的國產自研統一模型，但行業迫切需要的強大的開放基座模型，來助推行業成長。

自變量把“大腦”開源，相當于為全行業提供了一個高性能的通用底座。只有底座開源，國內的具身智能應用才會像當初的AI應用一樣“百花齊放”，加速中國具身智能“聚沙成塔”的過程。

畢竟，真正的核心競爭力，不在于實驗室中的參數高低，而在于真實世界中的作業能力；真正的產業價值，不在于技術的孤芳自賞，而在于通過開源與協同，推動整個行業的升級與進步。

對于產業來說，具身智能是一場馬拉松，是“長坡厚雪”、“眾人拾柴”的賽道。自變量機器人的開源，本質上是一種利他主義的競爭策略。而且放眼整個具身智能的競爭，最終不是比誰的實驗室模型更漂亮，而是比誰能最快讓千萬臺機器人走入現實。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.