網易首頁 > 網易號 > 正文 申請入駐

中國具身大模型該怎么走?自變量找了條可復制的路

0
分享至



作者:彭堃方

編輯:呂鑫燚

出品:具身研習社

近日,在全球首個大規模、多任務的,在真實物理環境中由真實機器人執行操作任務的基準測試RoboChallenge榜單新鮮出爐。總得分排行第一為Physcial Intelligence的開源模型pi0.5,第二為自變量的開源模型WALL-OSS,第三為PI的另一開源模型pi0。其中,WALL-OSS總分數為54.69,加上成功率35.33%。



這是一份非常有意思的榜單,首先自變量的表現說明具身智能大模型領域的“中美差距“正在像LLM(大語言模型)一樣,迅速填平差距。其次,所有評測模型皆為開源模型,從而讓所有模型在公眾的視野下接受評測,打開了具身智能神秘的黑盒。

可以說RoboChallenge為具身智能大模型找到了一條基準線,也為外界窺探具身智能大腦的真實能力進展打開了窗口。

以自變量為例,去年9月,自變量開源了其具身基礎模型WALL-OSS。對于生態來說,自變量選擇開源WALL-OSS,本質上是重塑了產業的協同邏輯,它將“重復造輪子”的內耗,轉化為“聚沙成塔”的合力。提供了一個高可靠性的通用底座,讓全球開發者可以在此基礎上貢獻長尾場景數據,共同喂養出一個真正理解物理法則的“超級大腦”。

對于產業來說,自變量此舉讓成百上千的中小機器人企業能夠基于WALL-OSS快速生長出垂直領域的應用,從而讓機器人用更聰明的大腦引爆整個產業的商業化臨界點。

值得注意的是,WALL-OSS開源是更為稀缺的“真開源”,和其他開源為“閹割代碼”不同,它開放一整套完整、可復現的具身大模型解決方案,包括預訓練模型權重、訓練代碼、數據集接口,甚至附上詳細部署文檔。讓開發者能更好微調或者復現能力。

可以說,在具身智能這片長坡厚雪的賽道上,開源不僅是在跑自己的馬拉松,更是在為整個行業鏟雪修路。因為只有當“大腦”不再成為稀缺品時,通用機器人的黃金時代才會真正到來。



RoboChallenge是由Dexmal原力靈機與Hugging Face共同發起的全球首個大規模、多任務的真機基準測試平臺。它旨在為VLA在視覺-語言-動作模型在機器人上的應用提供一個開放、公正、可復現的評估標準,以解決機器人行業長期缺乏統一評測基準的痛點,推動具身智能從實驗室研究走向現實世界應用。

其核心測試集Table30作為RoboChallenge平臺首發的桌面操作基準測試集,構建了一個涵蓋30項真實生活情境的“全科考場”。從擦桌子、折疊洗碗布等基礎家務,到插花、插網線等精細操作,再到打開水龍頭、制作三明治等復雜交互,細致全面的考察了模型的智能邊界。

雖然RoboChallenge一定程度上打破了具身模型的“自唱自說”,但其并不是完全的“一錘定音”。畢竟,具身模型與大語言模型的測評存在本質區別,具身模型采用提前公開任務的“類開卷”考試范式,核心評價指標為視頻化的實際動作執行效果,和大語言模型“裸考”有著本質區別。

在此背景下,具身模型測評的另一條信號在于,公開代碼的開源模型更具技術真實性與產業價值,不僅支持全流程復現,還能賦能行業生態。

以自變量的WALL-OSS表現為例,在put_opener_in_drawer(開瓶器入抽屜)、hang_toothbrush_cup(掛牙刷杯)、move_objects_into_box(移動目標物入箱)等高難度任務上,WALL-OSS單項得分位列前茅,甚至超過總分第一的pi0.5,展現了模型頂尖的執行效率和穩定性。



在“開瓶器入抽屜”的實戰中,模型需要從咖啡機、盆栽等干擾項中精準識別目標,然后依循執行邏輯,率先完成精確的“捏拉”動作打開抽屜,最后憑借對空間位置的深入理解,拿放開瓶器,實現閉環操作。

透過上述任務執行可見,WALL-OSS在復雜長指令任務中的穩定發揮,意味著其已經進化為一個具備出色邏輯推理與空間感知能力的“聰明大腦”。換句話說,WALL-OSS的出色表現,完全基于其對物理世界的本質理解與多模態指令的深度對齊,而非針對已知考題進行的特殊訓練。

此外,WALL-OSS作為一款完全開源的模型,代碼邏輯與模型參數均公開透明,其測評表現是真實且可復驗的。(開發者最快一周就能在自有機器人上完成適配)

可見,WALL-OSS的表現,不僅僅是一個具身大模型的成績,而是其開源后能實打實賦能開發者的真實底氣。



正如開文所述,RoboChallenge榜單前七名均為開源模型,其參賽主體分別為Pi0.5Pi0WALL-OSSpi05_generalistCogACTpi0_generalistopenvla-oft。(主要模型為Pi0.5Pi0WALL-OSSCogACTopenvla)。

其中,Pi0、pi0.5背后的公司Physical Intelligence主要團隊成員來自伯克利、斯坦福等高校和谷歌專家等。由?前Google DeepMind機器人科學家,斯坦福大學兼職教授Karol Hausman?擔任CEO。聯合創始人Sergey Levine?為加州大學伯克利分校(UC Berkeley)副教授,深度強化學習領域的奠基人之一,致力于通用機器人模型開發。

WALL-OSS背后的自變量機器人,創始人王潛為南加州大學博士學位,曾于美國頂級機器人實驗室從事機器人學習與人機交互研究,是全球最早在神經網絡中提出Attention機制的研究者之一,其成果與谷歌同期發表于國際會議。CTO王昊為北京大學計算物理博士,曾任職于粵港澳大灣區數字經濟研究院(IDEA研究院),主導開發國內首個多模態開源大模型“太乙”、百億級大語言模型“燃燈”及千億級模型“姜子牙”,累計下載量超百萬次。

?CogACT的研究團隊來自清華大學、微軟亞研院等機構;OpenVLA模型由斯坦福大學、加州大學伯克利分校、谷歌DeepMind等機構的研究團隊聯合開發。

開源模型齊聚榜單為具身大模型的未來發展釋放了一個清晰的信號,開源模型更具有含金量,也更能賦能行業成長。這一點從不同主體基于同一個開源模型調整參賽就能看出。

時至今日,沒有人會再爭議“開源”和“閉源”孰優孰劣,但一定會有人好奇:開源能帶來什么?

回答這個問題,可以從AI大模型找到答案。

開源不是因為“卷不過”,而是為了“贏下未來”。DeepSeek、Qwen的成功不在于它是否永遠霸榜,而在于它把大模型的價格打了下來,把技術門檻拆了下來,讓萬千開發者能用上“握在自己手里”的模型。 如果你還記得,你會想起年初各大國企接入DeepSeek,到了年末,甚至連美國企業反倒用起了中國的AI模型。

自變量開源WALL-OSS的意義如出一轍: 國內無數本體機器人公司和中小具身廠商,原本都在各自為戰、重復造輪子。

此前在《硅谷101》博客中,談及開源的初心時,自變量曾表示主要出于兩點考慮。其一,是技術成熟度,其二是行業需要的程度。從技術成熟度來講,類似于VLA的結構,經過了很長時間的論證,大家在訓練方法上有很多探索,相當于有一定的應用上的共識以及經驗。所以從技術成熟來講,此時具有這樣結構的模型對產業來講是個很需要的事情。

從需要程度來看,國內產業里(開源時間為2025年9月)沒有在一個框架下的國產自研統一模型,但行業迫切需要的強大的開放基座模型,來助推行業成長。

自變量把“大腦”開源,相當于為全行業提供了一個高性能的通用底座。只有底座開源,國內的具身智能應用才會像當初的AI應用一樣“百花齊放”,加速中國具身智能“聚沙成塔”的過程。

畢竟,真正的核心競爭力,不在于實驗室中的參數高低,而在于真實世界中的作業能力;真正的產業價值,不在于技術的孤芳自賞,而在于通過開源與協同,推動整個行業的升級與進步。

對于產業來說,具身智能是一場馬拉松,是“長坡厚雪”、“眾人拾柴”的賽道。自變量機器人的開源,本質上是一種利他主義的競爭策略。而且放眼整個具身智能的競爭,最終不是比誰的實驗室模型更漂亮,而是比誰能最快讓千萬臺機器人走入現實。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
SSD價格再漲10%!2TB SSD價格已對標RTX 5080

SSD價格再漲10%!2TB SSD價格已對標RTX 5080

3DM游戲
2026-04-24 17:38:02
中國游客暴跌55.9%,日本361萬游客擠爆櫻花季,缺口被全球填平

中國游客暴跌55.9%,日本361萬游客擠爆櫻花季,缺口被全球填平

芳姐侃社會
2026-04-21 16:37:18
突發!又一金融機構董事長被查,上任不到一年!

突發!又一金融機構董事長被查,上任不到一年!

新浪財經
2026-04-24 00:06:59
中信銀行兩度出擊,向汕頭前首富追債80億

中信銀行兩度出擊,向汕頭前首富追債80億

湘財Plus
2026-04-24 13:55:50
全網唱衰的下嫁!嫁普通人5年,前任是法拉利總裁,終究還是輸了

全網唱衰的下嫁!嫁普通人5年,前任是法拉利總裁,終究還是輸了

橙星文娛
2026-04-18 16:42:58
趕緊給菲律賓送油送糧送化肥

趕緊給菲律賓送油送糧送化肥

安安說
2026-04-23 11:44:51
醫療反腐常態高壓之下,整個行業會走向何處?

醫療反腐常態高壓之下,整個行業會走向何處?

細說職場
2026-04-24 14:16:33
算命大師不敢給郭晶晶看相,說她破了相書定律。

算命大師不敢給郭晶晶看相,說她破了相書定律。

TVB的四小花
2026-04-24 16:53:39
拜合拉木談安東尼奧:沒有他選我進國青,可能我還在內蒙踢

拜合拉木談安東尼奧:沒有他選我進國青,可能我還在內蒙踢

懂球帝
2026-04-23 23:24:51
外媒:中國將076型兩棲攻擊艦部署至南海,重塑印太地區力量平衡

外媒:中國將076型兩棲攻擊艦部署至南海,重塑印太地區力量平衡

零度Military
2026-04-24 18:35:23
2009年孔東梅偶遇蔣孝嚴,面對祖墳被挖的半世紀世仇,毛蔣后人僅用四字破局震驚全場!

2009年孔東梅偶遇蔣孝嚴,面對祖墳被挖的半世紀世仇,毛蔣后人僅用四字破局震驚全場!

寄史言志
2026-04-23 22:43:11
胡錫進以安全代言沃爾沃,是整個社會的恥辱

胡錫進以安全代言沃爾沃,是整個社會的恥辱

黔有虎
2026-04-19 17:34:12
羅馬諾:若瓜帥離任,馬雷斯卡將成為曼城主帥首選接班人

羅馬諾:若瓜帥離任,馬雷斯卡將成為曼城主帥首選接班人

懂球帝
2026-04-24 19:08:07
吃相越來越難看,終于引起公憤了!

吃相越來越難看,終于引起公憤了!

胖胖說他不胖
2026-04-23 09:00:33
兒子早戀被叫家長!必須形象管理,畢竟第一次見親家,評論區炸鍋

兒子早戀被叫家長!必須形象管理,畢竟第一次見親家,評論區炸鍋

夜深愛雜談
2026-04-21 20:06:20
國際原油短線跳水 抹去之前漲幅

國際原油短線跳水 抹去之前漲幅

每日經濟新聞
2026-04-24 19:17:05
民進黨,極有可能在下一屆臺灣地區選舉后,成為長期一家獨大政黨

民進黨,極有可能在下一屆臺灣地區選舉后,成為長期一家獨大政黨

李橑在北漂
2026-04-02 10:22:26
不裝了?馬斯克罕見承認:美國是第一,但第二到第十全都來自中國

不裝了?馬斯克罕見承認:美國是第一,但第二到第十全都來自中國

大衛聊科技
2026-04-23 12:13:36
浙江漁民東海捕獲巨型龍躉:長1.8米、重215斤,兩個壯漢才抬動,估價約3萬,老漁民直呼“開眼”

浙江漁民東海捕獲巨型龍躉:長1.8米、重215斤,兩個壯漢才抬動,估價約3萬,老漁民直呼“開眼”

臺州交通廣播
2026-04-24 12:16:27
賴清德無法竄訪,盧秀燕表態后,日本也發聲了,非常不簡單

賴清德無法竄訪,盧秀燕表態后,日本也發聲了,非常不簡單

凡知
2026-04-24 17:17:02
2026-04-24 19:51:00
具身研習社
具身研習社
記錄具身智能浪潮迭代。
145文章數 1關注度
往期回顧 全部

科技要聞

DeepSeek V4牽手華為,價格依然"屠夫級"

頭條要聞

參與英國研究的50萬名患者信息在中國售賣 外交部回應

頭條要聞

參與英國研究的50萬名患者信息在中國售賣 外交部回應

體育要聞

里程碑之戰拖后腿,哈登18分8失誤

娛樂要聞

停工16個月!趙露思證實接拍新劇

財經要聞

LG財閥內斗:百億美元商業帝國爭奪戰

汽車要聞

零跑Lafa5 Ultra北京車展上市:11.88-12.48萬

態度原創

家居
親子
藝術
數碼
房產

家居要聞

自然肌理 溫潤美學

親子要聞

為了讓孩子少看電視,給他安排了這個點珠貼畫,鍛煉孩子動手能力和專注力#益智玩具 #親子手工 #手工d...

藝術要聞

父親住酒店順走一瓶礦泉水,兒子喝后離奇死亡

數碼要聞

浩鑫推出新款迷你準系統,可裝酷睿Ultra和獨顯

房產要聞

重磅新政!海口限價商品房:滿5年可上市 繳15%土地溢價!

無障礙瀏覽 進入關懷版