![]()
![]()
EAIDC助力具身智能從技術(shù)演示邁向工程落地。
作者|拾月
編輯|栗子
如果說具身智能的浪潮由AI帶動,那其發(fā)展脈絡,也在不可避免地沿著AI的既有范式展開。
尤其是在模型評測上,這種慣性已經(jīng)十分明顯。過去一段時間,具身模型的能力驗證,很大程度上延續(xù)了大語言模型的路徑——在虛擬環(huán)境中進行評測,在標準化任務中進行橫向?qū)Ρ取?/p>
但問題也正在這里逐漸顯現(xiàn)。
仿真環(huán)境可以加速迭代,卻難以還原真實世界的復雜性。sim2real的GAP始終存在,使得模型在“仿真中成立”,并不等同于在現(xiàn)實中可用。正如業(yè)內(nèi)多位從業(yè)者所指出的,具身智能不同于純數(shù)字智能,它的能力必須在物理世界中被反復驗證,而非通過大規(guī)模虛擬試錯完成收斂。
自變量聯(lián)合創(chuàng)始人兼CTO王昊也曾提到,長期依賴仿真評測,不可避免會掩蓋模型能力的真實邊界。放眼國內(nèi)外,頭部模型廠商已經(jīng)逐漸形成共識:評測,正在成為具身智能發(fā)展的關(guān)鍵瓶頸,而行業(yè)迫切需要一個“真機演武場”。
在剛剛落幕的EAIDC 2026上,這樣一個“演武場”,第一次被系統(tǒng)性地搭建出來。
![]()
1.一個“懂模型”的團隊,做了一場不一樣的比賽
如果僅從形式上看,EAIDC是一場開發(fā)者大賽。但從賽制設計來看,它更像是一場由“模型視角”反推出來的能力測試。
這種差異,體現(xiàn)在幾個關(guān)鍵層面。
首先,是對模型路徑的開放。比賽并沒有限定模型,參賽者可以自由選擇不同的開源具身模型,包括各類國內(nèi)外VLA 。這一設定的背后,并不是“降低門檻”,而是盡可能提升開發(fā)者的創(chuàng)新性和分辨能力。
其次,是對數(shù)據(jù)范式的重新處理。比賽時自變量提供真機數(shù)據(jù)、無本體數(shù)據(jù)參與訓練,讓開發(fā)者基于自身思考和研究方向,選擇數(shù)據(jù)配比。此時,開發(fā)者不再是主觀判斷哪種數(shù)據(jù)更好,而是透過數(shù)據(jù)訓練后的模型能力得出結(jié)論。真正被檢驗的,不是數(shù)據(jù)路線對不對,而是數(shù)據(jù)是否能夠在真實環(huán)境中支撐模型閉環(huán)。
再往下,是對能力邊界的刻意放大。任務設計并非簡單拼接,而是圍繞抓取、語言理解、精細操作與長時序決策等核心能力展開,不同任務設置了不同權(quán)重,最終成績不僅看步驟得分,也綜合考量成功率和泛化表現(xiàn),這種結(jié)構(gòu),使得比賽不只是考察“能不能做”,而是直接指向模型能力的上限“能不能落地”,如何跟產(chǎn)業(yè)應用結(jié)合。
相比于普通的“抓取拿放”,現(xiàn)在業(yè)內(nèi)正缺乏這種復雜交互行為。據(jù)自變量機器人合伙人兼算法負責人甘如怡回憶稱:選手在比賽最初面對“將環(huán)套在柱子上”任務成功率只有20-30%,后逐漸提升至60-70%,“拼寫單詞”任務也從極低成功率提升至40-50%。正是在這種高難度任務的“折磨”中,模型能力邊界顯然已不斷外擴。
更關(guān)鍵的是泛化機制的引入。通過類似AB卷、隨機環(huán)境切換等設計,考驗泛化性。比賽的B卷在制度層面限制“刷題式優(yōu)化”,迫使模型面對未知條件。這種機制,本質(zhì)上是在把“泛化能力”從附加項,變成核心指標。如果說以往比賽更多是在驗證“已知能力”,那么EAIDC更接近在測試“未知邊界”。
![]()
值得一提的是,為了解決選手的后顧之憂,本次比賽使用的機械臂為自變量機器人自主研發(fā)的高性能六軸機械臂,此外自變量還提供算力支持。其中,機械臂專為AI而生,具備高精度、高響應的硬件性能,能更好復現(xiàn)模型能力。三天每天24小時的現(xiàn)場高強度運行。無論是大規(guī)模數(shù)據(jù)采集,還是模型推理部署,這套機械臂硬件系統(tǒng)都展現(xiàn)出穩(wěn)定的承壓能力,為參賽團隊提供了可靠、一致的硬件保障,讓選手能夠?qū)W⒂谒惴▋?yōu)化與任務實現(xiàn)。
這種設計和全套設施的提供并非偶然。只有真正理解模型在真實世界中的失效方式的具身智能企業(yè),才會有這類具有導向性的賽制設計,才會刻意把這些不確定性寫進規(guī)則,并且懂得開發(fā)者在模型訓練中,哪些受制于硬件、數(shù)據(jù)的窘境。
2.當模型搭上“真機”,一切都會被放大
相比賽制上的巧思,這場比賽更本質(zhì)的變化,其實只有一個:具身智能所有能力,必須在真機上成立。
這聽起來像是一個直觀的設定,但在具身智能領域,卻是一個遲遲未被大規(guī)模實現(xiàn)的前提。
在EAIDC現(xiàn)場,上百條機械臂同時運行,所有任務均在真實物理環(huán)境中完成。從數(shù)據(jù)采集、模型訓練到部署與評測,形成一個完整閉環(huán),并在短時間內(nèi)完成高頻迭代。
![]()
在這樣的環(huán)境下,一些長期被“仿真掩蓋”的問題被迅速放大。例如,在抓取任務中,細微的位置偏差與接觸不確定性,會直接影響成功率;在語言理解與操作結(jié)合的任務中,指令歧義與視覺誤差疊加,會迅速放大系統(tǒng)不穩(wěn)定性;而在長時序任務中,誤差的累積效應,則往往成為決定成敗的關(guān)鍵。
當前國內(nèi)外頂級模型廠商都認可模型評測正成為重要瓶頸。就如同Physical Intelligence創(chuàng)始人兼CEO Karol Hausman在最近的采訪中所強調(diào)的:“機器人的所有行為都需要在現(xiàn)實世界中完成,無法像大語言模型那樣,通過數(shù)百萬次的快速試錯完成模型更新。這一過程耗時過長。因此,我們必須攻克機器人的評估難題”。
而自變量聯(lián)合創(chuàng)始人兼CTO王昊觀點更直接,具身智能的核心是交互學習,只有通過持續(xù)測試、觀察與反饋,讓機器在真實物理世界中解決復雜性問題。
與其說是自變量和其他單位一起辦了場真機比賽,不如說具身智能苦仿真評測久矣。仿真評測雖便捷,卻難以捕捉真實世界的力學反饋、遮擋、材質(zhì)差異等變量;而真機評測讓模型直接面對這些挑戰(zhàn),推動從Demo級“炫酷”向生產(chǎn)力級可靠性的轉(zhuǎn)變。
從這個角度看,“真機評測”并不是比賽形式的升級,而是評價體系的轉(zhuǎn)向:從可控環(huán)境中的性能比較,轉(zhuǎn)向真實世界中的能力驗證。
這也是具身智能從“技術(shù)展示”走向“工程能力”的分水嶺。
3.兩場圓桌為行業(yè)畫像,
具身智能需要“賽產(chǎn)學研”協(xié)同
如果說比賽本身提供的是一個“觀察窗口”,那么兩場圓桌討論,則給出了更直接的行業(yè)切片。
在第一場圓桌中,嘉賓圍繞數(shù)據(jù)、模型與商業(yè)化路徑進行了討論,雖然并沒有形成統(tǒng)一答案,但一些共識正在逐漸浮現(xiàn)。
![]()
首先,是對最火熱的“數(shù)據(jù)”的再認識。與大模型不同,具身智能的數(shù)據(jù)獲取成本高、閉環(huán)難度大,這使得“數(shù)據(jù)規(guī)模”不再是唯一指標。多位嘉賓提到,未來的數(shù)據(jù)路徑將是分層的:低成本數(shù)據(jù)用于預訓練,高質(zhì)量真機數(shù)據(jù)用于微調(diào),而如何在效率與效果之間取得平衡,將成為核心競爭力。換句話說,當前數(shù)據(jù)使用上絕對不是“非此即彼”,而是強調(diào)一種“合理配比”。
自變量王昊在群訪中表示,“我們一直在堅持真實世界的數(shù)據(jù)采集,所有交互式學習和強化學習,最重要的數(shù)據(jù)來自于真機,我們會持續(xù)堅持。另外像穿戴式的、靈巧手的手套,我們很早就開始做,只是在整個規(guī)劃當中,這幾類數(shù)據(jù)要形成非常好的配比。2026年會有一個很大的變化,我們會越來越依賴于人的穿戴式或者Ego-Centric的方式采集數(shù)據(jù),這是一個大趨勢。但是永遠要和真實機器人形成很好的配比,這個數(shù)據(jù)策略會決定以后模型的上限。”
其次,是對模型路徑的現(xiàn)實判斷。盡管VLA仍是主流,但其局限性也在逐漸顯現(xiàn),包括算力消耗、物理建模不足等問題。行業(yè)開始探索多模態(tài)融合、世界模型等路徑,但整體來看,模型結(jié)構(gòu)尚未收斂。
相比具體路線,自變量更強調(diào)一點:所有模型路徑,最終都需要通過真實評測來決定方向。這也是其推動真機比賽的重要原因——評測本身,正在成為模型演進的“指揮棒”。
如果說以上討論仍停留在“技術(shù)與產(chǎn)業(yè)”的層面,那么更深層的問題,其實出現(xiàn)在結(jié)構(gòu)上——產(chǎn)學研的協(xié)同,正在成為具身智能的隱性瓶頸。
在第二場產(chǎn)學研圓桌中,一個關(guān)鍵詞被反復提及:“割裂”。
![]()
學術(shù)界擁有模型與算法創(chuàng)新能力,但缺乏真機系統(tǒng)與數(shù)據(jù)閉環(huán);產(chǎn)業(yè)界掌握場景與工程能力,卻往往需要在效率壓力下快速推進,難以進行長期探索;而開發(fā)者與開源社區(qū),則處在兩者之間,既缺少完整工具鏈,也難以復現(xiàn)真實系統(tǒng)。
這種錯位帶來的直接結(jié)果,是重復造輪子與創(chuàng)新效率的下降——學術(shù)成果難以落地,工程經(jīng)驗難以沉淀為通用方法,開源也往往停留在“可見但不可用”的狀態(tài)。
可以說,具身智能已經(jīng)從單點技術(shù)問題,演變?yōu)橐粋€典型的系統(tǒng)工程問題,而系統(tǒng)工程,天然要求深度協(xié)同。
也正是在這一背景下,自變量的角色開始變得更加清晰。無論是通過比賽提供統(tǒng)一的真機環(huán)境與評測體系,還是開放數(shù)據(jù)、模型與工具鏈,本質(zhì)上都在嘗試解決同一個問題:讓不同角色在同一個閉環(huán)中協(xié)作。
換句話說,這場比賽不僅是在評測模型,也是在測試一種新的協(xié)同方式。當學術(shù)、產(chǎn)業(yè)與開發(fā)者被放入同一個真實環(huán)境中,能力不再孤立存在,而開始相互放大。而這才是具身智能真正走向規(guī)模化之前,必須補上的那一塊拼圖。
也正是在這樣的邏輯下,EAIDC的意義變得更加清晰——“具身智能平權(quán)時刻”。正如自變量創(chuàng)始人兼CEO王潛所說,具身智能門檻極高,必須依賴大規(guī)模開發(fā)者共同參與,才能形成真正有效的生態(tài)。而比賽所提供的,正是一套讓開發(fā)者快速進入、在真實約束中驗證并持續(xù)迭代的基礎設施。
從這個意義上看,EAIDC不只是一次賽事,而是具身智能走向規(guī)模化之前,一個重要的起始點。
(封面圖來源:自變量)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.