網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

把具身智能拉回真實世界：EAIDC與一場“真機評測”的開始｜甲子光年

2026-04-01 18:51:40　來源: 甲子光年

北京舉報

分享至

EAIDC助力具身智能從技術(shù)演示邁向工程落地。

作者｜拾月

編輯｜栗子

如果說具身智能的浪潮由AI帶動，那其發(fā)展脈絡，也在不可避免地沿著AI的既有范式展開。

尤其是在模型評測上，這種慣性已經(jīng)十分明顯。過去一段時間，具身模型的能力驗證，很大程度上延續(xù)了大語言模型的路徑——在虛擬環(huán)境中進行評測，在標準化任務中進行橫向?qū)Ρ取?/p>

但問題也正在這里逐漸顯現(xiàn)。

仿真環(huán)境可以加速迭代，卻難以還原真實世界的復雜性。sim2real的GAP始終存在，使得模型在“仿真中成立”，并不等同于在現(xiàn)實中可用。正如業(yè)內(nèi)多位從業(yè)者所指出的，具身智能不同于純數(shù)字智能，它的能力必須在物理世界中被反復驗證，而非通過大規(guī)模虛擬試錯完成收斂。

自變量聯(lián)合創(chuàng)始人兼CTO王昊也曾提到，長期依賴仿真評測，不可避免會掩蓋模型能力的真實邊界。放眼國內(nèi)外，頭部模型廠商已經(jīng)逐漸形成共識：評測，正在成為具身智能發(fā)展的關(guān)鍵瓶頸，而行業(yè)迫切需要一個“真機演武場”。

在剛剛落幕的EAIDC 2026上，這樣一個“演武場”，第一次被系統(tǒng)性地搭建出來。

1.一個“懂模型”的團隊，做了一場不一樣的比賽

如果僅從形式上看，EAIDC是一場開發(fā)者大賽。但從賽制設計來看，它更像是一場由“模型視角”反推出來的能力測試。

這種差異，體現(xiàn)在幾個關(guān)鍵層面。

首先，是對模型路徑的開放。比賽并沒有限定模型，參賽者可以自由選擇不同的開源具身模型，包括各類國內(nèi)外VLA 。這一設定的背后，并不是“降低門檻”，而是盡可能提升開發(fā)者的創(chuàng)新性和分辨能力。

其次，是對數(shù)據(jù)范式的重新處理。比賽時自變量提供真機數(shù)據(jù)、無本體數(shù)據(jù)參與訓練，讓開發(fā)者基于自身思考和研究方向，選擇數(shù)據(jù)配比。此時，開發(fā)者不再是主觀判斷哪種數(shù)據(jù)更好，而是透過數(shù)據(jù)訓練后的模型能力得出結(jié)論。真正被檢驗的，不是數(shù)據(jù)路線對不對，而是數(shù)據(jù)是否能夠在真實環(huán)境中支撐模型閉環(huán)。

再往下，是對能力邊界的刻意放大。任務設計并非簡單拼接，而是圍繞抓取、語言理解、精細操作與長時序決策等核心能力展開，不同任務設置了不同權(quán)重，最終成績不僅看步驟得分，也綜合考量成功率和泛化表現(xiàn)，這種結(jié)構(gòu)，使得比賽不只是考察“能不能做”，而是直接指向模型能力的上限“能不能落地”，如何跟產(chǎn)業(yè)應用結(jié)合。

相比于普通的“抓取拿放”，現(xiàn)在業(yè)內(nèi)正缺乏這種復雜交互行為。據(jù)自變量機器人合伙人兼算法負責人甘如怡回憶稱：選手在比賽最初面對“將環(huán)套在柱子上”任務成功率只有20-30%，后逐漸提升至60-70%，“拼寫單詞”任務也從極低成功率提升至40-50%。正是在這種高難度任務的“折磨”中，模型能力邊界顯然已不斷外擴。

更關(guān)鍵的是泛化機制的引入。通過類似AB卷、隨機環(huán)境切換等設計，考驗泛化性。比賽的B卷在制度層面限制“刷題式優(yōu)化”，迫使模型面對未知條件。這種機制，本質(zhì)上是在把“泛化能力”從附加項，變成核心指標。如果說以往比賽更多是在驗證“已知能力”，那么EAIDC更接近在測試“未知邊界”。

值得一提的是，為了解決選手的后顧之憂，本次比賽使用的機械臂為自變量機器人自主研發(fā)的高性能六軸機械臂，此外自變量還提供算力支持。其中，機械臂專為AI而生，具備高精度、高響應的硬件性能，能更好復現(xiàn)模型能力。三天每天24小時的現(xiàn)場高強度運行。無論是大規(guī)模數(shù)據(jù)采集，還是模型推理部署，這套機械臂硬件系統(tǒng)都展現(xiàn)出穩(wěn)定的承壓能力，為參賽團隊提供了可靠、一致的硬件保障，讓選手能夠?qū)Ｗ⒂谒惴▋?yōu)化與任務實現(xiàn)。

這種設計和全套設施的提供并非偶然。只有真正理解模型在真實世界中的失效方式的具身智能企業(yè)，才會有這類具有導向性的賽制設計，才會刻意把這些不確定性寫進規(guī)則，并且懂得開發(fā)者在模型訓練中，哪些受制于硬件、數(shù)據(jù)的窘境。

2.當模型搭上“真機”，一切都會被放大

相比賽制上的巧思，這場比賽更本質(zhì)的變化，其實只有一個：具身智能所有能力，必須在真機上成立。

這聽起來像是一個直觀的設定，但在具身智能領域，卻是一個遲遲未被大規(guī)模實現(xiàn)的前提。

在EAIDC現(xiàn)場，上百條機械臂同時運行，所有任務均在真實物理環(huán)境中完成。從數(shù)據(jù)采集、模型訓練到部署與評測，形成一個完整閉環(huán)，并在短時間內(nèi)完成高頻迭代。

在這樣的環(huán)境下，一些長期被“仿真掩蓋”的問題被迅速放大。例如，在抓取任務中，細微的位置偏差與接觸不確定性，會直接影響成功率；在語言理解與操作結(jié)合的任務中，指令歧義與視覺誤差疊加，會迅速放大系統(tǒng)不穩(wěn)定性；而在長時序任務中，誤差的累積效應，則往往成為決定成敗的關(guān)鍵。

當前國內(nèi)外頂級模型廠商都認可模型評測正成為重要瓶頸。就如同Physical Intelligence創(chuàng)始人兼CEO Karol Hausman在最近的采訪中所強調(diào)的：“機器人的所有行為都需要在現(xiàn)實世界中完成，無法像大語言模型那樣，通過數(shù)百萬次的快速試錯完成模型更新。這一過程耗時過長。因此，我們必須攻克機器人的評估難題”。

而自變量聯(lián)合創(chuàng)始人兼CTO王昊觀點更直接，具身智能的核心是交互學習，只有通過持續(xù)測試、觀察與反饋，讓機器在真實物理世界中解決復雜性問題。

與其說是自變量和其他單位一起辦了場真機比賽，不如說具身智能苦仿真評測久矣。仿真評測雖便捷，卻難以捕捉真實世界的力學反饋、遮擋、材質(zhì)差異等變量；而真機評測讓模型直接面對這些挑戰(zhàn)，推動從Demo級“炫酷”向生產(chǎn)力級可靠性的轉(zhuǎn)變。

從這個角度看，“真機評測”并不是比賽形式的升級，而是評價體系的轉(zhuǎn)向：從可控環(huán)境中的性能比較，轉(zhuǎn)向真實世界中的能力驗證。

這也是具身智能從“技術(shù)展示”走向“工程能力”的分水嶺。

3.兩場圓桌為行業(yè)畫像，

具身智能需要“賽產(chǎn)學研”協(xié)同

如果說比賽本身提供的是一個“觀察窗口”，那么兩場圓桌討論，則給出了更直接的行業(yè)切片。

在第一場圓桌中，嘉賓圍繞數(shù)據(jù)、模型與商業(yè)化路徑進行了討論，雖然并沒有形成統(tǒng)一答案，但一些共識正在逐漸浮現(xiàn)。

首先，是對最火熱的“數(shù)據(jù)”的再認識。與大模型不同，具身智能的數(shù)據(jù)獲取成本高、閉環(huán)難度大，這使得“數(shù)據(jù)規(guī)模”不再是唯一指標。多位嘉賓提到，未來的數(shù)據(jù)路徑將是分層的：低成本數(shù)據(jù)用于預訓練，高質(zhì)量真機數(shù)據(jù)用于微調(diào)，而如何在效率與效果之間取得平衡，將成為核心競爭力。換句話說，當前數(shù)據(jù)使用上絕對不是“非此即彼”，而是強調(diào)一種“合理配比”。

自變量王昊在群訪中表示，“我們一直在堅持真實世界的數(shù)據(jù)采集，所有交互式學習和強化學習，最重要的數(shù)據(jù)來自于真機，我們會持續(xù)堅持。另外像穿戴式的、靈巧手的手套，我們很早就開始做，只是在整個規(guī)劃當中，這幾類數(shù)據(jù)要形成非常好的配比。2026年會有一個很大的變化，我們會越來越依賴于人的穿戴式或者Ego-Centric的方式采集數(shù)據(jù)，這是一個大趨勢。但是永遠要和真實機器人形成很好的配比，這個數(shù)據(jù)策略會決定以后模型的上限。”

其次，是對模型路徑的現(xiàn)實判斷。盡管VLA仍是主流，但其局限性也在逐漸顯現(xiàn)，包括算力消耗、物理建模不足等問題。行業(yè)開始探索多模態(tài)融合、世界模型等路徑，但整體來看，模型結(jié)構(gòu)尚未收斂。

相比具體路線，自變量更強調(diào)一點：所有模型路徑，最終都需要通過真實評測來決定方向。這也是其推動真機比賽的重要原因——評測本身，正在成為模型演進的“指揮棒”。

如果說以上討論仍停留在“技術(shù)與產(chǎn)業(yè)”的層面，那么更深層的問題，其實出現(xiàn)在結(jié)構(gòu)上——產(chǎn)學研的協(xié)同，正在成為具身智能的隱性瓶頸。

在第二場產(chǎn)學研圓桌中，一個關(guān)鍵詞被反復提及：“割裂”。

學術(shù)界擁有模型與算法創(chuàng)新能力，但缺乏真機系統(tǒng)與數(shù)據(jù)閉環(huán)；產(chǎn)業(yè)界掌握場景與工程能力，卻往往需要在效率壓力下快速推進，難以進行長期探索；而開發(fā)者與開源社區(qū)，則處在兩者之間，既缺少完整工具鏈，也難以復現(xiàn)真實系統(tǒng)。

這種錯位帶來的直接結(jié)果，是重復造輪子與創(chuàng)新效率的下降——學術(shù)成果難以落地，工程經(jīng)驗難以沉淀為通用方法，開源也往往停留在“可見但不可用”的狀態(tài)。

可以說，具身智能已經(jīng)從單點技術(shù)問題，演變?yōu)橐粋€典型的系統(tǒng)工程問題，而系統(tǒng)工程，天然要求深度協(xié)同。

也正是在這一背景下，自變量的角色開始變得更加清晰。無論是通過比賽提供統(tǒng)一的真機環(huán)境與評測體系，還是開放數(shù)據(jù)、模型與工具鏈，本質(zhì)上都在嘗試解決同一個問題：讓不同角色在同一個閉環(huán)中協(xié)作。

換句話說，這場比賽不僅是在評測模型，也是在測試一種新的協(xié)同方式。當學術(shù)、產(chǎn)業(yè)與開發(fā)者被放入同一個真實環(huán)境中，能力不再孤立存在，而開始相互放大。而這才是具身智能真正走向規(guī)模化之前，必須補上的那一塊拼圖。

也正是在這樣的邏輯下，EAIDC的意義變得更加清晰——“具身智能平權(quán)時刻”。正如自變量創(chuàng)始人兼CEO王潛所說，具身智能門檻極高，必須依賴大規(guī)模開發(fā)者共同參與，才能形成真正有效的生態(tài)。而比賽所提供的，正是一套讓開發(fā)者快速進入、在真實約束中驗證并持續(xù)迭代的基礎設施。

從這個意義上看，EAIDC不只是一次賽事，而是具身智能走向規(guī)模化之前，一個重要的起始點。

（封面圖來源：自變量）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.