![]()
作者 | 四月
用一只機(jī)械手拾起桌面上的銀行卡,需要幾個自由度?
三個?五個?多數(shù)人的直覺都是越多越穩(wěn)妥,最好再配上觸覺、視覺、力控……畢竟,這活兒連人手也未必一次成功。
但偏偏有一家清華系的機(jī)器人公司不信邪,把這套方案砍到了一個自由度。
![]()
你看到的模塊,甚至都談不上機(jī)械手,更像是產(chǎn)線上最常見的工業(yè)夾爪:兩塊楔形黑色夾片,沿固定導(dǎo)軌運(yùn)動,像鳥嘴一樣咬合。
夾片內(nèi)側(cè)被銀色的觸覺傳感材料包裹。除此之外,沒有外置攝像頭,沒有云端大腦,也沒有學(xué)習(xí)過任何“示范性的軌跡數(shù)據(jù)”。一切都發(fā)生在端側(cè)的本地。
但它卻能夾起那張厚度不到 1 毫米、平貼臺面的白色卡片。更準(zhǔn)確地說,它不是“夾”起,而是“撬”起:一側(cè)夾片先壓住卡片的邊緣,以桌面當(dāng)支點(diǎn),另一端則被頂起;對應(yīng)的夾片順勢合攏,兩側(cè)同時發(fā)力,將卡片整張?zhí)崞稹?/p>
正如視頻所見,整個過程并不優(yōu)雅,甚至有點(diǎn)笨:角度偏一些、力度大一點(diǎn),卡片就會滑落。但它會一次次試、一次次修正,最后總能找到更合適的著力點(diǎn)。
對實(shí)驗(yàn)結(jié)果感到詫異的不只有你。就連橡木果機(jī)器人(Acorn Robot)的發(fā)起人姜峣(清華機(jī)械工程博士、哈佛大學(xué)神經(jīng)科學(xué)博士后)都稱之為“驚喜”。“它不是一次成功,”他回憶道,“但試了八九次之后,它竟然自己找到了辦法。”
談及此處,姜峣的眼神里仍帶著興奮,像極了第一次在語言模型身上感受到智能涌現(xiàn)。他將機(jī)器人這套“靠自己摸索出來的策略”稱之為“本能驅(qū)動下的行為涌現(xiàn)”;驅(qū)動它的,是橡木果的端側(cè)自主決策模型 Natus。
該模塊是橡木果面向 B 端柔性制造場景的首款產(chǎn)品,目前已走完國內(nèi) Top1 化妝品企業(yè)的概念驗(yàn)證(POC)階段,實(shí)現(xiàn)了規(guī)模化部署。
在橡木果的研發(fā)管線里,還有更多形態(tài)的執(zhí)行模塊。它們每天孜孜不倦地練習(xí)抓取各種物品:從礦泉水瓶到橡膠軟球,從香蕉到豆腐,以及異形不規(guī)則件。
圖注:橡木果冷啟動自主探索抓取各類異形物體
這些看似笨拙的試探,都指向了同一個發(fā)現(xiàn):
如果機(jī)器人在幾乎沒有“示范數(shù)據(jù)模板”的情況下,依然能靠實(shí)踐摸索出有效策略,那執(zhí)行層真正缺的,可能并不是更多的軌跡數(shù)據(jù),而是一套能激發(fā)它“先動起來、先試起來”的底層機(jī)制。
這也是姜峣面對當(dāng)前主流具身路線最犀利的反思:VLA、世界模型、仿真學(xué)習(xí)并非毫無價值,但它們太容易在操作執(zhí)行的“最后一厘米”掉鏈子。
執(zhí)行側(cè):具身智能最沉默的困局
無論是試圖端到端閉環(huán)的 VLA,還是推演物理未來的“世界模型”,本質(zhì)上都帶著語言模型“大力出奇跡”的慣性:以為只要看過的視頻夠多、數(shù)據(jù)喂得夠足,操作智能就能自然涌現(xiàn)。但一旦涉足真實(shí)的物理交互,這套邏輯無疑將撞上兩座大山:接觸與本體。
操作的本質(zhì)是物理接觸,摩擦、阻尼、力傳導(dǎo)……這些現(xiàn)在世界里無處不在的變量,在世界模型卻難以穩(wěn)定建模。它或許能精準(zhǔn)地生成一段“機(jī)器人抓取水杯”的預(yù)測視頻,但卻無法算出指尖與杯壁接觸瞬間的相對摩擦,更無法預(yù)判玻璃滑落前那微小的形變。
視覺上的“看起來會”,掩蓋不了執(zhí)行層的“做不到”。
此外,操作必須通過具體的本體去執(zhí)行,而每臺機(jī)器人的關(guān)節(jié)磨損、裝配松緊都有微小差異。橡木果團(tuán)隊(duì)做過對比實(shí)驗(yàn):兩臺同款夾爪,采用同一套模型參數(shù),僅僅是導(dǎo)軌松緊存在差異,在執(zhí)行側(cè)的效果也會大相徑庭。
![]()
接觸的不可預(yù)測與本體的微小差異,注定了數(shù)據(jù)驅(qū)動的路線是個填不滿的無底洞。行為模式難以窮盡,模型訓(xùn)練必須覆蓋所有場景和硬件偏差,但哪怕全球最大的開源機(jī)器人數(shù)據(jù)集已達(dá)到百萬回合的運(yùn)動軌跡,依然無法激發(fā)出模型在執(zhí)行層的泛化能力。
![]()
圖注:Open X-Embodiment (OXE) 目前全球最大的開源機(jī)器人數(shù)據(jù)集,包含來自全球 34 個研究實(shí)驗(yàn)室的 22 種不同機(jī)器人載體收集的超過一百萬個機(jī)器人回合。
更要命的是,在按秒計(jì)費(fèi)的產(chǎn)線上,沒人等得起大模型數(shù)秒才能走完的推理閉環(huán),VLA 動輒數(shù)秒的延遲,連進(jìn)場作業(yè)的資格都沒有。
這讓姜峣堅(jiān)信:沒有絕對通用的最好模型,只有最適配這臺機(jī)器的模型。VLA 想用數(shù)據(jù)解決操作問題,但采集成百上千小時的高質(zhì)量遙操作數(shù)據(jù),本身就需要極高的操作門檻。
“操作一定要在實(shí)踐中學(xué)習(xí),但實(shí)踐的前提是你必須先能夠?qū)嵺`起來。”這是姜峣對于機(jī)器人執(zhí)行的第二個關(guān)鍵判斷,它揭示了 VLA 在執(zhí)行側(cè)的死穴,同時也是橡木果“另起爐灶”的起點(diǎn)。
跨界學(xué)科撞出的無人區(qū)
這套判斷,并非從文獻(xiàn)推導(dǎo)來的。
在清華機(jī)械工程系讀博期間,姜峣天天和阻抗控制、力學(xué)建模打交道,這讓他對物理交互有著根深蒂固的直覺:操作的本質(zhì)是力學(xué)行為,而非視覺問題。
2016 年,他去哈佛做神經(jīng)科學(xué)博士后,研究方向變成了人腦的運(yùn)動控制。實(shí)驗(yàn)室做了大量感知干擾實(shí)驗(yàn):屏蔽視覺、干擾觸覺,觀察人手操作的變化。他發(fā)現(xiàn),無論怎么干擾,人類最基本的抓取動作始終不變。
![]()
“那個永遠(yuǎn)不變的部分,就是本能,”姜峣意識到。語言沒環(huán)境學(xué)不會,但沒人教過嬰兒怎么抓東西,全人類卻抓得高度一致。這不是因?yàn)橐娺^了足夠多的場景,而是因?yàn)橛幸惶谆谟|覺和力學(xué)的先天機(jī)制。
兩套看起來八竿子打不著的學(xué)科語言在姜峣身上對齊了:操作的本質(zhì)不是擬合視覺軌跡,而是力學(xué)規(guī)律;人類的通用操作能力,源于本能,而非數(shù)據(jù)。
把“本能”移植給機(jī)器人,這在當(dāng)時是絕對的“無人區(qū)”。2018 年回國建實(shí)驗(yàn)室時,“具身智能”還沒出圈,VLA 尚未大行其道,同行覺得他在講玄學(xué),投資人聽不懂……
姜峣沒有急著說服外界,而是極其審慎地培養(yǎng)同路人:實(shí)驗(yàn)室會要求大二便進(jìn)組觀察,先看能力,更看“是否理解數(shù)據(jù)驅(qū)動解決不了執(zhí)行側(cè)死結(jié)、是否相信本能”。算法再強(qiáng)但不認(rèn)同這一點(diǎn)的人,他不要。新成員進(jìn)組,必須經(jīng)實(shí)驗(yàn)室全體博士生認(rèn)可。最長的一位,更是跟了他 10 年。
2024 年創(chuàng)業(yè)時,組里 8 位博士一致選擇加入了橡木果。更罕見的是,這些人私下有個共識:如果公司哪天不堅(jiān)守“本能驅(qū)動”,他們就不繼續(xù)效力。這不是創(chuàng)業(yè)故事里常見的情懷,而是認(rèn)知共識在對抗行業(yè)慣性前,必須建立的防線。
因?yàn)樗麄円业模恰安僮鲗用娴娜f有引力”。
是規(guī)律,不是規(guī)則
這意味著必須放棄擬合軌跡的執(zhí)念。牛頓沒有窮盡每一條運(yùn)動軌跡,而是用一條不含任何運(yùn)動參數(shù)的萬有引力定律,支配了所有運(yùn)動。姜峣把同樣的邏輯搬到了操作上:VLA 在學(xué)軌跡,橡木果在找規(guī)律。
規(guī)則是把操作算法寫死,而規(guī)律只給約束。基于對物理交互的下探,姜峣將這條規(guī)律提煉為三類操作本能:
定向本能解決“去哪”——與視覺協(xié)同,指引末端向目標(biāo)移動,就像嬰兒看到移動物體時自然轉(zhuǎn)頭追隨;
探索本能解決“怎么碰”——這是最復(fù)雜、也最體現(xiàn)智能涌現(xiàn)的一環(huán)。接觸發(fā)生后,機(jī)器人不依賴預(yù)設(shè)程序或模仿,而是沿物體表面自主試探,尋找穩(wěn)定的接觸構(gòu)型;
執(zhí)行交互本能解決“怎么抓”——以“滑移最小化”為核心,實(shí)時調(diào)節(jié)抓取力度。抓豆腐時輕柔,抓錘子時緊實(shí),裝配時自適應(yīng)阻力。所有調(diào)控全憑觸覺實(shí)時反饋,無需任何訓(xùn)練數(shù)據(jù)。
沒有人告訴開篇的那個夾爪“從側(cè)面撬卡片”,它只有“找到穩(wěn)定接觸”的底層期望,撬的動作便在物理約束下自然涌現(xiàn)。
![]()
但要讓這套本能真正閉環(huán),必須跨過一個關(guān)鍵技術(shù)門檻:滑移感知。“就像你站在高鐵上,想感知車廂和地面的相對速度,”姜峣解釋,“你嵌在其中一方,幾乎沒有參照物。”
團(tuán)隊(duì)花了 7 年,迭代十余版原型機(jī),才把微米級滑移感知做到穩(wěn)定可用。有了它,機(jī)器人遇到任何物體,都能在接觸中實(shí)時感知“要滑了”并自動修正——不需要提前知道物體是什么。這也是零數(shù)據(jù)冷啟動能夠成立的物理基石。
有了這三套“本能規(guī)律”,便可激發(fā)機(jī)器的無窮多行為。
Natus 與 Magis:從本能到技能
被 Natus 模型驅(qū)動的“行為涌現(xiàn)”,在端側(cè)可實(shí)時控制:200Hz 響應(yīng),毫秒級延時,無云端依賴,出廠時針對具體硬件的力學(xué)特性單獨(dú)適配。它的核心使命,就是解開前文那個“沒能力就不能實(shí)踐”的死結(jié):讓機(jī)器人“第一天上產(chǎn)線就能用”。
![]()
但一直靠本能探索效率太低,這便是第二層模型 Magis 存在的意義。
Natus 探索產(chǎn)生的數(shù)據(jù),不是普通的視頻軌跡,而是帶有觸覺語義的記錄:視覺看到“一根香蕉”,觸覺同步標(biāo)注“重 120 克,質(zhì)心偏左,表皮粗糙”。
這類帶力學(xué)標(biāo)注的視覺數(shù)據(jù)送入 Magis 訓(xùn)練,得到的技能模型對物理世界的理解,遠(yuǎn)比純視覺數(shù)據(jù)深得多——它知道怎么抓,而不只是看起來像在抓。
Magis 成熟后,熟悉場景可直接調(diào)用技能,陌生場景則退回 Natus 探索,新數(shù)據(jù)再沉淀進(jìn) Magis。一方面本能持續(xù)涌現(xiàn),可以兜底;另一方面技能越積越厚,不斷進(jìn)化。
“我們顛覆了現(xiàn)在所有數(shù)據(jù)采集的方式,”姜峣說,“最好的數(shù)據(jù)來源不是仿真,不是人工遙操,而是產(chǎn)品自己在真實(shí)物理世界里跑出來的。”
換產(chǎn)不停線:零數(shù)據(jù)的真實(shí)價碼
這套“自己跑出數(shù)據(jù)、自己長出技能”的能力,最迫切的場景在哪?
橡木果選擇了柔性制造,姜峣認(rèn)為,這是權(quán)衡過執(zhí)行側(cè)門檻和市場痛點(diǎn)后最佳的交叉點(diǎn)。
化妝品 ODM 行業(yè)是典型。SKU 超百種,幾周一換,每次換產(chǎn)就要停線調(diào)參,它的痛點(diǎn)不是機(jī)器不夠快,是機(jī)器認(rèn)不出新物料。更棘手的是物料本身:粉餅極度易碎,稍用力就留印;香薰燈芯細(xì)軟不均,力大了拔出,力小了拽不動。這類任務(wù)無法用規(guī)則覆蓋,VLA 訓(xùn)練成本極高,傳統(tǒng)自動化束手無策。
但對 Natus 來說,換了 SKU,只需自己探索,不停線、不調(diào)參、不叫工程師,這才是“零數(shù)據(jù)冷啟動”對產(chǎn)線的真實(shí)價值。
據(jù)介紹,橡木果在國內(nèi)頭部化妝品企業(yè)完成 POC,從啟動到驗(yàn)證不到兩個月,隨即進(jìn)入規(guī)模化部署,在手訂單突破 2000 萬元。
![]()
圖注:具身智能的兩條技術(shù)路徑:自上而下數(shù)據(jù)擬合 vs 自下而上本能驅(qū)動
對于技術(shù)路線更長期的判斷,姜峣認(rèn)為,Natus 和大模型從來不是競爭,而是分工:大模型負(fù)責(zé)理解任務(wù)、規(guī)劃步驟,Natus/Magis 負(fù)責(zé)毫秒級的物理執(zhí)行,一個做規(guī)劃,一個做操作,接口協(xié)同,各司其職。
這不是妥協(xié),而是回歸操作本質(zhì)的必然。就像生物進(jìn)化把操作反射交給了脊髓,而不是每次觸覺都等大腦重新決策——這個判斷,從他 8 年前在哈佛和清華的跨界碰撞中,就沒變過。
聲明:本文為 AI 前線原創(chuàng),不代表平臺觀點(diǎn),未經(jīng)許可禁止轉(zhuǎn)載。
會議推薦
企業(yè)級 Agent 落地,繞不開 4 個真實(shí)的工程問題!如何在 Agent 安全性和可用性之間找到平衡點(diǎn)?Agent 需要什么樣的記憶系統(tǒng)才能真正理解上下文?如何通過算法壓榨實(shí)現(xiàn)智力增量與成本控制的極致平衡?多 Agent 協(xié)作,如何做到可觀測、可治理、可控制?6.26-27 AICon 上海站,國內(nèi)頭部公司的 Agent 實(shí)踐,一次說透。
今日薦文
你也「在看」嗎?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.