文 | 智能相對論
作者 | 葉遠風
在人工智能浪潮席卷全球的當下,尤其是世界模型掀起新一輪熱潮后,適配“具身智能”的大模型正廣受關注。然而,在眾聲喧嘩與概念紛繁之中,什么才是通向通用機器人的切實路徑?是強化學習還是模仿學習?是VLA端到端還是模塊化分步式?是仿真捷徑還是真機苦功?
近期,我們對話了原力靈機聯合創始人周而進。在他看來,行業的許多爭論可能偏離了本質。原力靈機選擇了一條看似“笨拙”的道路:摒棄直接套用現有大模型,從零開始構建原生機器人模型DM0;不追求參數的盲目膨脹,相信“小”模型也能在真實世界中完成復雜任務;明確提出“通用”與“泛化”正交的研發框架,并以“世界模型”與“視覺-語言-動作模型”的緊密結合,作為實現這一目標的技術支柱。
![]()
周而進斷言,他們正在做的,實際上是“更簡單的事”。
這份“簡單”,并非指技術難度低,而是指拋開捷徑與妥協,回歸問題本質——讓機器人像人一樣,通過分層智能系統理解世界、規劃任務、并靈巧地操縱物理實體。這要求模型必須真正理解“干預世界”與“預測世界”的區別,必須能適應不同的機器身體與傳感器組合,也必須能在不完美的現實場景中,從“有人兜底”逐步走向完全自主。
在本次對話過程中,作為AI圈內的技術精英,曾經的“天才少年”周而進系統闡述了原力靈機對“通用具身智能”的完整定義與四大泛化維度,犀利點評了行業在技術路徑、數據策略上的常見誤區,并首次詳細解讀了其“世界模型+VLA”的技術架構為何是必然選擇。他也坦誠分享了公司從工業物流場景切入的商業化邏輯,以及面對數據稀缺、客戶信任等挑戰時的“兜底”哲學。
我們得以窺見一家具身智能創業公司的技術藍圖,也對當前具身智能發展范式有一定反思。以下是對話實錄。
智能相對論:怎么看待當下具身智能的發展?
周而進:具身智能這一波浪潮來自于大模型開啟了一個非常強大的關于泛化的能力,關于萬物互聯的可能性。
在算法上面,我們認為構建一個分層的智能系統十分必要。這是因為,和人一樣,具身智能對于世界的理解、動作的操縱反饋,一定需要一個分層系統來實現,才能有很普遍的實用價值。
這個體系有三層:
首先要有一個大腦對系統進行規劃;
然后有一個“小腦”做出各種low level的指令,比如拿、放、推、拉;
最后一層,我們定義為system0,意思是從抓、拿、放這些low level指令到真的去驅動電機,把關節穩定地轉起來,拿穩、放平,動作流暢光滑,執行效率高,然后還要結合各種傳感器的信號,包括力的反饋、觸覺的反饋等。
有了這樣一個三層的分層系統,才能最終解決那些足夠復雜的問題。
之所以有這樣的認識,是因為我們從一開始就把自己的目標定位為“通用具身智能”,想要造出來的機器人不是為了專門擦桌子,或者說專門去做一個具體的動作(那樣的話也不用那么復雜的系統)。未來的機器人,應該是每天就跟保潔阿姨一樣,巡視一下工區哪有垃圾桶滿了就給換一個,哪里的桌子臟了就能擦干凈,飲水機沒水了就補充一下。
這些能力需要的不是簡單的規則,而是一個對于場景環境的長程理解到精細操作的完美執行,哪一環都少不了,我們的大模型算法必須構建起分層智能系統。
智能相對論:“通用具身智能”對模型層面有什么要求?
周而進:第一,模型對硬件要有一定的通用性。
在真實的業務落地情況下,也結合我們的業務實踐,硬件需要用一些不同的構型來完成不同的任務,比如物流行業,重載業務的機器人需要很“粗”的手臂,靈活度可以不要求那么高。但一些非常精細的操作,比如說拆袋子、拆箱子、封膠帶,就需要有一個桌面雙臂靈巧手的形態,身體不需要動。
一個足夠通用的機器人模型,對于這些構型都應該能夠適配。
第二,模型要有對多傳感器的理解。
人類感官的本質也是多種傳感信號的共同輸入,最常見的是視覺,然后聽覺、觸覺等等。多傳感器相互之間是替補關系,比如,我閉著眼睛去摸,一樣能夠抓起一個東西,這個時候其實就是傳感器之間的相互補位。
對于人類來說,我把你左手綁住,不應該影響你的右手,或者說,我遮住你的眼睛,你的觸覺應該依然是work的。
模型一定要去適應就是不同的機型、不同的傳感器,只有這樣,才能夠真正理解每一個模塊、每一個傳感器實際起到的作用是什么、相互之間怎么來互補,要能夠把這些東西放在一個大腦里面,統一指揮、統一調配起來。
具身智能模型的目標,應是這樣:今天我給機器插上一個觸覺模組,干活就能干得更準確,拔掉依然能干活,只不過準確率可能會下降一點;一個雙臂機器人把某一條臂卸掉,還是能繼續干活。
智能相對論:“通用具身智能”價值展現在哪里?
周而進:“通用”產生的價值,或者說,一個非常重要的判斷標準是泛化性,不能一種情況行另一種情況就不行。
第一是被操作對象的泛化。
比如說都是整理雜物,模型如果只能在已經采集的數據上奏效,其實是沒有意義的。切蘋果,只有我家的蘋果能切,他家的蘋果就切不了,那就不行。
被操作對象在語義層面需要保持一致,但在個體層面可以不同。
第二是場景的泛化。
都是切水果,機器人在我家、在你家應該都能切。
對象、場景的泛化,這是最基本的兩個標準,也是今年我們核心努力的一個方向。
第三是任務的泛化。
機器人不能永遠都只能做我教他的那幾個動作。
一方面,基于很多原子動作可以去做排列組合,機器人應該能學會做成更復雜的動作,比如說收納桌子,可以拆解為拾起、折疊、擦拭這么幾個原子動作的組合。
這就需要更好的一個具身大腦把一個更長程的任務拆解成更多的原子動作,然后有一個全局的推理系統能夠把整個系統跑起來,最后完成一些更長的任務,越做越長。
另一方面,很多原子動作本身也應該有創新,比如說今天會打蝴蝶結,明天可以學會外科醫生打的一種外科結,那是一種完全不一樣的繞線方法。
對這種,就不能簡單地把原有的一些動作去排列組合做更長的任務,它是一種全新的概念,需要通過更廣泛的數據學習不停地補充模型能力,對基本動作進行擴充。
第四是機型的泛化。
這其實是更難的要求,在數據量不足的情況下,能做到前邊幾個泛化,又能夠在幾個我們常用的機型上都做好,是一個非常有挑戰性的目標。
我們在訓模型的時候,會有意識去訓練一個通用模型,讓它接受各種各樣機器人數據,為未來去做機型泛化來去做準備。
未來我們的機器人,完全有可能是一種可組裝式的,比如說在某些業務場景加裝不同的配合機械臂,支持客戶通過少量的數據就能夠適應新的抓握要求。
智能相對論:“通用”和“泛化”具體要怎么推進和實現?
周而進:泛化的4個維度是機器人逐步都要去解決的,在模型或算法的角度,通用加泛化是兩個正交的概念。
在具體的手段方面,我們主要圍繞VLA(Vision-Language-Action,視覺語言動作模型)+世界模型兩個具體的研發模塊。
在這個基本的架構之上,數據策略、強化學習方法、模仿學習方法,都圍繞它們進行,用來實現通用+泛化的目標。
智能相對論:李飛飛等團隊在做的世界模型,在具身智能領域的應用,聽起來和通用+泛化的構想有點類似,那VLA+世界模型和單純的世界模型有什么區別?
周而進:世界模型和VLA是正交的。
VLA是說接下來該做什么動作,世界模型是說當我做了這個動作之后,這個世界發生了什么樣的變化。
我們認為,單獨說誰是VLA派或者世界模型派這個本身是沒有意義的,技術上面要追求的不是站隊問題,而是到底怎么樣更好的全面建模機器人操作,有一個模塊來預測狀態發生什么,有一個模塊來預測接下來動作該做啥。
如果只有世界模型,那么機器人知道這個世界接下來該怎么演變,但不知道該做什么動作去影響這個世界去獲得想要的結果。比如說這兒著火了,世界模型能告訴你接下來5秒鐘火是怎么燃燒,但他不會去做動作,因為怎么去滅火這件事情,世界模型告訴不了。
或者說,世界模型推動的機器人最終是落不了地的,它不知道怎么去介入世界、干預世界,解決不了問題。
智能相對論:如果只關注世界模型,不關注VLA,對具身智能會是什么結果?
周而進:現在大家對世界模型的定義確實是多種多樣的,如果說世界模型它本身沒有排斥說去做動作,那就相當于已經把世界模型和VLA放在了一起,概念融合了。
概念的事,永遠可以把其他概念吸收進來,擴充“世界模型”內涵,把所有事都干了。但是,它的本質,必須是我們所說的世界模型+VLA,做兩類預測,一是我要干預世界我該做什么,二是干預也好不干預也好,世界本身會怎么演變。
有些團隊在訓練世界模型時,更多的是通過視頻這個方向去做模型訓練,不會有太多觸覺、身體動作的數據加入進來(至少不以其為主),這會導致具身智能在仿真時表現很好,一旦上了真機就很拉跨。這樣的世界模型,就算想要擴充到VLA,也沒辦法真正做到VLA所達到的精度。
在狹義上,只有世界模型的具身智能,和Gemini沒有本質區別。
今天很多大模型公司把動態模型拓展一下就說自己是具身大腦,做的評測也都是開環評測,比如給一張圖詢問下一步動作,判斷這個動作是不是正確。但具身智能真正要解的是閉環控制,做了第一步決策之后,“世界”變了,接下來還能不能根據這個變化再來做出第二步、第三步正確的反應,這個過程是沒辦法背答案的。
狹義的世界模型,生成漂亮的視頻是沒問題的,但用來操作機器人,可能沒什么太大意義。
智能相對論:現在具身智能的數據本來就很缺,用世界模型+VLA的方式來實現通用+泛化,對數據的需求似乎會是幾何式增長,怎么應對這個挑戰?
周而進:數據問題要回到每一份數據的價值怎么呈現。不是說誰數據量大就厲害,也不是盲目說哪個數據好哪個壞,關鍵是怎么真正用好每一種數據。
仿真數據量大管飽,但做了那么多年,自駕直到今天所有公司都還在采真機數據。但是,只要與這個世界交互是在改變世界,這類仿真數據的可用性就仍然很強。
比如說導航,非常低速簡單的室內場景,大規模掃描各種屋子來建模真實場景有很重要的意義,因為這樣的場景就是不要撞到各種物品就好。
但例如疊衣服或者裝水,隨著動作的不同變化會很大,液體一晃動,整個瓶子的質心就是在變化,如果沒辦法準確建模,仿真數據就很難足夠有價值。反之,如果已經能準確建模,那說明對世界的理解已經很準確,就不再需要“仿真”了,這是矛盾的。
因此,我們在室內低速導航、剛性物體抓取等方面,會充分利用仿真數據。但在需要精細化操作的方面,主要投入力度進行真實數據采集,解決最后一公里問題。
這方面,一方面要解決數據泛化性問題,什么情形都要有,另一方面,要解決最后的高精度操作問題。目前在大力進行human data采集,通過各種采集設備,在各種場景把人的動作信號捕捉下來,進行較大規模的真實遙采。
只不過,就像自動駕駛沒有人天天騎著自行車去采集數據,真實數據不代表真機數據。現在的采集過程只不過是機器人布置出去的量太少的情況下,不得已而為之的替代手段,以后一定要過渡到機器人的大批量真機采集上來。
還有一點要強調的是,數據收集的維度,從傳感器而言已經有視覺、觸覺、聽覺、力控、加速度等維度,維度越多,與人的感受、體驗越接近,越能強化機器人的通用+泛化能力,只不過目前還是視覺內容占主體,未來相信其他維度的數據會慢慢變得豐富,甚至能夠有嗅覺傳感數據的加入,相信機器人的通用性會進一步強化。
智能相對論:大模型APP現在不只是看訓練數據,也看真實使用的反哺,越用越好用,機器人是不是也類似?
周而進:是的,機器人能夠在真實世界快速被部署出去,這個游戲才會進入到下一個階段,再循環,然后就開始做真實世界強化學習。
自動駕駛已經過了這個階段,成熟的飛輪滾起來了。機器人首先還需要在第一階段加碼,先用起來,不要猶豫,要先進到場景里、滾動起來。
智能相對論:原力靈機的理想是做全場景,但現在商業化先在工業物流領域,是不是就是基于這樣的背景?
周而進:一開始要有個大目標,它決定了技術架構和判斷。在這個大目標之下,需要的是盡量先跑起來。
飯得一口一口吃,泛化有多個維度,在工業物流場景,除了先落地跑起來,其實能做的事也有挺多的。
場景限制但還是能改變操作對象,比如在物流皮帶上做分揀、做打包,面臨各種各樣的商品,有剛性有柔性,天天在變,第一步就對機器人有最基礎的能力驗證。
然后在場景上,一些客戶他有自己的物流倉庫、門店、商超,場景會有變化、環境更復雜,如果最開始沒有想著泛化,算法可能就無法適應。
到今天為止,具身智能整個硬件,從傳感器到構型沒有定式,關節夾爪選哪個、傳感器怎么安置,攝像頭視角的變化該怎么來定,如果不做本體,就永遠摸不清楚這里面到底要怎么弄,所以一定在最開始要軟硬一體化設計,讓機器人真的進到產線里面。
智能相對論:但是先讓機器人在工業物流場景跑起來,不夠成熟的情況下,怎么解決客戶認可的問題?
周而進:這其中最重要的概念是“兜底”問題。
比如說做皮帶上的分揀,拿起一件衣服分揀掉地上怎么辦?放錯箱子了怎么辦?夾爪卡住了怎么辦?中間突然斷電了怎么辦?機器人要處理,就牽扯一套復雜的解決方案。
很多團隊搞了各種新的算法,準確率不斷提升,從50%刷到70%。但我認為從95%刷到97%可能都沒用,只要會出錯,就必須要有“兜底”方案。
如果沒法兜底,就很難被客戶所接受。
而“兜底”方案是一個動態的過程,可能早期,機器人還“泛化”不了的,我在生產線裝個兜網來解決掉落問題,人工+機器人配合,或者機器人+遙操。但隨著機器人進產線,算法適應更多對象、場景和任務,機器人會慢慢接過來實現泛化升級,把解決方案的其他部分吸收掉,最終獨立工作。
這也是為什么要強調對場景的理解、與客戶在解決方案層面進行系統合作,只有這樣,才有讓機器人獲得第一階段進入,然后逐步滾動成熟起來的機會。
智能相對論:目前下游硬件在通用+泛化的支持方面如何,是不是會成為瓶頸?
周而進:必須要澄清一個行業認知,當前很多具身智能的表現拉跨并不是因為硬件性能不足,而基本都因為模型能力沒有跟上。
一個淺顯的道理是,如果一個動作能夠被遙操出來,或者能夠在固定程序上跑得很驚艷,比如春晚宇樹機器人的武術和舞蹈,那就證明硬件能力本身沒有問題。
事實上,今天機器人硬件的很多性能表現已經很不錯了,一個好的搖操方案,轉核桃、翻跟斗都是家常便飯。大家都卡在模型上,模型能夠進場景基本就意味著本體能進場景。
當然,散熱、功耗這些,是供應鏈硬件必須不斷強化的。
智能相對論:通用+泛化正交下,模型的參數量會有什么不同之處嗎?之前原力靈機發布了DM0大模型并進行了開源,參數只有2.4B。
周而進:在機器人領域,無腦堆參數量這件事非常荒誕。我們還是要回到實質上,到底多大的參數量能夠做到一個什么樣的能力?
對機器人來說,8B未必比4B厲害,4B可能比2B差。我們通過大量的真機的實驗發現,2.4B的參數量已經足夠完成想要的功能,也便于部署和二次開發了,一臺4090、5090的機器就能跑起來。而且做了代碼優化之后,機器人的反應時間能控制在60毫秒的時延。
退一步說,在現在的數據條件下,如果現在有具身智能大模型說自己的參數量有30B,那我只能懷疑它用了一堆仿真數據。
今年我們的一個大目標還是奔著通用和泛化這兩個角度去往前做。從訓練機制上,具身智能不應該是下載個VLM模型然后加點自己的數據就搞出一個機器人模型,我們要做的、我們的DM0是一個原生機器人模型,從第一天開始就在真實世界中去理解、操作物理世界,再配合我們的訓練技巧,實現跨機型多任務等等學習方式。
很多模型只針對一種機型,要拿起瓶子就只會背誦幾個關節的步驟、電機該轉幾度,而DM0和后續要發布的升級版模型DM0.5,是要解決對運動和趨勢的理解問題。
之后,我們的DM1乃至更多版本,會沿著從對象到場景,然后到任務,再到機型的路徑去執行。到DM1.X時,預計分層系統能夠支持小時級別的任務。
智能相對論:目標嚴苛、前路漫漫,是不是可以理解,原力靈機在具身智能賽道上,選擇了最難的那條路?
周而進:并不對,從目標的設計來說,原力靈機的通用+泛化正交,從最底層的結構開始從頭走了一條完全屬于自己的道路,一步步實現目標,看起來是比那些拿著國內外大語言模型過來改一下就去使用要更加麻煩,十分有挑戰性。
但是,反過來想,你拿了別人的東西過來,天花板就被它限制住了,模型的知識量、認知甚至它的缺陷,都擺在那了。短期內能夠上線一些粗淺的場景應用,長期看,一旦想要能力精進,投入的時間和成本會更大。
就像一個小朋友小時候學英語雖然痛苦,但會比長大后再學效果好很多。現在業內許多團隊基于開源模型(如Pi或通用VLM)能快速跑通demo,這極大地降低了行業門檻。但Pi也有著缺陷,比如沒有多傳感器的觸覺數據,沒有場景的構造、任務的構造。如果致力于打造原生具身智能,就會在多傳感器融合、底層物理規律理解上存在天然的局限性。
至于VLM模型就更不用說了,模型可能根本都沒見過關節電機這些東西,只有互聯網數據喂養下的機械動作背誦。
大模型發展的技術路線不一定是完全可以復用到具身智能上,但大模型走過的那些坑,是能夠有意去避免的。最典型的是,當大模型足夠強的時候,很多個體調優的小模型應用最后發現并沒有太大意義,被通吃了。
具身智能未來的發展,通用+泛化正交,會走到類似的階段。
基礎打牢了,后續廣泛的場景落地會變得更快,我們是在走一條更簡單的路,這也是行業應該要走的更簡單的路。
*本文圖片均來源于網絡
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.