如果把過去兩年機器人行業最熱門的關鍵詞寫在一張紙上,那么幾乎所有人都會寫下同樣幾個名字:物理AI、VLA、世界模型、Agent、具身智能。
從OpenAI到Google DeepMind,從Figure到Physical Intelligence,從國內一眾具身智能創業公司到全球資本市場,整個行業幾乎將全部注意力都集中在如何讓機器人擁有更聰明的大腦,如何讓機器人能夠理解世界、推理世界,并最終像人類一樣自主完成復雜任務。
資本市場也遵循著同樣的邏輯。人們追逐模型,討論參數規模,研究VLA架構,分析世界模型,試圖從算法層面尋找下一家OpenAI式企業。
然而,當全球機器人領域最具影響力的學術盛會——ICRA 2026在維也納開幕時,一個與主流敘事并不完全一致的信號,卻開始在會場中不斷出現。
![]()
今年ICRA的主題是“Robots for All”,在超過8000名參會者、數百場論壇中,如果仔細觀察今年大會的Workshop和專題論壇,會發現無論是主動感知(Active Perception)、視覺與觸覺融合(Vision-Tactile Intelligence)、多模態空間智能(Multi-modal Spatial Intelligence),還是面向具身智能的主動感知與閉環規劃,一股來自學術,一股來自現實的力量,正在同時拉動機器人行業的底層重構,但它們從不同方向,指向了同一個技術新缺口,那就是機器人究竟能否真正理解它所處的物理世界?
正如速騰聚創副總裁楊先聲在接受采訪時,用這個空間格局描述他對整個行業當下處境的判斷:機器人正在經歷一場全行業的數據質量挑戰,而突破困境的關鍵,恰好就是高精度的空間感知硬件。相比外界熟悉的激光雷達標簽,這家公司正在試圖回答一個更底層的問題:當機器人真正進入千行百業之后,如何來更好定義機器人的感官系統?
01.
學術側的世界模型遭遇天花板
過去兩年,具身智能的學術前沿有過一段高度樂觀的時期。VLA、世界模型、具身大模型,這批概念在2024年前后密集出現,描述的是同一個愿景:給機器人一個足夠大的模型,用足夠多的數據喂養它,它就能泛化到現實世界的各種場景。
但這個愿景正在遭遇一道物理層面的墻。MIT教授Luca Carlone在ICRA 2026的主旨演講中就提出,真正支撐機器人長時程自主能力的,是能提供可執行的語義理解與空間記憶的感知系統。因為模型解決的是機器人知道該做什么,感知系統解決的是知道周圍發生了什么,后者決定前者是否成立。
這個判斷,本質上是在說,世界模型的訓練瓶頸,不在算力,不在模型結構,而在數據。因為很多人忽略了世界模型的基礎究竟是什么?答案并不是模型本身。而是世界。或者更準確地說,是關于真實世界的數據。無論是語言大模型還是世界模型,本質上都建立在數據之上。大語言模型依賴互聯網文本,視覺模型依賴海量圖像,而世界模型則依賴機器人對于真實物理世界的持續觀察、記錄與理解。問題恰恰出現在這里。
然而,一個眾所周知的問題是,語言數據在互聯網上已經無比豐富,圖像數據同樣如此。但機器人訓練需要的,不是圖片,而是真實物理世界的高精度三維空間數據,包含深度信息、物體姿態、運動軌跡,以及各種光照和遮擋條件下的穩定感知結果。這類數據,目前全球幾乎是空白。
速騰聚創楊先聲在ICRA現場說的話很直白:大量做機器人訓練的終端客戶,看了現有純視覺方案采集的數據之后,發現根本無法滿足訓練需求。視覺方案可以采集圖像,但圖像沒有深度,沒有精確的三維結構,在光線變化、反光材質、遮擋等場景下頻繁失效,用這樣的數據訓練出來的模型,泛化能力極為有限。
![]()
今年ICRA會場里密集出現數據采集公司,正是因為整個行業在同一時刻意識到,模型的天花板最終仍然受制于感知能力與數據質量。世界模型的下一步,取決于誰能生產出可用的三維空間訓練數據。而這件事的前提,是擁有足夠好的感知硬件。
這是學術側拉動感知需求的第一根弦。因為世界模型本質上是在模擬世界,而不是創造世界,這就越依賴真實世界數據。
世界模型越火,感知反而越重要。或者換句話說,世界模型的研究,正在把感知重新推回舞臺中央。
02.
機器人進入真實世界的物理關卡
另一根弦,來自機器人落地現實時撞上的物理墻。
如果說世界模型代表的是技術邏輯,那么機器人落地則代表產業邏輯。
過去十幾年,機器人產業的大部分應用場景其實都屬于典型的結構化環境。工業機器人面對固定工位,倉儲機器人面對固定路線,環境可預測、變量可控制。因此感知系統的重要性長期被低估。
機器人不需要真正理解世界,只需要適應被提前定義好的世界。但隨著具身智能興起,情況開始發生變化,人形等更多類型的機器人正在走出工廠,進入倉庫、進入商超、進入醫院、甚至進入戶外開放環境和家庭。
而真實世界最大的特點,就是不可預測。光照會變化、地面會變化、物體會變化、人會變化、任務本身也會變化。于是一個新的矛盾開始出現。機器人已經越來越會運動,卻依然很難穩定完成任務。
這也是為什么近年來越來越多具身智能挑戰賽開始強調開放環境、自主決策和真實場景驗證,因為行業已經意識到,機器人真正需要解決的問題,不再是完成一個預設動作,而是在復雜環境中持續理解環境、理解變化并作出正確決策。
從某種意義上說,機器人產業正在遭遇屬于自己的感知危機。因為過去依靠結構化環境掩蓋的問題,如今正在開放環境中被徹底暴露出來。因為機器人的每一次抓取、每一次操作,都是一次感知系統與物理世界的直接交互。
![]()
速騰聚創楊先聲在采訪中用智能駕駛和機器人的對比,給出了一個可以量化的感知鴻溝,他指出,車載激光雷達在100米距離可以實現5到10厘米的深度精度,這對自動駕駛是夠用的。但機器人面對的精細操作任務,需要毫米級精度,差一個量級。如果用當前的雙目、結構光、iToF相機傳統傳感器方案來做機器人操作,情況更糟,因為沒有一顆傳感器可以做到又穩定,測距又遠,精度又高、時延又低。這本質上是當前傳感器技術路線的系統性約束。
這道關卡帶來的問題,在今年ICRA會場上隨處可見。大量演示中的機器人能做精細任務,但速度極慢,效率遠低于人類,例如扎氣球、分揀零件、操作工具,每一個動作都充滿遲疑。
楊先聲的判斷是,本質上是感知能力在物理層面的上限太低,導致算法系統要在不確定性中反復估算和試探。感知硬件提供立體空間信息越好,算法需要猜的東西就越少,操作效率才有可能接近人類水平。
這是產業側拉動感知需求的第二根弦。
03.
兩條路徑交匯的地方
學術需要數據,產業需要穩定落地,這兩根弦在同一個位置產生共振,那就是機器人行業需要一套高精度、高可靠性、可量產的三維空間感知基礎設施,而這套東西今天并不存在。
速騰聚創在ICRA展示的,正是他們認為可以填補這個位置的技術方向。
速騰這次在ICRA展臺展示的新一代感知系統,核心是把深度探測與RGB在物理層面做深度融合,這不是兩套傳感器各自工作、后端做算法對齊,而是在硬件層面讓深度信息和顏色信息天然同步,從物理源頭解決對齊問題。
大講堂認為,其核心的工程價值在于,這套方案輸出的不是兩路異構數據,而是直接同步的RGB-D信息,帶顏色的三維點云,后端不需要做反算,大幅降低算力消耗,也消除了傳統雙傳感器方案在標定和時間對齊上的累積誤差。
這不是第一次迭代。從去年的H1、H2,到今年ICRA展示的這套新架構,速騰聚創走的是一條持續收斂的技術路線,那就是朝著“既能測得遠,又不受環境光影響,精度足夠高,分辨率足夠大”的方向逼近。
支撐這條路徑的底層,是他們自2023年前后全面推進的自研SPAD-SoC芯片技術。SPAD可以在單光子級別完成數字化采樣,集成度可以做得極高,在這套架構下,做幾百線甚至千線的高分辨率三維點云,從工程上變成了可行的事情。
![]()
對于機器人而言,這意味著獲取的不再是碎片化的數據,而是完整的空間。對于世界模型而言,這意味著輸入的不再只是圖像,而是數字世界。對于整個產業而言,這意味著機器人感知開始從“多個傳感器協同”邁向“統一空間感知系統”,這是在重新定義機器人感知系統的產業形態。
從自研SPAD-SOC芯片,到此次在ICRA展示的新一代空間智能感知系統,速騰的底層邏輯始終一致,那就是構建機器人獲取真實世界信息的入口,向機器人感知基礎設施公司進階。
04.
誰有機會定義下一個時代?
如果說2024年是具身智能元年。2025年是世界模型元年。那么2026年很可能會成為機器人感知基礎設施元年。
因為越來越多企業開始發現,機器人最終并不是活在模型里,而是活在真實世界里;世界模型也不是憑空產生的,它建立在持續不斷的環境感知、空間理解以及真實世界數據采集之上。
ICRA 2026最值得關注的變化,或許并不是又出現了哪個新的模型框架,也不是哪個機器人完成了新的炫酷演示,而是整個行業正在集體意識到,機器人產業的下一場戰爭,未必首先發生在大腦之間,更有可能率先發生在感官之間。
過去十年,自動駕駛產業證明了,誰掌握數據入口,誰就掌握未來。而未來十年的機器人產業,也許正在驗證一件事類似的事情:誰掌握機器人的高質量數據,誰就有機會定義機器人的世界。
從這個意義上看,速騰聚創在ICRA展示的或許不僅是一套新的感知系統。更是在提前爭奪具身智能時代最關鍵、也最容易被忽視的一張入場券。
05.
結語與未來
機器人感知的終局形態,今天沒有人能給出確定答案。但有一件事,正在被越來越多人意識到,那就是無論世界模型訓練到什么程度,無論算法迭代得多快,感知系統作為機器人與物理世界之間的唯一接口,始終是整個系統物理能力的上限。
模型可以升級,算法可以迭代,但傳感器感知到什么程度,決定了機器人最終能做什么。
兩股力量正在把這個問題推向產業競爭的中心。感知基礎設施的爭奪,正在成為具身智能時代真正意義上的底層戰場。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.