![]()
不少人調侃,人形機器人的核心技術,藏在 “屁股” 里不是機器人的臀部,而是行業最容易被忽略的基礎環節。
2025年特斯拉Optimus當眾摘下眼鏡仰頭倒地的畫面,直接把人形機器人的行業遮羞布扯了下來。
吹了三年的科技熱潮,到底是即將落地的革命,還是資本吹起的泡沫?我們離真正能幫著做家務的人形保姆,還有多遠?
![]()
2023年7月谷歌DeepMind推出RT-2模型時,不少人覺得只是花架子,看機器人跳舞而已。但內行能看懂,這是行業的轉折點。
它第一次實現了 “看懂畫面、聽懂指令就干活”,比如聽到 “把香蕉放到德國國旗上”,機器人能直接完成動作。
在此之前,控制機器人要么靠提前編程,要么靠遙控器手動操作,程序員要寫滿無盡的規則代碼。
![]()
谷歌這次用的VLA模型,把大語言模型的訓練邏輯用到了機器人上。
這之后全球科技圈都跟著這條路線走,直到2024年底創業公司Physical Intelligence發布的Perception,把門檻大幅降低,還開源了技術,直接點燃了資本的狂熱。
![]()
但熱鬧背后,行業藏著致命的硬骨頭。我們采集數據的三條路,全走不通。第一條真人動作捕捉,看似最精準,但太慢了。
真人采集動作的速度慢到離譜,還要審核修改,百萬小時的工作量,不知道要等到猴年馬月。
![]()
視頻捕捉,靠攝像頭記錄人手動作,但人手的自由度極高,機械手臂根本達不到人類手腕和手指的靈活度,就算有數據,也沒法復刻真實動作,等于白忙活。
仿真數據,用虛擬環境訓練機器人。但虛擬環境再逼真,也沒法完全復刻真實世界的物理細節。
比如地面摩擦力、關節磨損、材料差異,這些都會讓機器人在虛擬環境里表現正常,到了現實里直接失靈。
![]()
更殘酷的還在后面,就算好不容易收集到了靠譜數據,機器人還沒法泛化。
在工廠A訓練好的機器人,換到工廠B,僅僅因為地板材料不同,就可能抓不住東西。
![]()
同一個型號的機械手,換了同品牌的另一臺,可能就沒法完成同樣的動作。
不少從業者坦言,就算是同一套訓練數據,換個機械手就徹底失效,硬件的標準化程度差到離譜。
![]()
這一次人形機器人熱潮,本質是大語言模型突破帶來的僥幸,但大語言模型和機器人,根本是兩碼事。
眼下行業分成了三大流派,其中大廠和頂尖學者的路線分歧最明顯。
![]()
能做這件事的只有英偉達、OpenAI、谷歌 DeepMind、字節和阿里五家,因為需要的算力和電力成本極高。
![]()
而以圖靈獎得主楊立坤、斯坦福教授李飛飛為代表的頂尖學者,直接質疑當前的AI路線。
他們認為,當前的大語言模型只是靠預測下一個詞來輸出內容,根本不懂真實世界,就算砸再多錢堆算力,最多也就是讓AI的智力達到狗的水平。
![]()
他們主張放棄 “刷數據” 的路徑,讓AI主動理解世界,靠小數據精耕細作高效學習。
![]()
還有一群創業者,既沒有大廠的資金,也不像學者那樣閉門研究,而是專注解決具體的小問題。
有人專攻機器人的 “手”國內一家創業公司推出的12自由度靈巧手,已經在行業內廣泛采用。
2026年CES展上,新加坡一家中國創辦的公司推出的22自由度靈巧手,更是大放異彩。
![]()
有人盯著數據采集的成本,把真人動作捕捉的成本降下來,把效率提上去。
國內的光輪智能,就專注在仿真數據領域死磕,優化虛擬環境的真實度。
硅谷的RoadAI剛募了4.5億美元,試圖用互聯網數據訓練新的機器人模型。
還有人直接放棄全人形機器人,專攻細分場景。
![]()
比如Sundays公司只做家務機器人,先把收拾餐具這件事做到極致General List則專注組裝包裝產線,先替代一部分傳統機械臂。
這些創業者就像礁石上的各大門派,沒有大廠的聲勢,卻在啃下一個個具體的硬骨頭。
行業評估顯示,人形機器人的整體進度僅完成0.2%,我們至今還在第一關掙扎。但這并不意味著所有投入都是白費。
![]()
人形機器人熱潮帶來的溢出效應已經顯現,動作捕捉技術在游戲和影視里加速成熟,AI生成視頻的畫質和真實感大幅提升。
抖音里的AI短劇越來越常見自動駕駛的判斷邏輯更貼近人類常識,機器人核心零部件的成本被壓縮,工業機械臂的門檻越來越低。
這和人類登陸火星一樣,我們可能暫時到不了火星,但探索過程中催生的半導體、醫療、能源等技術,早已改變了我們的生活。
人形機器人還遠沒到 iPhone時刻,但每一次嘗試,都在推動科技往前邁一小步。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.