![]()
![]()
![]()
閱世如閱卷,下筆有錦書
在這里,聽見中國走向世界的號角贊
特斯拉 Optimus 產線停擺的消息,剛刷爆科技圈。這家曾把人形機器人吹成未來十年核心賽道的公司,直接封存了千余臺下線機型。火了三年的人形機器人行業,到底為啥連一杯水都端不穩?
這一波人形機器人的熱潮,起點是 2023 年 7 月谷歌推出的 RT-2 模型。不少人只看到機器人跳舞的酷炫鏡頭,沒看懂這是行業的真正拐點。
![]()
之前控制機器人要么靠提前寫代碼,要么靠遙控器一步步指揮,而 RT-2 讓機器人只要看畫面、聽指令,就能自己完成動作,比如把香蕉放到德國國旗上。
RT-2 的 VLA 模型思路,很快點燃了全球科技圈。伯克利、斯坦福、豐田聯合推出 OpenVLA,創業公司 Physical Intelligence 的 Palm 更是把技術開源,大幅降低了入門門檻。
![]()
資本聞風而動,一場針對人形機器人的大躍進正式開啟。但這場沖鋒很快撞上了南墻。人形機器人的核心卡點,從來不是算法,而是數據。
目前主流的數據采集有三種方式:真人戴 VR 設備同步動作、攝像頭記錄手部動作、虛擬環境模擬。但每一種都有致命缺陷。
![]()
真人采集效果最好,但速度極慢。訓練一個機器人需要百萬小時的多樣性物理數據,真人一天能采集的量微不足道,猴年馬月才能湊夠?
靠攝像頭拍手部動作?人的手腕手指有 20 多個自由度,機械臂根本達不到那么靈活,拍了也白拍。
![]()
虛擬環境再逼真,也復刻不了真實世界的摩擦力、關節磨損這些細節。仿真里跑通的動作,放到現實里就抓不住杯子,根本沒法用。
好不容易攢夠了數據,又碰上了另一個死穴:機器人沒辦法泛化。
![]()
在 A 工廠訓練好的機器人,換到 B 工廠的地板材料變了、光照不一樣,就連開門都打不開。同一個公司的兩只機械手,換一下都可能失靈。
工業界甚至有個玩笑:今天拍的開冰箱視頻,明天換個冰箱就識別不出來。面對這些死穴,行業分成了三路人馬。
![]()
目前只有五家大廠能玩這個游戲:英偉達、OpenAI、谷歌 DeepMind、字節、阿里。英偉達甚至推出 WAM 模型,把技術研究推到了新高度。
![]()
第二路是學者們提出的新范式。以楊立坤、李飛飛為代表的頂級學者,直言大語言模型只是 “猜下一個詞” 的概率游戲,根本不懂真實世界。
他們主張放棄海量數據堆料,讓 AI 主動理解世界,用小數據實現高效學習。
![]()
第三路是創業者們的細分破局。他們不跟大廠搶算力,也不跟學者搞理論,而是扎進具體問題里死磕:
有人專攻機械手,把自由度做到極致;有人降低數據采集成本;有人放棄全人形機器人,先專攻餐具收納這類單一家務。
![]()
即便各路高手各顯神通,距離造出能當保姆的人形機器人,還有極其遙遠的距離。行業內部評估,目前整體進度大概只有 0.2%。
馬斯克曾說特斯拉 80% 的市值來自人形機器人,2025 年計劃生產 5000 臺 Optimus,到年中只造出 1000 多臺就停了產線,這也是整個行業的縮影。但這場探索并非全無收獲。
![]()
動作捕捉技術原本只用于影視游戲,如今因為機器人熱潮變得更快更成熟。AI 生成視頻的質量飛躍式提升,背后就是大廠卷世界模型的功勞。
自動駕駛的決策邏輯也變得更成熟,多虧了世界模型對真實世界的理解。
![]()
更不用說機器人核心零部件的成本被大幅壓縮,伺服電機從幾千元降到幾百元,減速器、傳感器的性能提升、價格下降,讓工業機械臂、智能倉庫的門檻大幅降低。
人形機器人就像登陸火星,看起來遙不可及,但探索的過程會倒逼整個科技行業進步。
![]()
游戲、自動駕駛、硬件制造這些領域,已經率先嘗到了甜頭。與其嘲笑人形機器人還很雞肋,不如看看它到底能帶我們走到哪一步。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.