无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

從第一性原理看機器人AI:為什么它比大模型更難?

0
分享至


來源:機器之心

過去幾年,機器人行業最常見的高光時刻,幾乎都發生在演示視頻里。

一臺機械臂聽懂指令,伸手拿起杯子;一個人形機器人走進廚房,把雜物收回原位;它可以疊衣服、拉抽屜、倒咖啡,甚至在陌生房間里完成一連串看似自然的動作。

這些畫面很容易讓人產生一種錯覺:機器人已經開始像人一樣理解世界了。

但如果把問題拆到最底層,答案反而樸素得多。

這篇來自 Interlatent(一家聚焦具身智能后訓練與部署的早期創業公司) 的文章,試圖從第一性原理出發,把現代 AI 機器人技術重新講清楚:一個機器人到底如何理解世界,如何生成動作,又為什么會在數據、延遲和泛化上遇到如此多的困難。

文章給出的切入口非常簡單:先把機器人控制問題,看成一個函數。

有一種看似簡單、但相當準確的方式,可以用來描述 physical AI 到底在做什么。任何有 STEM 背景的人,應該都能直觀理解。和其他所有 AI 模型一樣,控制機器人的模型本質上也是一個函數。它接收觀測作為輸入,比如攝像頭像素、關節角度、夾爪感受到的阻力等等;然后輸出動作,也就是電機下一步的位置和力矩。除此之外,所有復雜的算法、訓練方法和數據擴展理論,都是為了得到這個函數的一個足夠好的版本,并把它寫入神經網絡的權重之中


機器人策略本質上是一個函數。觀測從左側不斷輸入,網絡對其進行處理和細化,隨后一組動作指令從右側輸出,對應機械臂每一個關節,也就是它的每一個自由度。這個領域中的其他一切,都是為了讓這一個函數變得足夠好、足夠快

如果你曾經訓練過一個將輸入映射到輸出的模型,就已經能夠理解這個問題的大致形態。真正有意思的地方在于:當你把這個熟悉的問題形態,放進一個不斷運動、不斷響應的真實世界里,會發生什么。


文章地址:https://interlatent.com/blog/interlatent-modern-ai-robotics-first-principles

秘方,以及打破它的維度

有兩個核心要素可以提升這一功能的質量:算力與數據。數據是機器人智能的原始燃料,來自真實世界的物理規律如同未經加工的礦石一樣蘊藏其中。而算力則通過矩陣乘法,訓練該功能去嵌入從數據中挖掘出的這些規律。

這聽起來就像是普通的機器學習,而且在相當長一段時間里,你確實可以把它假想成普通機器學習。然而,機器人技術引入了傳統機器學習從未需要面對的第三個軸向:推理時間。一個大語言模型可以花上3 秒鐘去思考下一個 Token,而不會對任何人造成傷害,但一臺正在倒咖啡的機器人絕對不行。此時咖啡杯已經在移動,動作必須在事件發生的過程中同步生成。該功能不僅需要保證正確,還必須足夠快,快到當答案送達時,其「 正確性 」依然具有實際意義。當你的模型還在思考時,物理世界依然在持續運行,這導致機器人領域不得不做出一些既艱難又有趣的抉擇。

將大腦一分為二

最自然的第一反應,是訓練一個巨大的模型,讓它直接從觀測映射到動作。但在實踐中,這個領域逐漸走向了一種更有意思的方案。現代機器人模型通常被分成兩個部分:一個負責理解,一個負責行動。

其中的主干通常是一個大模型,典型形態是視覺語言模型(VLM)。它與 GPT-5 或 Gemini 在同時理解語言和圖像時所使用的模型屬于同一類。由于它已經在海量互聯網圖文數據上完成訓練,因此某種程度上已經「知道」世界是什么樣的。比如,無論顏色如何,杯子都是杯子;把東西收起來,意味著把它放回一個合理的位置。它承載著一種關于世界外觀和運行方式的學習表征。這個部分更像一個緩慢、審慎的規劃者,負責理解環境。

與之相連的,則是一個小得多的動作專家:一個快速模型,它唯一的任務,就是接收主干模型形成的理解,并將其在實時場景中細化為平滑的電機控制指令。NVIDIA 于 2025 年發布的人形機器人開放基礎模型 GR00T N1,就明確采用了這種拆分方式。它的 System 2 VLM 負責對場景進行較慢、更審慎的推理,而獨立的 System 1 模塊則近乎本能地生成實際動作,兩者被緊密地聯合訓練在一起。Physical Intelligence 的 π? 也采用了同樣的架構:一個負責理解的 VLM,加上一個負責行動的小型動作頭。這就構成了所謂的視覺語言動作模型(Vision-Language-Action model,VLA)。


視覺語言動作模型是一個由兩個相互耦合部分組成的網絡。大型 VLM 主干負責讀取圖像、語言和機器人狀態,并形成對場景的理解。小型動作專家則接收這種理解,從噪聲出發,在一次前向傳播中將其細化為一個動作塊:也就是一小段未來動作序列。

因此,我們從一個單體式的巨大函數,走向了兩個模型之間的協作:一個模型負責保存對世界的圖景,另一個更小的模型則負責把這幅圖景轉化為動作。

動作到底是怎么生成的?

接下來要問的是:這個函數究竟以什么形式輸出動作?答案主要有兩種,而這個領域的發展史,很大程度上就是從第一種走向第二種的過程。

第一種是離散式的:動作頭一次只生成一個動作。模型先觀察,輸出一條單步指令,執行之后再重新觀察。早期系統大多是這樣工作的。它直觀,也適合一些較簡單的問題,但速度太慢,而且小錯誤會不斷累積。每一個細微失誤,都會把機器人推向一個比訓練時見過的情況稍微陌生一點的狀態;下一次預測就會更差,再下一次還會更差。最終,機器人會逐漸偏離自己的能力邊界,導致任務失敗。

第二種是動作分塊,也就是模型一次性預測一小段未來動作序列,然后把它作為一個平滑的整體執行,之后再重新查詢模型。這個想法由斯坦福 Tony Zhao 及其合作者在 2023 年提出,名為 Action Chunking with Transformers(ACT)。它的名字借用了心理學中的「chunking」概念,指的是人類會把一連串細小動作組合成一個流暢動作。ACT 帶來了重要改進:它只需要大約十分鐘的示教數據,就能學會一些對精度要求很高的任務,比如打開半透明調料杯,或者把電池插入卡槽,成功率達到 80%–90%。預測一個動作塊,可以縮短任務的有效長度,也能緩解單步預測中反復出現的誤差累積問題。


在離散模式下,機器人一次只預測一步,小錯誤會不斷累積,最終讓它逐漸偏離自己的能力邊界。而在動作分塊模式下,機器人會一次性確定一小段動作序列,因此能夠始終緊貼預定路徑。

現代機器人學的許多思路,其實都在模仿人類行為。人類不會一次只思考一個微小動作,然后再執行它。我們是在連續流動的動作中一邊移動、一邊思考。現代機器人追求的正是這種連續、分塊的動作生成,讓動作之間沒有僵硬停頓,看起來更像一個活物,而不是一具被牽動的木偶。

當前生成這種平滑動作塊的前沿方法叫做流匹配。這是一種通過擴散過程,將帶噪聲的潛變量逐步細化為連貫軌跡的技術。π? 和 GR00T 中的動作專家,都是從噪聲出發,迭代地將其細化成一條連貫軌跡。這與現代圖像生成器所使用的是同一類技術,只不過這里生成的不是像素,而是動作。

大腦應該放在哪里:邊緣端還是云端?

一旦有了這個函數,就必須決定把它運行在哪里。這里會出現一個核心取舍:可用算力與延遲。

你可以把模型放在邊緣端,也就是直接運行在連接機器人的計算機上。這樣延遲幾乎為零,當然前提是模型能夠裝進邊緣設備。這非常適合物理世界中的實時控制,但你會受到機身可搭載硬件的限制,因此往往不得不把模型壓小。

也可以把模型放在云端,把重計算任務交給強大的服務器,再通過互聯網把動作指令傳回機器人。這樣可以運行更大的模型,但每一個動作都必須經過一次網絡往返,此時延遲就會成為敵人。

這個約束到底有多緊?以 π?.? 為例。在高端 GPU 上,它完成一次完整的感知與動作循環大約需要 274 毫秒,其中約 80% 的時間都花在迭代式流匹配細化上。而在一個以 3Hz 控制循環運行的小型邊緣設備上,每個周期總共只有約 330 毫秒,感知和動作生成都必須在這段時間內完成,幾乎沒有任何余量。

這正是整個領域必須面對的核心問題:云端能給機器人更大的大腦,邊緣端能給機器人更快的大腦。但你不能讓「思考」與「行動」之間的間隔變得太長,否則等機器人想清楚時,真實世界早已發生了變化。



在邊緣端,模型直接在設備上運行,不經過網絡,但由于加速器性能較弱,所以計算耗時更長。切換到云端后,更強的 GPU 會縮短計算時間,但現在每一個動作都要經過一次網絡往返。把網絡往返延遲往上拖動,你就會看到總耗時超過 330 毫秒的截止線。

數據瓶頸

和許多深度學習問題一樣,機器人學也受困于數據。但對機器人學來說,真正麻煩的地方尤其在于數據的多樣性。

最豐富的機器人數據來自遙操作:由人類一遍又一遍地操控機器人完成某項任務。專家示教通常能夠穩定地產生優秀策略,但它很難規模化。每一小時數據都意味著一小時的人類勞動成本;在某些情況下甚至需要更多,因為示教質量本身很重要。更糟的是,每一種機器人、每一種夾爪、每一個實驗室,往往都會產生一套彼此不兼容的小型數據集。GR00T 團隊很貼切地把這種狀況稱為由一個個「數據孤島」組成的群島,而不是一片統一、連貫、互聯網規模的數據海洋。

這與 AI 其他領域的發展路徑形成了對比。在其他 AI 領域,關鍵魔法往往是一樣的:把問題轉化為可以用計算規模化解決的形式。比如,語言建模之所以能夠擴展,是因為文本數據極其豐富,而且可以相對通用地互換使用。機器人學沒有類似的數據洪流。因此,這個領域分化出了兩種策略,用來制造那些無法簡單收集到的數據。

策略一:模擬世界

如果無法從真實世界中收集到足夠多的數據,那就構建一個假的世界,讓機器人在那里免費練習。這正是世界模型和仿真發揮作用的地方。準確地說,仿真是一個更寬泛的概念,指任何能夠足夠好地建模世界、以便在其中練習的系統。世界模型則是一種神經網絡:給定當前狀態和一個動作,它會預測世界接下來會變成什么樣。它學習行動帶來的后果,通常會通過圖像等媒介來表達;更關鍵的是,它從觀察中學習物理規律,而不是依賴人工編寫的規則,因此能夠捕捉目標環境中重要的動態特征。

2025–2026 年,這一方向的關鍵躍遷來自 Google DeepMind 的 Genie 3。它是一個世界模型,只需要文本提示,就能實時生成完全可交互、可導航的 3D 環境,并根據此前幀來預測每一幀。它對機器人學的意義顯而易見:可以提供無限、廉價的訓練場景,包括那些你絕不會想在現實中搭建的危險邊緣案例。Waymo 走的正是這條路線,構建了 Waymo World Model,用來生成同步的攝像頭與激光雷達駕駛場景,其中包含真實車輛幾乎很少遇到的罕見情況。NVIDIA 也發現,在 GR00T 的訓練中混入合成數據,相比只使用真實數據,性能提升了 40%。這個方向的愿景,是把數據問題轉化為計算問題。一旦做到這一點,機器人學就能繼承 AI 其他領域已經享受到的所有優勢。

策略二:向日常生活中的人類學習

第二種策略更隱蔽,在我們看來也更優雅。最具規模化潛力的機器人數據收集器,其實是戴著眼鏡的人,而非機器人。

Meta 的 Ego4D 等項目,以及 Project Aria 眼鏡,徹底重構了這個問題。Ego4D 收集了超過 3000 小時的人類第一視角視頻,記錄的是人們完成日常事務的過程。佐治亞理工的一套系統 EgoMimic 對這一點概括得很準確:當你看到一個龐大的人類第一視角數據集時,你看到的本質上也可以是一個龐大的機器人數據集,只不過它是由人們在日常生活中被動生成的。

你戴上眼鏡,照常生活,就已經在以人類生活本身的規模生產操作數據。那項工作中最引人注意的發現是:額外增加一小時人類手部數據,對機器人的提升效果,超過額外增加一小時機器人數據。

因此,相比需要專門投入人力的遙操作,第一視角數據收集承諾了一種更低額外成本的大規模數據路徑。

訓練

有了架構和數據之后,怎樣才能真正造出一個有能力的機器人?答案是分階段完成,每個階段都有不同目標。


能力是在一個個階段中建立起來的,每一層都建立在前一層之上。

預訓練負責塑造 VLM 主干。你向它輸入海量關于空間推理以及世界一般運行方式的數據,目標是讓它建立起對物理世界的理解和推理能力。

中期訓練負責創建動作專家。目標是得到一個在幾乎任何配置下都能大致工作的「大腦」,它能夠把自身理解轉化為各種動作,并適配多種不同類型的機器人。這需要大量來自不同環境、不同機器人形態的數據。

后訓練,也就是微調,則是把這個通用大腦調適到某個具體身體和一小組具體任務上。比如,把一個通用模型專門適配到某個雙臂機器人系統上,它就能在這種具體形態下開箱即用,并取得還不錯的效果。這個階段,真實世界數據的價值會真正體現出來:遙操作數據和第一視角數據,往往最能直接轉化為現實表現。

部署訓練的目標,是讓機器人適應某一個具體環境,直到它在那里真正安全、真正有用。這正是「能在演示里工作」和「能在你家廚房里工作」之間的差距。許多看起來很驚艷的系統,最后都會在這里悄悄失效。π?.? 之所以有意思,正是因為它試圖縮小這道鴻溝:它被設計用來清理訓練中從未見過的家庭廚房和臥室。它經常能做到,雖然并不完美,但已經能看到一絲類似人類進入陌生房間時所展現出的應變能力。

讓機器人自我教學

但這一切都有上限。一個只靠示教訓練出來的機器人,最多也只能變得和示教一樣好。它學會的是理想路徑,卻沒有學會如何從自己的錯誤中恢復,因為它從未真正見過這些錯誤。這就像只看完美駕駛視頻來學開車一樣:一旦第一次轉錯彎,就會手足無措。

出路在于像人類一樣學習:練習,并接受批評。這就是強化學習:讓機器人嘗試,對結果打分,再強化那些有效的行為。問題在于,你不可能在每一個時刻都監督機器人,也不可能為每一種可能情況都提供樣例。而在真實世界中,不同于模擬器,每一次嘗試都是串行的、緩慢的,還需要人類重新布置場景。因此,物理世界中的強化學習會變得非常困難。

另一種辦法是引入人類干預,這同樣被證明很有用。當機器人進入糟糕或不安全的狀態時,人類可以中斷推理過程,并把它帶回到更好的狀態。這也催生出一系列基于人在回路的學習算法,例如 HIL-SERL。

最近最生動的示范,是 Physical Intelligence 的 π*?.?。它采用了一種名為 RECAP 的訓練方法,把人類掌握一項技能的完整過程編織在了一起:指令學習,也就是觀看示教;指導糾錯,也就是人類遙操作員實時介入,糾正錯誤,并教會機器人如何恢復;以及自主練習,也就是機器人獨立嘗試任務,成千上萬次地執行,對自己打分,并保留有效的做法。

其中還有一個巧妙設計:流匹配模型無法直接使用標準強化學習機制,因此 RECAP 轉而教會模型區分好動作和壞動作,并在部署時直接要求它生成「好」動作。結果是,在疊衣服、制作濃縮咖啡等困難任務上,機器人吞吐量大約翻倍,失敗率降低一半甚至更多,并且能夠幾乎不間斷地運行一整天的咖啡站。

因此,自我改進算法正在解決機器人性能上的關鍵瓶頸,尤其是在泛化能力方面。

閱讀最新前沿科技趨勢報告,請訪問21世紀關鍵技術研究院的“未來知識庫”


未來知識庫是 “21世紀關鍵技術研究院”建 立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。


截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告

(加入未來知識庫,全部資料免費閱讀和下載)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中足聯官宣重磅罰單!52歲于根偉禁賽5場罰5萬 辱罵+率隊圍堵裁判

中足聯官宣重磅罰單!52歲于根偉禁賽5場罰5萬 辱罵+率隊圍堵裁判

我愛英超
2026-07-02 22:05:30
早上7點 世界杯14億大戰!C羅深陷20年魔咒 必有1巨星出局

早上7點 世界杯14億大戰!C羅深陷20年魔咒 必有1巨星出局

葉青足球世界
2026-07-02 17:12:02
一路走好!1天時間4位名人被曝去世,最大78歲,最小才30歲

一路走好!1天時間4位名人被曝去世,最大78歲,最小才30歲

借你一生
2026-07-02 10:26:03
成田機場的一張廣告牌,讓日本攝影師恍惚:“瞬間以為回到了中國”

成田機場的一張廣告牌,讓日本攝影師恍惚:“瞬間以為回到了中國”

東京在線
2026-07-02 16:57:07
里子面子都丟了!管不住下半身的任素汐,一場演唱會撕下她的體面

里子面子都丟了!管不住下半身的任素汐,一場演唱會撕下她的體面

往史過眼云煙
2026-07-02 09:55:26
首都保衛戰打響后,普京發表全國講話,俄羅斯對美西方發出通牒

首都保衛戰打響后,普京發表全國講話,俄羅斯對美西方發出通牒

策前論
2026-07-02 17:21:49
“一個月600塊你要餓死他?”大學男生吃飯被偷拍,看的人心疼!

“一個月600塊你要餓死他?”大學男生吃飯被偷拍,看的人心疼!

林林先生
2026-07-01 12:30:03
從699分到愛心接力:少年向上 社會向善丨中聽

從699分到愛心接力:少年向上 社會向善丨中聽

大象新聞
2026-07-01 16:30:12
六代機,就這么明晃晃的官宣了!

六代機,就這么明晃晃的官宣了!

新動察
2026-07-02 08:25:58
韓紅一句“走個面兒”引全網聲討,這屆觀眾不伺候了

韓紅一句“走個面兒”引全網聲討,這屆觀眾不伺候了

可達鴨面面觀
2026-07-02 19:44:03
曝38歲德國主帥下課 足協開會3小時要求他辭職 愿付700萬歐補償金

曝38歲德國主帥下課 足協開會3小時要求他辭職 愿付700萬歐補償金

我愛英超
2026-07-02 21:40:07
80%變0!里奇·保羅曝光詹姆斯離湖心路

80%變0!里奇·保羅曝光詹姆斯離湖心路

籃壇第一線
2026-07-02 00:47:17
地鐵吐血女孩半月內多次收到病危通知單,當事人:自己的生命已經進入倒計時,但還是希望能夠有人關注到自己手里仍在運行的公益項目

地鐵吐血女孩半月內多次收到病危通知單,當事人:自己的生命已經進入倒計時,但還是希望能夠有人關注到自己手里仍在運行的公益項目

瀟湘晨報
2026-07-02 16:32:20
賈玲直言自己又活過來了,大方承認體重反彈了,坦言不再逼自己極端自律,活得太通透了

賈玲直言自己又活過來了,大方承認體重反彈了,坦言不再逼自己極端自律,活得太通透了

背包旅行
2026-07-02 11:45:23
西安賽格墜樓熱搜刷屏:我看到謀生的嚴總,走上絕路時的無助

西安賽格墜樓熱搜刷屏:我看到謀生的嚴總,走上絕路時的無助

李晚書
2026-07-02 18:44:26
故意剝奪伊朗隊勝利!伊朗裔美國專家起訴國際足聯,索賠10億美元

故意剝奪伊朗隊勝利!伊朗裔美國專家起訴國際足聯,索賠10億美元

全景體育V
2026-07-02 21:38:20
成都一女子不洗手抱孫子,兒媳怒斥不衛生,兒子一拳打面中,母親揚言要兒子坐牢,兒子卻說:她活該!6年后現狀曝光...

成都一女子不洗手抱孫子,兒媳怒斥不衛生,兒子一拳打面中,母親揚言要兒子坐牢,兒子卻說:她活該!6年后現狀曝光...

背包旅行
2026-07-02 14:33:11
中國臺灣演員陳昊森承認與湖北女演員蘭西雅相戀,目前已交往超過半年,兩人曾合作電影

中國臺灣演員陳昊森承認與湖北女演員蘭西雅相戀,目前已交往超過半年,兩人曾合作電影

極目新聞
2026-07-02 22:47:55
加息,突變!美國重磅數據出爐!美股、黃金、比特幣全線拉升

加息,突變!美國重磅數據出爐!美股、黃金、比特幣全線拉升

證券時報
2026-07-02 21:53:03
扎哈羅娃:馮德萊恩是個“出色的騙子”

扎哈羅娃:馮德萊恩是個“出色的騙子”

參考消息
2026-07-02 14:14:08
2026-07-03 02:28:49
人工智能學家 incentive-icons
人工智能學家
人工智能領域權威媒體
4864文章數 37483關注度
往期回顧 全部

科技要聞

馬斯克不承認,但SpaceX就該造AI手機

頭條要聞

商戶在西安賽格商場墜亡 好友:他曾變賣門店發工資

頭條要聞

商戶在西安賽格商場墜亡 好友:他曾變賣門店發工資

體育要聞

韓國人,為什么恨透了洪明甫?

娛樂要聞

眾星祝福祖國,曾沛慈原形畢露?

財經要聞

千億茶市場無贏家:瀾滄巨虧 八馬停"蹄"

汽車要聞

有純電有增程 還有二代VLA支持 小鵬MONA L03預售價14.38萬起

態度原創

健康
教育
藝術
時尚
數碼

這4類消化病患者 吃粘食管住嘴

教育要聞

初二期末只在校內第120名、第125名,四年后在全省站到了狀元榜眼

藝術要聞

一念天堂,一念地獄:你的心是什么樣,世界就什么樣

這個夏天,你一定吃過她們的瓜

數碼要聞

卓威同步發布XQ2766X顯示器:27" QHD 360Hz TN

無障礙瀏覽 進入關懷版