網易首頁 > 網易號 > 正文申請入駐

至簡動力賈鵬：用「極簡」架構，讓機器人20分鐘即達100%成功率

2026-03-18 11:04:26　來源: RoboX

北京舉報

分享至

人物簡介

賈鵬|至簡動力創始人兼CEO，曾任理想汽車智駕技術研發負責人，主導多項關鍵技術研發。此前在英偉達、IBM任職，經驗深厚。2025年他進入具身智能領域，創立至簡動力，提出創新架構，半年獲五輪20億融資。

在近日舉辦的GTC上，賈鵬以新身份首次深入剖析了具身智能通用能力與工業高要求之間的矛盾，并重點分享了至簡動力在基座模型上的突破性實踐——基于「大一統」的基座模型架構，其團隊已可實現在短短20分鐘內，實現下游任務100%的成功率。

骨感現實中的巨大鴻溝

在具身智能實際的落地過程中，存在一個巨大的現實鴻溝：目前具身智能的整體泛化能力比較差，尤其在靈巧操作任務上，幾乎沒有任何泛化能力可言，大多數場景中都存在落地難題。

為了制作Demo，大家往往會針對單一任務大量采集數據。可即便如此，很多精細操作任務的成功率也難以提高。與此相對的是，在工廠等應用場景中，只有達到100%的成功率，才能真正形成生產力，對用戶產生價值。

“通用能力的不足與用戶的高要求之間存在著巨大鴻溝，這也是具身智能發展至今仍未大規模落地的真正原因。”

賈鵬介紹稱，至簡動力（Simplexity Robotics）希望以極簡架構破解復雜難題——通過打造簡單統一的底層框架，致力于讓通用基座模型兼具「高泛化性」與「100%任務成功率」，跨越落地鴻溝，形成真正的工業生產力。

要想達成這一目標，需要在四個方面努力：

1、構建高上限的基礎模型；2、更高效的數據采集方式；3、確保模型能快速達到100%的成功率；4、實現端側的實時推理和訓練

他尤其指出，很多工廠對節拍和延時有非常高的要求，系統必須具備實時的推理能力。同時，很多工廠因為保密原因不允許接入外網，因此具身模型必須部署在端側，這極具挑戰。

三大技術流派的利與弊

賈鵬介紹稱，目前具身智能模型的技術路線并不收斂，行業內還存在路線之爭，主要分為以下三個流派：

1、雙系統范式：利用一個較大的VLM進行指令的理解和任務的拆解，再通過一個較小的、端到端的VLA模型做快速的執行。

2、端到端的VLA模型：它將指令理解、任務拆解以及動作生成合為一個整體，端到端地去完成任務。

3、世界模型：這是最近比較熱門的路線，它不再以傳統的VLM作為基礎，而是基于視頻生成模型或者是高斯潑濺生成模型，實現對世界的理解、預測以及動作的生成。

這三條路線都有各自的優勢和不足。

1、雙系統基于VLM對任務的拆解和調度，其優點是可以處理長程任務。但由于雙系統是由兩個不同的模型構成的，二者運行幀率不同，因此協同與聯合訓練都非常困難。

“事實上，我們團隊是全球最早提出并量產雙系統的團隊，因此踩過非常多的坑。”

2、端到端VLA模型普遍基于預訓練的VLM去做具身的指令微調。在此過程中，大家都發現災難性遺忘是不可避免的：第一是視覺能力的遺忘，第二是語言的思維鏈（CoT）能力的遺忘。

“行業已普遍認為視覺是具身智能中最重要的模態，那么一旦視覺識別能力下降，對靈巧操作的影響就非常大。因此，很多VLA模型訓練出來之后，泛化能力幾乎為零。”

3、世界模型相對于雙系統和端到端VLA，是一個巨大的范式變化——它從「以語言為中心」轉向「以視覺為中心」、從「以理解為主」轉向「以生成為主」。

不過，該方法同樣伴隨著語言中的幻覺問題。所以目前世界模型在靈巧操作上的性能并沒有超過VLA。同時它還有一個劣勢，就是對算力的要求非常高。

基座模型的「大一統」設計哲學

在此背景下，至簡動力認為，所有的模型設計都應追求結構簡單。隨著數據的增加，這種沒有太多人為先驗設計的結構，上限反而會更高。

首先賈鵬認為，具身基礎模型需要四種能力：

1、多模態理解與建構：它需要對語言指令、任務邏輯、3D空間及其時序變化以及本體自身的狀態進行統一的理解和建構，這意味著模型的輸入天生就是多模態的，而且多模態之間必須進行統一的建模和編碼，而非簡單的跨模態對齊。

2、閉環交互與多模態生成：模型在理解指令和任務的基礎之上，需要與世界進行交互，而這個交互一定是閉環的——動作會改變世界，同時世界的變化也會影響動作。這就意味著需要同時對世界的變化和動作進行聯合生成和預測，所以模型的輸出也是多模態的。

3、快慢思考：模型對實時性的要求非常高，所以其結構必須非常適合端側的推理。但僅僅是條件反射式的響應還是不夠的，它需要具備在關鍵時刻深入思考的能力，并且能根據工況自適應地調整思考的速度。

4、自我評估與調整：模型還需要具備對自身狀態作出評估的能力，并且根據評估的狀態調整動作的生成。

綜上所述，這樣的模型實際上綜合了雙系統、端到端VLA和世界模型的所有優點。“所以，未來通用的具身基座模型，一定是一個大一統的模型。”所謂「大一統」，是四個方面的一體化：

?多模態理解的一體化、多模態生成的一體化、快慢思考的一體化，以及策略（Policy）和價值（Critic）的一體化。

“我們心目的大一統模型，是只使用單一的Transformer網絡，就能實現多模態的理解和生成。但是對于我們至簡這樣的初創團隊來說，從零訓練一個原生多模態的模型是非常困難的。”

在此背景下，至簡破局的方法是采用MoT (Mixture-of-Transformer)架構。這是一種在已有模型之上實現原生多模態能力的架構，其核心思想是，讓不同的模態通過共享的attention層層實現跨模態的信息交互。

“它的輸入被統一為Token序列，不同模態保留獨立的QKV和FFN網絡，但是通過共享的attention層進行聯合建模。”

相比于從零訓練原生多模態模型，MoT的優勢在于它可以復用已有的單模態預訓練模型，成本非常低。此外，它可以靈活擴展新模態，便于靈巧操作的拓展。

同時，通過實踐，至簡團隊發現擴散模型在3D動作生成的效果上明顯優于自回歸模型。而由于MoT的不同子網絡可采用不同的訓練目標，所以它天然兼容了自回歸和擴散兩種生成方式。

至簡基座模型LaST?

賈鵬介紹稱，至簡動力的具身基座模型LaST?，將理解和生成合一，引入了高效的時空多模態CoT，將VLA和世界模型的優點結合在一起，在緊湊的隱空間中對物理世界進行建模和預測。

在隱空間（Latent space）中，LaST?會同時自回歸地預測二維圖像、三維點云以及本體的感知狀態，實現了多模態的思維鏈，獲得優秀的空間推理能力。同時，多模態的時空CoT也被擴展到未來的關鍵幀上，實現了時序上的預測和生成。

經過大規模的預訓練，MoT實現了在快慢系統的統一架構中自主切換，有效地實現了深度思考與快速響應之間的無縫交互，從而實現了更高的推理效率，并保證了高幀率、低延時的要求。

至簡團隊在仿真任務和真實場景上評估了LaST?的效率。結果顯示，在仿真和真實場景中，LaST?均實現了SOTA，大幅超越了之前的基座模型，同時比顯式的CoT方法實現了約14倍的加速。

在長程任務中，LaST?也具備很好的容錯能力，即使中間被故意打斷，它也能從錯誤中快速恢復。

「每個模態僅需一個Token」

“我們發現，2D視覺語義、3D空間結構以及機器人自身狀態都需納入考量——模態越豐富，精細操作成功率越高。由此，多模態建模產生的大量Token引發業界擔憂，因其或許會降低模型推理效率。”

但賈鵬指出，實際上，每個模態僅需一個Token，再增加Token也并不會顯著提高成功率。

“我們還發現，持續預測幀數越多，模型效果越好。不過，實際部署中，不同難度任務所需的預測時長不同。通過大規模預訓練，模型能自適應調整預測時長，以最佳推理速度完成任務，這實現了另一種形式的快慢系統。”

根據評估結果，LaST?在真實和仿真場景中均達SOTA水平，遠超之前基座模型，且比顯式CoT方法加速約14倍。長程任務中，LaST?容錯能力強，即便中間被打斷，也能快速從錯誤中恢復。

如何應對「災難性遺忘」？

在上文提到的「VLM具身微調的災難性遺忘」問題中，影響最大的是視覺能力的遺忘。可以發現，隨著VLM模型層數的加深，視覺特征會逐漸減弱甚至消失。

相比之下，MoT是個非常靈活的架構，可以將視覺特征注入到更深層的Transformer層中，大幅提升模型性能。

在評估實驗中，LaST?模型僅通過數十條數據就能實現煎雞蛋、盛爆米花，甚至使用筷子這樣復雜的操作。

其中一個案例展示是「3D樂高積木搭建」——先由人搭建積木，并故意遮擋攝像頭，不讓模型看到人是拼搭過程。之后模型會根據最終狀態和空白時的初始狀態，推理出整個搭建過程，并驅動機械臂復刻出相同的形狀。

“它有自己的思路，搭建過程可能跟人完全不同。我們通過語言的思維鏈描述搭建邏輯和過程，并最終通過動作生成實現積木拼搭。”

數據規模化的最佳方案

目前行業獲取數據有以下幾種方法：

1、合成數據：可以快速實現數據的規模化，但在柔性物體、可變形物體、透明物體和流體的模擬上存在不足，對觸覺、力覺的模擬上也有所欠缺，無法滿足落地的需求。

2、真機數據采集：真機采集和真實任務的Domain Gap是最小的，但是效率非常低下。

3、遙操作：這種半真機采集效率非常高，但其硬件往往需要末端執行器和真機保持一致，大大地限制了使用范圍。

4、Ego-centric數據：基于人類第一視角的視頻，數據來源非常廣泛。但實踐下來，此類數據質量并不高，在需要力、觸覺等精細操作的場景下，僅僅依靠視頻是不夠的。

至簡動力選擇的是便攜式手套進行數據采集。它既能保證數據采集的效率，也能保證數據的質量，同時還能很方便地擴展到更多的模態，比如說觸覺、力覺等等。

“我們認為這是目前數據規模化的最佳方案。這些數據不僅可以適配到不同形態的靈巧手上，同時也能適配到二指和三指夾爪上。”

針對垂直領域任務，高質量的SFT數據至關重要。在工廠落地場景中，傳統真機采集往往是不可行的。相比之下，便攜式數據手套不僅不影響正常作業，還能通過額外收益提升工人配合度。實踐證明，這種高精度的人手采集數據完全能滿足SFT對數據質量的嚴苛要求，顯著提升了模型在下游任務中的抓取精度與成功率。

強化學習

從99%到100%的最后一公里

如何讓一個通用模型在單一任務上實現100%的成功率？強化學習（RL）已經成為行業共識，但它也存在兩大問題：

1、效率極其低下：具身的強化學習監督信號非常稀疏，往往只有動作完成和未完成兩種結果。為了增加過程監督信號，大家往往通過人工干預提供稠密的Reward信號，但隨之而來的負面問題是效率極其低下。

2、容易過擬合：經過強化學習之后，模型往往失去了泛化性，過擬合到了單一場景，甚至只是小幅度地挪動一下目標物體的位置，模型都會失效。

賈鵬團隊發現，強化學習，尤其是RLVR，并不會創造新的知識，它只是重新調整了模型輸出的概率分布，強化學習的能力上限仍然是由基座模型的能力決定的。

為解決RL問題，至簡動力采取了虛實結合的方法，提出了Twin-RL框架。

“我們通過3D GS（高斯潑濺）把場景重建為虛擬的數字孿生。在虛擬環境中，訓練的并非具體操作，而是放大模型的探索空間，并且通過并行訓練大幅提升探索的效率。另一方面，我們可以鎖定模型更容易出錯的位置，來指導真機的強化學習，提升效率。”

同時，當前的強化學習大多數都是針對動作（Action）的強化，但是Action往往只有成功和失敗兩種狀態，監督十分稀疏。而至簡動力的基座模型具備了稠密的時空特征，可以針對過程中的特征進行更加稠密和更加高效的強化訓練。

基于此，至簡也提出了DoubleRL強化學習框架，在特征生成和動作生成兩個層面進行雙重的強化學習，效果和效率進一步提升。

“在大多數下游任務中，我們都可以在20分鐘內實現100%的成功率，而且這個成功率是具備泛化性的成功率，在任意位置都能達到100%。”

由此看來，至簡動力已經形成了一套行之有效的方法論：更高上限的一體化模型、更高效的數據采集方式、更高效的強化學習框架、端側的推理引擎和訓練框架。通過這套方法論，至簡可以在保證模型泛化性的同時，在最短的時間內實現單一任務的100%成功率。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

RoboX

關注智能汽車、機器人在內的具身智能前沿科技

246文章數 2關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

親子

房產

本地

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

至簡動力賈鵬：用「極簡」架構，讓機器人20分鐘即達100%成功率

DeepSeek V4發布！黃仁勛預言的"災難"降臨

現場視頻：殲-15掛彈起飛硬剛外軍航母編隊滋擾

現場視頻：殲-15掛彈起飛硬剛外軍航母編隊滋擾

火箭0-3觸發百分百出局定律：本季加時賽9戰8敗

鄧超最大的幸運，就是遇見孫儷

90%訂單消失，中東旺季沒了

2026款樂道L90亮相北京車展 樂道L80正式官宣

態度原創

干細胞如何讓燒燙傷皮膚"再生"？

新一輪教育大爆發來了！海口，開始瘋狂建學校！

云游中國｜逛世界風箏都 留學生探秘中國傳統文化

2026款樂道L90亮相北京車展樂道L80正式官宣

云游中國｜逛世界風箏都留學生探秘中國傳統文化