![]()
要訓練出一個端到端可用的具身大腦模型,需要什么樣的數據規模?
作者丨馬曉寧
編輯丨林覺民
第一印象,張濤是一個,找不出缺點的人。從氣質上看,他非常靠譜,什么話題都能接得上去,而且把聊天預期管理得妥妥貼貼。
兩個小時結束,我問他是不是受過訓練,他有點疑惑,因為他感覺自己今天非常真誠。
這種感知落差使我開始思考,什么樣的經歷和過往,能造就這樣一個足夠沉穩,邏輯嚴密、又腳踏實地的創業者。
光象科技于2025年4月成立,創始人張濤,清華車輛管理專業本碩博,聯合創始人李升波,清華長聘教授。兩個人讀博的時候,是李克強課題組前后桌的師兄弟,畢業后,張濤風風火火地去創業了,李升波留下來繼續做研究。
張濤第一個創業項目,做的是一套汽車供電、通信、網關、控制全集中式的E/E電子電氣架構,比特斯拉早了11年。因為行業發展程度沒跟上,所以堅持了幾年,這家公司就成了先烈。
把公司關了之后,張濤去歐洲做了一年博后,本來打算靜靜心在學術界深耕的,但還是好奇心太重,想去當時正火的互聯網公司,學習一下做產品的先進經驗,結果扎進了高德,就開始了大干特干的職業生涯。
張濤對高德最早的記憶就是,“前面幾年天天在打仗,”要超過競爭對手,要做到行業第一,要把技術、工程、數據扎穩打牢,還要看到用戶反饋,平攤下來,這都是張濤要干的活兒。
九年時間,他從技術專家,做到了感知定位的負責人,成了一位深諳技術商業化路徑的掌舵人。
他跟李升波還是經常聚餐,有時候也一起遛娃。聊著聊著,話題總是會從日常上、生活上,轉移到技術上、產業上。
直到有一天,他們聊到了具身智能,還聊到了特斯拉的FSD,這場對話就從好友無限暢聊,變成創業搭子的工作接頭——
01
機器人要拒絕“搬箱子”
▎AI科技評論:你們聊著聊著就想到要一起創業了是嗎?
張濤:2024 年中,我和升波老師聊到一些行業趨勢,包括 ChatGPT 的出現,對我們影響更大的是 2024 年年初特斯拉的FSD。
我們已經在自動駕駛這個方向做了很長的時間,雖然我們相信端到端的路線,但是看到特斯拉真正把它做出來,讓自動駕駛產生階躍式的提升,這對我們震動非常大。數據驅動的技術路徑,能夠去實現以往不能夠想象的一套智能化,并且可以應用在物理世界的各行各業。這一定是未來十年二十年的大趨勢。
那我們就要繼續探討要做什么啊,這就說到創業了。
▎AI科技評論:那你們創業要做什么呢?
張濤:具身智能。自動駕駛也是廣義的具身智能。就看我們要做2B還是2C的了。
▎AI科技評論:怎么選?
張濤:我們內部有一個四象限理論。具身智能的本質是,智能體在什么環境下完成什么任務,環境和任務就是兩個核心維度。環境分為標準環境和非標環境,任務分為移動任務和操作任務。標準環境,移動任務,這個象限是最簡單的,比如自動駕駛,這就是已經相對成熟、或者相對紅海的場景。我們要去的是未來的區域,終極目標是非標場景下的復雜操作,但不能一步跨過去,要一步步走過去。這是從技術角度拆解的方式。
另外是商業角度,我們要考慮是否有足夠大規模的市場,足夠大的商業落地可能性。競爭角度上來看,要知道我們今天的對手在哪里,怎么跟他們錯開身位等等。
▎AI科技評論:那我覺得現在具身創業的人這么多,到處都是競爭對手,根本錯不開。
張濤:不會,如果真的分析得足夠細的話,不會覺得到處都是競爭對手。
▎AI科技評論:為什么?大家不都是在做工業機器人嗎?
張濤:工業是個大場景,有競爭對手不可怕,我們甚至希望有更多參與者,讓大家看到具身智能在工業里的價值。但我去年做行業調研的時候發現一個現象:搜"工業具身機器人",搜出來八張圖,七張都是在搬箱子。一個機器人搬的、兩個機器人聯合搬的,足式的、雙輪式的,都在搬箱子。
搬箱子沒問題,但如果 90% 的公司都在做搬箱子,那背后一定是有問題的。
▎AI科技評論:這說明這些公司比較懶,不愿意開發新場景?
張濤:不是大家不想做,是大家太著急想把東西趕緊做落地,但在做落地的過程中,又不去找真正有價值的場景是什么,只去找一個自己覺得能干的場景。最后就變成,唯一能干的場景就是搬箱子。這就是現狀。
▎AI科技評論:他們根本沒有做好場景分析。
張濤:把一個自認為設計好的機器人放到真實場景,那機器人的適配性只能支撐一些非常簡單的事情。
▎AI科技評論:你們怎么去做場景分析的?
張濤:去年我們做了一些非常系統性的工作。我們把汽車上所有、今天需要人工完成的部分,做了非常充分的拆解。
把上千個裝配工藝都拆解成原子動作,去看哪些動作可以用什么樣的機器人手段實現,機器人的本體怎么設計,對應的工藝要求,環境約束是什么。拆解完之后,再把它變成今天具身智能機器人接下來可能落地的、漸進式的不同工位路徑。
▎AI科技評論:你跑了很多工廠吧?
張濤:之前跑了至少十幾家汽車廠,汽車零部件廠可能也跑過十幾家;還有 3C、電子、芯片制造等很多企業,也都談過。
▎AI科技評論:你們為什么不先從 3C 或芯片制造切入?那邊自動化程度高,看起來更容易上手。
張濤:恰恰相反。3C 和芯片制造效率要求極高、批量極大,但工藝鏈條比汽車短很多。在這種情況下定制化的自動化設備就是一個非常好的替代方案。效率那么高、批量那么大、工藝又相對簡單,直接做定制化裝備就完了,沒必要用機器人。我們去過一個芯片廠,一個人看五臺自動化設備,料進去產品出來,全程不用管。人做的就是看機、上料、偶爾抽檢、補耗材、處理異常,總體工作量不大,但負責的工位范圍極廣。這就是對早期落地不是一個很友好的場景。
02
要落地、先碰壁
![]()
▎AI科技評論:這種流水線場景下的機器人,是不同的工位配不同的機器人嗎?
張濤:是同一種機器人,但在不同工位做的事情不一樣。對應不同的工作,要求的能力也不同,比如訓練數據量、機器人末端執行啟動靈活性、感知能力等都會有差異。但是機器人本體90%是相似的。我們之前做場景拆解和產品分析的時候,想過這個問題:
如果要做一款機器人,這個機器人要覆蓋80%以上的工位,那這個機器人應該做成什么樣子?
比如用輪式還是用雙足——
▎AI科技評論:(搶話)用輪式。
張濤:那用什么樣的輪式。是雙輪差速、兩舵機、四舵機,還是對角布置、平行布置、麥克納姆輪?到底要用哪一種?
我覺得一定要對場景做足夠好的分析,才能得出一個結論,否則你一上來做了一個機器人,結果發現70、80%的場景都碰壁。
▎AI科技評論:舉個真實工業場景的例子吧。
張濤:好,一個典型例子,我們今天做的一個pick and place的事情,做上料。
上料可以分解出幾個問題:
第一,上料的所有物件,形態多種多樣。
第二,料件在料箱里,可能有一定擺放規律,但通常沒有那么嚴格。它會有各種朝向,有正面、反面、重疊等各種情況。你需要在這個條件下把它抓起來,這是一個挑戰。
第三,抓起來還夠,還要去放。很多機器人的demo,把東西扔到框里就叫放了。但是在上料任務里面,放不是這樣的。這種放,需要非常精準地對孔放置。放料的位置上,有定位孔、定位銷釘或者是卡槽。非常高精度地準確對齊,才叫放置。
最后,整套動作還要求在一定的時間節拍內完成。這是工廠的要求。平常去抓娃娃,想怎么抓就怎么抓。但是工廠節拍要求30秒就是30秒,60秒就是60秒。
▎AI科技評論:那我們怎么樣才能達到真實工業場景下這么高的要求?
張濤:這就要求我們的模型能力,對這樣的要求有充分好的適配性。
▎AI科技評論:這應該特別難?
張濤:一定是很難的。比如精準放置這件事,最終模型輸出的結果是要部署在機器人上,去控制機器人的臂和末端執行機構,完成對應的動作。這個精度背后,其實是一整套從模型算法、到軟件、再到硬件的系統性能力支撐。我們要把所有環節都打通,才有可能做到。
▎AI科技評論:最重要的還是大腦?
張濤:大腦、小腦、本體環境,包括背后的系統,都要充分配合。
Figure也一直在宣傳他們在寶馬工廠里面做焊接上料。仔細看視頻,有一些細節值得關注,比如 Figure 在做焊接上料的時候,對應的料件是從哪來的?機器人背后有一個料架,料件是一個一個掛在上面的。而且每個料件之間隔得很遠,位置、擺放都很一致。這么擺放降低了操作難度,但是這并不是真實汽車制造工廠的實際情況,這是人為掛上去的。
我們今天在做的很多事情,都是真正深入到產業一線的,知道真正的挑戰在哪、難點在哪,然后再去做一體化系統的設計開發,包括模型開發。
03
講講工廠,輪足先上
▎AI科技評論:我聽說你們也進入了頭部豪華車廠?
張濤:去年我們進入的時候,他們跟行業里一家雙足人形機器人公司合作了快一年的時間。合作過程中,先挑了一個焊接上料的場景,結果發現了各種各樣的問題,比如機器人的靈巧手抓著工件走到焊接臺的工位旁,10 次有 8 次那個料自己就掉了。
▎AI科技評論:為什么?
張濤:有可能是手抓不穩,也因為雙足機器人的震動很大。人走路是有緩沖的,人有肌肉,但是機器人是鋼鐵,震動引起工件掉落。
還有就是用雙足行走的方式走到焊接臺附近,這件事本身就極難達到。雙足行走最終末端到達的精度是非常差的。
所以后來他們把那個機器人放在了一個 AGV 上面。這看上去就很搞笑。一個雙足人形機器人,放在一個 AGV 平臺上面移過去。那雙足人形機器人的價值是什么呢?
▎AI科技評論:你們怎么合作的?
張濤:是在去年 WAIC展會上找到的我們。
▎AI科技評論:WAIC那個時間,你們才成立兩個月。
張濤:三個月左右。我們就是在WAIC一個很簡單很樸素的小展臺。他們看到我們的展臺過來問的。
▎AI科技評論:為什么選你們啊?
張濤:我的理解是,在那個時間點上,這家豪華車廠開始重新考量人形機器人這件事。他們內部也有了一些策略,會更愿意去看具備足夠好智能化技術能力,同時又能夠面向工業場景落地的公司。
WAIC展會上,我們聊了面向汽車制造這個場景,怎么做具身智能機器人的落地,干什么活,怎么干,做了充分溝通。他們認為在思路上非常契合,所以就希望達成戰略合作,深入推進這件事。
▎AI科技評論:具體的合作方式呢?
張濤:第一,向光象開放汽車制造的全部工位和場景,雙方充分討論值得具身智能落地的高價值場景。
第二,開放生產產線資料,包括數據資料、數模資料,甚至真實工藝里的零部件等資料。光象在這個基礎之上,做具身智能的前期研發。
第三,我們希望不僅局限于一個或者兩個工位,而是形成一個規模化方案。
具體怎么做呢?
首先,選擇一個規模化工藝,一個車間有幾百個工位那種,焊接上料就是這樣的,
其次,先在其中一個或者兩個典型工位里做開發和落地。
在這個基礎上進一步探索,車廠自己如何利用光象科技提供的機器人軟硬件系統,再疊加一套平臺開發能力,做進一步場景遷移和落地。
▎AI科技評論:合作目標是什么?
張濤:做場景遷移和落地是最有價值的地方。
今天,具身模型本身已經具備了很好的泛化性,雖然還沒有做到完全 zero-shot,但是具身智能能力提升的過程,有一套標準的、基于數據驅動的體系。可以通過收集數據,再做模型的強化微調,讓模型能力進一步提升,直到達到落地水平。
而且整個過程是有可能被一套標準工具平臺承接的。這意味著,有了一個標準軟件產品之后,再疊加一套標準化平臺工具,就可以實現后續第五個、第十個、第一百個場景的落地開發。
這是我們合作非常重要的目標。
▎AI科技評論:所以你們專門面向汽車場景?短期內不考慮其他的?
張濤:我們不是專門面向汽車場景。
從長遠來講,如果你問我 10 年、20 年之后的目標,一定是做通用機器人,做通用具身大腦。但是今天我們不會強調這件事,因為我們覺得這是一個很長的過程。
我們首先得找到一個落地方式、找到一個商業化方式,形成一個完整的技術閉環。所以我們先從工業入手,在工業里面先從汽車制造入手,不會一上來就把攤子鋪得特別開。
![]()
04
談談數據,閉環采集
▎AI科技評論:我注意到你特別強調“商業閉環”這件事。在具身智能領域,尤其是在現在這個時間點,是不是還處于圈地跑馬的階段?這么早做商業閉環有幾個好處?
張濤:首先,最重要的好處是保證我們能走到最后。至少是能自己造血。因為在我們的判斷里,具身智能絕不是三年、五年內就能看到終局的事情。
▎AI科技評論:你要是融資 100 億,就不用擔心這個問題了。
張濤:融資能階段性解決一些問題,但是這件事要走十年、二十年,一定會經歷起伏。有造血能力,才能走得遠。第二,具身智能走到最后是強依賴數據的。我們要走到真實場景里,拿到第一手數據。
▎AI科技評論:我看到一些融資上了規模的公司,都很重視數據,建立了比較大的數據團隊。
張濤:有數據團隊,和能夠拿到有價值的數據,是相關關系,但不是因果關系。數據團隊很重要,數據來源很重要,但能夠支撐未來數據規模化的數據手段更重要。
▎AI科技評論:什么是規模化的數據手段?
張濤:今天自動駕駛最重要的數據手段就是直接在車上采集。我問你一個量級問題:要訓練出一個端到端可用的FSD模型,大概需要什么樣的數據規模?
▎AI科技評論:我不知道。
張濤:千萬級 clips,千萬個數據段。一個 clip 大概是幾十秒到一分鐘的完整數據段。這才能支持一個今天差不多可用、能上路跑的 FSD。
第二個問題是,這樣的數據規模從多少原始數據來?十億到幾十億這樣的數據規模。這就是這套技術范式背后對數據的依賴。
今天具身智能公開的最大數據集大概百萬量級,分布在幾十個場景,每個場景只有幾萬到十萬。
我預估走這條路最終至少要達到上億規模的數據。現在方法不可能做到的。
▎AI科技評論:這要安排多少機器人?什么采集效率,才能達到有用的程度?
張濤:今天部署到真實場景里的機器人,每一個采回來的數據,對我們來說一定都是有用的。越往后,數據規模越大,價值可能越大。另外,我們未來真正需要擴展的是場景多樣性,不一定是在某一個場景里無限增加數據量。
▎AI科技評論:現在已經實際生產了嗎?已經在產線上“打工”了嗎?
張濤:我們已經和合作汽車廠商在真實工位上聯合研發,6月10日正式發布了工業級自進化具身智能機器人Phi-Bot X1,發布前X1在ATC展會上進行了焊接上下料全流程作業,3天持續21.5小時,零失誤,零中斷,成功率100%。這個真實工位作業有一個難點,就是上料環節的雙孔同時對準,X1做到了毫米級的位置精度,而且還控制在0.3°以內,這都是基于自研物理AI的自主感知動作閉環實現的。
▎AI科技評論:最后一個技術問題,做世界模型嗎?
張濤:這個詞今天被用得太泛了。做場景生成可以叫世界模型,做視頻預測也可以叫世界模型,仿真也可以叫。還是得回到本質,到底要世界模型做什么?
我們認為它要服務于機器人,讓機器人具備真正的物理理解能力,并基于這種理解指導規劃和動作。
如果有可能用一套完全物理原生的技術手段構建一個模型,讓它真正理解世界背后的物理規律,理解行為與物理規律之間的因果關系,那這個模型就有可能成為通用具身智能的基礎模型。我們內部叫它"物理原生的世界行為模型"。
坦率地說,這個方向目前行業里還沒有人完整驗證過。我們今年會在這個方向上投入更大的資源和力度,因為從技術邏輯上看,我們認為這條路比 VLA 更有可能走向未來。但它是不是真的成立,還需要時間和結果來回答。
![]()
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.