網易首頁 > 網易號 > 正文申請入駐

對話光象科技張濤：90%的機器人公司在搬箱子，那一定是有問題

2026-06-12 11:36:19　來源: AI科技評論

廣東舉報

分享至

要訓練出一個端到端可用的具身大腦模型，需要什么樣的數據規模？

作者丨馬曉寧

編輯丨林覺民

第一印象，張濤是一個，找不出缺點的人。從氣質上看，他非常靠譜，什么話題都能接得上去，而且把聊天預期管理得妥妥貼貼。

兩個小時結束，我問他是不是受過訓練，他有點疑惑，因為他感覺自己今天非常真誠。

這種感知落差使我開始思考，什么樣的經歷和過往，能造就這樣一個足夠沉穩，邏輯嚴密、又腳踏實地的創業者。

光象科技于2025年4月成立，創始人張濤，清華車輛管理專業本碩博，聯合創始人李升波，清華長聘教授。兩個人讀博的時候，是李克強課題組前后桌的師兄弟，畢業后，張濤風風火火地去創業了，李升波留下來繼續做研究。

張濤第一個創業項目，做的是一套汽車供電、通信、網關、控制全集中式的E/E電子電氣架構，比特斯拉早了11年。因為行業發展程度沒跟上，所以堅持了幾年，這家公司就成了先烈。

把公司關了之后，張濤去歐洲做了一年博后，本來打算靜靜心在學術界深耕的，但還是好奇心太重，想去當時正火的互聯網公司，學習一下做產品的先進經驗，結果扎進了高德，就開始了大干特干的職業生涯。

張濤對高德最早的記憶就是，“前面幾年天天在打仗，”要超過競爭對手，要做到行業第一，要把技術、工程、數據扎穩打牢，還要看到用戶反饋，平攤下來，這都是張濤要干的活兒。

九年時間，他從技術專家，做到了感知定位的負責人，成了一位深諳技術商業化路徑的掌舵人。

他跟李升波還是經常聚餐，有時候也一起遛娃。聊著聊著，話題總是會從日常上、生活上，轉移到技術上、產業上。

直到有一天，他們聊到了具身智能，還聊到了特斯拉的FSD，這場對話就從好友無限暢聊，變成創業搭子的工作接頭——

機器人要拒絕“搬箱子”

▎AI科技評論：你們聊著聊著就想到要一起創業了是嗎？

張濤：2024 年中，我和升波老師聊到一些行業趨勢，包括 ChatGPT 的出現，對我們影響更大的是 2024 年年初特斯拉的FSD。

我們已經在自動駕駛這個方向做了很長的時間，雖然我們相信端到端的路線，但是看到特斯拉真正把它做出來，讓自動駕駛產生階躍式的提升，這對我們震動非常大。數據驅動的技術路徑，能夠去實現以往不能夠想象的一套智能化，并且可以應用在物理世界的各行各業。這一定是未來十年二十年的大趨勢。

那我們就要繼續探討要做什么啊，這就說到創業了。

▎AI科技評論：那你們創業要做什么呢？

張濤：具身智能。自動駕駛也是廣義的具身智能。就看我們要做2B還是2C的了。

▎AI科技評論：怎么選？

張濤：我們內部有一個四象限理論。具身智能的本質是，智能體在什么環境下完成什么任務，環境和任務就是兩個核心維度。環境分為標準環境和非標環境，任務分為移動任務和操作任務。標準環境，移動任務，這個象限是最簡單的，比如自動駕駛，這就是已經相對成熟、或者相對紅海的場景。我們要去的是未來的區域，終極目標是非標場景下的復雜操作，但不能一步跨過去，要一步步走過去。這是從技術角度拆解的方式。

另外是商業角度，我們要考慮是否有足夠大規模的市場，足夠大的商業落地可能性。競爭角度上來看，要知道我們今天的對手在哪里，怎么跟他們錯開身位等等。

▎AI科技評論：那我覺得現在具身創業的人這么多，到處都是競爭對手，根本錯不開。

張濤：不會，如果真的分析得足夠細的話，不會覺得到處都是競爭對手。

▎AI科技評論：為什么？大家不都是在做工業機器人嗎？

張濤：工業是個大場景，有競爭對手不可怕，我們甚至希望有更多參與者，讓大家看到具身智能在工業里的價值。但我去年做行業調研的時候發現一個現象：搜"工業具身機器人"，搜出來八張圖，七張都是在搬箱子。一個機器人搬的、兩個機器人聯合搬的，足式的、雙輪式的，都在搬箱子。

搬箱子沒問題，但如果 90% 的公司都在做搬箱子，那背后一定是有問題的。

▎AI科技評論：這說明這些公司比較懶，不愿意開發新場景？

張濤：不是大家不想做，是大家太著急想把東西趕緊做落地，但在做落地的過程中，又不去找真正有價值的場景是什么，只去找一個自己覺得能干的場景。最后就變成，唯一能干的場景就是搬箱子。這就是現狀。

▎AI科技評論：他們根本沒有做好場景分析。

張濤：把一個自認為設計好的機器人放到真實場景，那機器人的適配性只能支撐一些非常簡單的事情。

▎AI科技評論：你們怎么去做場景分析的？

張濤：去年我們做了一些非常系統性的工作。我們把汽車上所有、今天需要人工完成的部分，做了非常充分的拆解。

把上千個裝配工藝都拆解成原子動作，去看哪些動作可以用什么樣的機器人手段實現，機器人的本體怎么設計，對應的工藝要求，環境約束是什么。拆解完之后，再把它變成今天具身智能機器人接下來可能落地的、漸進式的不同工位路徑。

▎AI科技評論：你跑了很多工廠吧？

張濤：之前跑了至少十幾家汽車廠，汽車零部件廠可能也跑過十幾家；還有 3C、電子、芯片制造等很多企業，也都談過。

▎AI科技評論：你們為什么不先從 3C 或芯片制造切入？那邊自動化程度高，看起來更容易上手。

張濤：恰恰相反。3C 和芯片制造效率要求極高、批量極大，但工藝鏈條比汽車短很多。在這種情況下定制化的自動化設備就是一個非常好的替代方案。效率那么高、批量那么大、工藝又相對簡單，直接做定制化裝備就完了，沒必要用機器人。我們去過一個芯片廠，一個人看五臺自動化設備，料進去產品出來，全程不用管。人做的就是看機、上料、偶爾抽檢、補耗材、處理異常，總體工作量不大，但負責的工位范圍極廣。這就是對早期落地不是一個很友好的場景。

要落地、先碰壁

▎AI科技評論：這種流水線場景下的機器人，是不同的工位配不同的機器人嗎？

張濤：是同一種機器人，但在不同工位做的事情不一樣。對應不同的工作，要求的能力也不同，比如訓練數據量、機器人末端執行啟動靈活性、感知能力等都會有差異。但是機器人本體90%是相似的。我們之前做場景拆解和產品分析的時候，想過這個問題：

如果要做一款機器人，這個機器人要覆蓋80%以上的工位，那這個機器人應該做成什么樣子？

比如用輪式還是用雙足——

▎AI科技評論：（搶話）用輪式。

張濤：那用什么樣的輪式。是雙輪差速、兩舵機、四舵機，還是對角布置、平行布置、麥克納姆輪？到底要用哪一種？

我覺得一定要對場景做足夠好的分析，才能得出一個結論，否則你一上來做了一個機器人，結果發現70、80%的場景都碰壁。

▎AI科技評論：舉個真實工業場景的例子吧。

張濤：好，一個典型例子，我們今天做的一個pick and place的事情，做上料。

上料可以分解出幾個問題：

第一，上料的所有物件，形態多種多樣。

第二，料件在料箱里，可能有一定擺放規律，但通常沒有那么嚴格。它會有各種朝向，有正面、反面、重疊等各種情況。你需要在這個條件下把它抓起來，這是一個挑戰。

第三，抓起來還夠，還要去放。很多機器人的demo，把東西扔到框里就叫放了。但是在上料任務里面，放不是這樣的。這種放，需要非常精準地對孔放置。放料的位置上，有定位孔、定位銷釘或者是卡槽。非常高精度地準確對齊，才叫放置。

最后，整套動作還要求在一定的時間節拍內完成。這是工廠的要求。平常去抓娃娃，想怎么抓就怎么抓。但是工廠節拍要求30秒就是30秒，60秒就是60秒。

▎AI科技評論：那我們怎么樣才能達到真實工業場景下這么高的要求？

張濤：這就要求我們的模型能力，對這樣的要求有充分好的適配性。

▎AI科技評論：這應該特別難？

張濤：一定是很難的。比如精準放置這件事，最終模型輸出的結果是要部署在機器人上，去控制機器人的臂和末端執行機構，完成對應的動作。這個精度背后，其實是一整套從模型算法、到軟件、再到硬件的系統性能力支撐。我們要把所有環節都打通，才有可能做到。

▎AI科技評論：最重要的還是大腦？

張濤：大腦、小腦、本體環境，包括背后的系統，都要充分配合。

Figure也一直在宣傳他們在寶馬工廠里面做焊接上料。仔細看視頻，有一些細節值得關注，比如 Figure 在做焊接上料的時候，對應的料件是從哪來的？機器人背后有一個料架，料件是一個一個掛在上面的。而且每個料件之間隔得很遠，位置、擺放都很一致。這么擺放降低了操作難度，但是這并不是真實汽車制造工廠的實際情況，這是人為掛上去的。

我們今天在做的很多事情，都是真正深入到產業一線的，知道真正的挑戰在哪、難點在哪，然后再去做一體化系統的設計開發，包括模型開發。

講講工廠，輪足先上

▎AI科技評論：我聽說你們也進入了頭部豪華車廠？

張濤：去年我們進入的時候，他們跟行業里一家雙足人形機器人公司合作了快一年的時間。合作過程中，先挑了一個焊接上料的場景，結果發現了各種各樣的問題，比如機器人的靈巧手抓著工件走到焊接臺的工位旁，10 次有 8 次那個料自己就掉了。

▎AI科技評論：為什么？

張濤：有可能是手抓不穩，也因為雙足機器人的震動很大。人走路是有緩沖的，人有肌肉，但是機器人是鋼鐵，震動引起工件掉落。

還有就是用雙足行走的方式走到焊接臺附近，這件事本身就極難達到。雙足行走最終末端到達的精度是非常差的。

所以后來他們把那個機器人放在了一個 AGV 上面。這看上去就很搞笑。一個雙足人形機器人，放在一個 AGV 平臺上面移過去。那雙足人形機器人的價值是什么呢？

▎AI科技評論：你們怎么合作的？

張濤：是在去年 WAIC展會上找到的我們。

▎AI科技評論：WAIC那個時間，你們才成立兩個月。

張濤：三個月左右。我們就是在WAIC一個很簡單很樸素的小展臺。他們看到我們的展臺過來問的。

▎AI科技評論：為什么選你們啊？

張濤：我的理解是，在那個時間點上，這家豪華車廠開始重新考量人形機器人這件事。他們內部也有了一些策略，會更愿意去看具備足夠好智能化技術能力，同時又能夠面向工業場景落地的公司。

WAIC展會上，我們聊了面向汽車制造這個場景，怎么做具身智能機器人的落地，干什么活，怎么干，做了充分溝通。他們認為在思路上非常契合，所以就希望達成戰略合作，深入推進這件事。

▎AI科技評論：具體的合作方式呢？

張濤：第一，向光象開放汽車制造的全部工位和場景，雙方充分討論值得具身智能落地的高價值場景。

第二，開放生產產線資料，包括數據資料、數模資料，甚至真實工藝里的零部件等資料。光象在這個基礎之上，做具身智能的前期研發。

第三，我們希望不僅局限于一個或者兩個工位，而是形成一個規模化方案。

具體怎么做呢？

首先，選擇一個規模化工藝，一個車間有幾百個工位那種，焊接上料就是這樣的，

其次，先在其中一個或者兩個典型工位里做開發和落地。

在這個基礎上進一步探索，車廠自己如何利用光象科技提供的機器人軟硬件系統，再疊加一套平臺開發能力，做進一步場景遷移和落地。

▎AI科技評論：合作目標是什么？

張濤：做場景遷移和落地是最有價值的地方。

今天，具身模型本身已經具備了很好的泛化性，雖然還沒有做到完全 zero-shot，但是具身智能能力提升的過程，有一套標準的、基于數據驅動的體系。可以通過收集數據，再做模型的強化微調，讓模型能力進一步提升，直到達到落地水平。

而且整個過程是有可能被一套標準工具平臺承接的。這意味著，有了一個標準軟件產品之后，再疊加一套標準化平臺工具，就可以實現后續第五個、第十個、第一百個場景的落地開發。

這是我們合作非常重要的目標。

▎AI科技評論：所以你們專門面向汽車場景？短期內不考慮其他的？

張濤：我們不是專門面向汽車場景。

從長遠來講，如果你問我 10 年、20 年之后的目標，一定是做通用機器人，做通用具身大腦。但是今天我們不會強調這件事，因為我們覺得這是一個很長的過程。

我們首先得找到一個落地方式、找到一個商業化方式，形成一個完整的技術閉環。所以我們先從工業入手，在工業里面先從汽車制造入手，不會一上來就把攤子鋪得特別開。

談談數據，閉環采集

▎AI科技評論：我注意到你特別強調“商業閉環”這件事。在具身智能領域，尤其是在現在這個時間點，是不是還處于圈地跑馬的階段？這么早做商業閉環有幾個好處？

張濤：首先，最重要的好處是保證我們能走到最后。至少是能自己造血。因為在我們的判斷里，具身智能絕不是三年、五年內就能看到終局的事情。

▎AI科技評論：你要是融資 100 億，就不用擔心這個問題了。

張濤：融資能階段性解決一些問題，但是這件事要走十年、二十年，一定會經歷起伏。有造血能力，才能走得遠。第二，具身智能走到最后是強依賴數據的。我們要走到真實場景里，拿到第一手數據。

▎AI科技評論：我看到一些融資上了規模的公司，都很重視數據，建立了比較大的數據團隊。

張濤：有數據團隊，和能夠拿到有價值的數據，是相關關系，但不是因果關系。數據團隊很重要，數據來源很重要，但能夠支撐未來數據規模化的數據手段更重要。

▎AI科技評論：什么是規模化的數據手段？

張濤：今天自動駕駛最重要的數據手段就是直接在車上采集。我問你一個量級問題：要訓練出一個端到端可用的FSD模型，大概需要什么樣的數據規模？

▎AI科技評論：我不知道。

張濤：千萬級 clips，千萬個數據段。一個 clip 大概是幾十秒到一分鐘的完整數據段。這才能支持一個今天差不多可用、能上路跑的 FSD。

第二個問題是，這樣的數據規模從多少原始數據來？十億到幾十億這樣的數據規模。這就是這套技術范式背后對數據的依賴。

今天具身智能公開的最大數據集大概百萬量級，分布在幾十個場景，每個場景只有幾萬到十萬。

我預估走這條路最終至少要達到上億規模的數據。現在方法不可能做到的。

▎AI科技評論：這要安排多少機器人？什么采集效率，才能達到有用的程度？

張濤：今天部署到真實場景里的機器人，每一個采回來的數據，對我們來說一定都是有用的。越往后，數據規模越大，價值可能越大。另外，我們未來真正需要擴展的是場景多樣性，不一定是在某一個場景里無限增加數據量。

▎AI科技評論：現在已經實際生產了嗎？已經在產線上“打工”了嗎？

張濤：我們已經和合作汽車廠商在真實工位上聯合研發，6月10日正式發布了工業級自進化具身智能機器人Phi-Bot X1，發布前X1在ATC展會上進行了焊接上下料全流程作業，3天持續21.5小時，零失誤，零中斷，成功率100%。這個真實工位作業有一個難點，就是上料環節的雙孔同時對準，X1做到了毫米級的位置精度，而且還控制在0.3°以內，這都是基于自研物理AI的自主感知動作閉環實現的。

▎AI科技評論：最后一個技術問題，做世界模型嗎？

張濤：這個詞今天被用得太泛了。做場景生成可以叫世界模型，做視頻預測也可以叫世界模型，仿真也可以叫。還是得回到本質，到底要世界模型做什么？

我們認為它要服務于機器人，讓機器人具備真正的物理理解能力，并基于這種理解指導規劃和動作。

如果有可能用一套完全物理原生的技術手段構建一個模型，讓它真正理解世界背后的物理規律，理解行為與物理規律之間的因果關系，那這個模型就有可能成為通用具身智能的基礎模型。我們內部叫它"物理原生的世界行為模型"。

坦率地說，這個方向目前行業里還沒有人完整驗證過。我們今年會在這個方向上投入更大的資源和力度，因為從技術邏輯上看，我們認為這條路比 VLA 更有可能走向未來。但它是不是真的成立，還需要時間和結果來回答。

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.