![]()
![]()
出品|搜狐科技
作者|梁昌均
“人形機器人是不是過10年或15年進入家庭,我無法下定論。但基于之前的技術(shù)發(fā)展歷程和客觀規(guī)律來講,我們覺得它沒有這么快。”
從阿里高德離職加入具身智能創(chuàng)業(yè)大潮的張濤,雖然最終目標同樣希望讓機器人走進家庭,但他對這個實現(xiàn)過程有著更為清醒的認知。
此前,行業(yè)內(nèi)有樂觀聲音認為三年內(nèi)就有望實現(xiàn),這讓張濤恍惚中想起了15年前的自動駕駛。“那時候我們講明年或者兩三年,L4就滿街跑,結(jié)果到今天還沒有實現(xiàn)。”
這個判斷一定程度影響了張濤創(chuàng)業(yè)的選擇。去年他聯(lián)合清華大學車輛與運載學院黨委書記、人工智能學院教授李升波成立了光象科技,張濤擔任CEO,希望共同推動通用具身智能技術(shù)的產(chǎn)業(yè)化應(yīng)用。
這家公司把落地方向優(yōu)先選在了B端,并率先切入汽車制造場景。在6月10日的技術(shù)開放日上,張濤發(fā)布了號稱行業(yè)首個工業(yè)級自進化具身智能機器人Phi-Bot X1。
他介紹稱,光象科技已圍繞汽車制造中的上下料、質(zhì)檢等典型工位完成真實場景驗證,并已與某國際車廠、蔚來等企業(yè)達成合作。
張濤表示,接下來公司還會從汽車制造拓展到3C電子、軌道車輛、工程機械等工業(yè)領(lǐng)域,整體路徑是從工業(yè)到商業(yè),最后到家庭服務(wù)。
對于為何選擇這樣的路徑,張濤解釋稱,具身智能最好的落地方式是從單點做突破,而不是多點開花。“對標自動駕駛,從L2往L4去做可能是更合理的路徑,今天的具身智能同理。”
當然,不可否認,當下的具身智能還面臨不少挑戰(zhàn),核心在于模型和數(shù)據(jù)瓶頸。究竟是做VLA,還是世界模型;是采集真實數(shù)據(jù),還是采用仿真數(shù)據(jù),行業(yè)吵翻了天。
張濤的判斷是,以模仿學習或監(jiān)督學習為核心的VLA不會是終局,因為數(shù)據(jù)量級差太多。
在他看來,如果數(shù)據(jù)問題解決了,具身智能的長期AGI就不遠了。“今天的VLA、世界模型在模型結(jié)構(gòu)和訓練范式上有差異,但核心都是由數(shù)據(jù)驅(qū)動的端到端范式。”
今年以來,行業(yè)企業(yè)包括不少大廠都在紛紛加強數(shù)據(jù)采集工作,但路徑依然還未收斂。張濤更看好仿真數(shù)據(jù),因為其是唯一有可能實現(xiàn)數(shù)據(jù)指數(shù)級擴增的方案。
張濤還談到了行業(yè)定位和市場競爭,強調(diào)具身機器人在工廠場景里不是要取代傳統(tǒng)的工業(yè)機器人或人,而是要追求效率的最佳組合。“具身智能是一個大賽道,不會只存在一家或幾家。”
他還提到,行業(yè)里很多具身機器人并沒有去干該干的事情,如雙足人形機器人去搬箱子,毫無必要。“行業(yè)要更多面向真實場景需求,做真正發(fā)揮具身智能機器人價值的事情。”
雖然目前具身智能目前應(yīng)用多數(shù)還停留在科研教育、商業(yè)服務(wù)等領(lǐng)域,還未真正規(guī)模化走進工業(yè)和家庭場景,但資本熱潮還在持續(xù),宇樹等多家企業(yè)也已開啟上市。
“雖然現(xiàn)在融資看起來很熱,但我們并不認為這是泡沫,因為具身智能,尤其是它在物理環(huán)境真實泛化產(chǎn)生的價值是非常高的,對比未來的價值,現(xiàn)在的投入并沒有那么高。”
張濤還呼吁,要尊重整個行業(yè)的發(fā)展規(guī)律,路要一步一步走。“具身智能行業(yè)未來也會經(jīng)歷波峰波谷,我們還是盡可能堅定地按照自身的技術(shù)和業(yè)務(wù)節(jié)奏去推進。”
以下是對話精編:
![]()
VLA不會是具身智能終局
數(shù)據(jù)解決了AGI也就不遠了
Q:對具身智能的技術(shù)路線,有觀點認為,VLA不太夠用,您怎么看?公司技術(shù)壁壘是什么?
張濤:我們會以強化學習為最核心的技術(shù)能力做具身智能。過去絕大部分VLA模型都采用模仿學習,這種方式是不是終局,能不能走到最后,我們的結(jié)論是不太可能。
為什么?如果要用模仿學習或監(jiān)督學習的方式完成通用具身智能模型開發(fā),對數(shù)據(jù)量的要求很高。今天具身的數(shù)據(jù)量級基本在幾十萬到幾百萬,而且非常分散。具身要解決幾百個、幾千個任務(wù),需要的數(shù)據(jù)量級大概是十億、百億。
但強化學習能夠突破,在探索和試錯的過程當中,通過獎勵信號讓模型自己學到什么樣的方式和策略是最優(yōu)的,能夠不斷迭代,得到性能提升,這種方式可能會走到最后。
Q:今年行業(yè)都在加速獲取具身數(shù)據(jù),公司看好什么類型的數(shù)據(jù)?
張濤:目前為止,我們還沒有看到非常明確的數(shù)據(jù)范式收斂。第一人稱視角數(shù)據(jù)相比遙操作數(shù)據(jù),雖然能更好地降成本并體現(xiàn)泛化通用操作能力。但數(shù)據(jù)規(guī)模與成本之間的關(guān)系仍然是線性的,沒有變成指數(shù)級別。
因此,我們認為它可能也未必是最終路徑。我們會更優(yōu)先采用仿真數(shù)據(jù),這是唯一有可能實現(xiàn)數(shù)據(jù)指數(shù)級擴增的方案。
如果數(shù)據(jù)問題解決了,具身智能的長期AGI就不遠了。今天的VLA、世界模型,在模型結(jié)構(gòu)和訓練范式上有差異,但核心都是由數(shù)據(jù)驅(qū)動的端到端范式,沒有本質(zhì)區(qū)別。
對強化學習來說,最合適的方式是在仿真環(huán)境里做強化,能夠保證更大的安全性和更大并行的訓練規(guī)模。這條技術(shù)路線,無論是從邏輯上,還是從規(guī)模上,都是更可行性的方案。
![]()
具身機器人不是要去替換自動化設(shè)備和人
Q:公司在商業(yè)場景上選擇先去做汽車制造領(lǐng)域,是出于什么考慮?
張濤:我們討論過是To C還是To B,是做工業(yè)還是進家庭,這無所謂對錯。要看具身智能的本質(zhì),機器人需要在某個環(huán)境下去完成某個任務(wù),要找到一條真實可落地的路徑。
我們認為具身智能最好的方式是在一個點上去做突破,而不是多點開花。對標自動駕駛,我認為從L2往L4去做可能是一條更合理的路徑,今天的具身智能同理。
汽車制造是目前最大規(guī)模、復(fù)雜度程度最高的行業(yè),而且有非常好的一致性和標準化,對品控、時間節(jié)拍和效率的要求也非常高,這對具身機器人落地而言是非常好的練兵場。
接下來我們還會不斷拓展其他工業(yè)場景,像軌道車輛、輪船、零部件、工程機械、3C電子等,我們整個路徑是從工業(yè)到商業(yè)再到家庭服務(wù)。
Q:在工業(yè)場景,很多人認為機械臂等傳統(tǒng)應(yīng)用型機器人更有發(fā)展前景,具身機器人是泡沫,您怎么看?如何看待未來的市場格局?
張濤:我們做具身智能機器人,并不是讓機器人去替換自動化設(shè)備,更不是替換人,而是期望把工業(yè)自動化設(shè)備、具身機器人和人進行整合,產(chǎn)生最高的效率。
自動化設(shè)備的技術(shù)路線、工位需求和具身機器人完全不同,它們事先設(shè)定好軌跡,重復(fù)即可,通過運控算法和本體能力保證極高的定位精度就可以實現(xiàn)。
具身智能核心是端到端的AI驅(qū)動,沒有必要做這件事,要做的事情需要非常好的靈活性、魯棒性,并且能夠面向不同的工位做到很好的泛化操作,所以跟他們沒有直接的競爭關(guān)系。
Q:公司的客戶主要是車廠,但現(xiàn)在也有不少車廠,比如理想都在做機器人,長期來看他們有什么壁壘?公司如何與之競爭?
張濤:現(xiàn)在很多車廠都在做機器人,但他們最終要服務(wù)的是C端客戶。他們更關(guān)注的事情是怎么樣在繼手機和汽車之后的下一代智能終端,開發(fā)通用機器人,而且走入家庭。這也在我們未來的目標之內(nèi),但目前我們跟車廠做的機器人不存在競爭關(guān)系。
當然,這些車廠有很好的制造能力和模型、資金能力,會成為具身智能行業(yè)非常優(yōu)秀的玩家。但具身智能是一個大賽道,不會只存在一家或者幾家,每個細分場景中都會有一批頭部公司。
![]()
具身智能沒有泡沫
人形機器人不會很快進入家庭
Q:您怎么看目前具身智能公司的商業(yè)模式?公司如何選擇自己的落地路徑?
張濤:整個行業(yè)還在非常早期的階段,有賣機器人的,有賣軟件的,有去做租賃的,賣工具平臺服務(wù)的,都還在探索的階段,具體哪個會成為未來主流,可能還要時間。
今天行業(yè)很多具身機器人并沒有去干該干的事情,如用雙足人形機器人去搬箱子,毫無必要。我們希望行業(yè)更多面向真實場景需求,做真正發(fā)揮具身智能機器人價值的事情。
我們希望做軟硬一體化的具身智能的完整產(chǎn)品。今天具身智能行業(yè)是不成熟的,我們希望能夠為生產(chǎn)力服務(wù),路徑是首先把能夠解決真實問題的機器人造出來,賣出去,去干活,再把數(shù)據(jù)收回來,然后再去產(chǎn)生更多的數(shù)據(jù)和更強大的模型,從而再去拓展范圍。
Q:您此前說人形機器人落地還需十年,但行業(yè)有觀點認為幾年就可以進入家庭,您怎么看?未來進入家庭的機器人會是什么形態(tài)?
張濤:行業(yè)里有觀點講三年人形機器人就能夠進入家庭干活了,恍惚中我好像回到了15年前的自動駕駛,那時候我們講明年或者兩三年,L4就滿街跑,結(jié)果到今天還沒有實現(xiàn)。
人形機器人是不是過10年或15年進入家庭,我無法下定論。但基于之前的技術(shù)發(fā)展歷程和客觀規(guī)律來講,我們覺得它沒有這么快。
機器人走進家庭,人形是不是最好的?我覺得這沒有答案,還是要回到讓機器人進入家庭,到底想讓它提供什么樣的價值。如果去做鋪床疊被、整理東西、擦桌子,確實不需要雙足。
有些機器人做得非常擬人,它提供的價值不在功能層面,更多是情感價值,這確實需要人形,而且是擬人度非常高的人形,所以關(guān)鍵是取決于到底想讓機器人提供什么樣的價值。
Q:有觀點認為目前具身智能有泡沫,資本都聚集到頭部,估值上百億的公司越來越多,對新入局的公司可能會越來越艱,您怎么看待這種局面?
張濤:雖然現(xiàn)在融資看起來很熱,但我們并不認為這是泡沫。具身智能尤其是它在物理環(huán)境真實泛化產(chǎn)生的價值是非常高的,對比未來的價值,現(xiàn)在的投入并沒有那么高。
當然,我們還是要尊重行業(yè)發(fā)展規(guī)律,未來是有那么大的市場,但路總要一步一步走。具身智能行業(yè)未來也會經(jīng)歷波峰波谷,我們還是盡可能堅定地按照自身的技術(shù)和業(yè)務(wù)節(jié)奏推進。
![]()
![]()
運營編輯 | 曹倩 審核|孟莎莎
![]()
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.