作者 | 山竹
出品 | 鋅產業
2022年12月13日,是一個值得被機器人行業記住的日子。
這一天,Google Research對外開源了RT-1模型。
與兩個月前發布的ChatGPT相似的是,RT-1同樣是一個基于transformer架構的通用大模型;
與ChatGPT不同的是,RT-1是面向機器人這一垂直領域的通用大模型。
作為一個通用機器人大模型,RT-1可以以97%的準確率讓機械臂在廚房中執行700多項常見任務,并擁有了一定的泛化性。
RT-1出現之時足夠驚艷,它甚至實現了OpenAI想做卻沒做成的具身智能。
而在RT-1背后,最關鍵的是Google Research一個16人團隊,耗時17個月,花費上千萬美金,用13臺機器人收集的13萬條真實機器人運行數據組成的訓練數據集。
它是RT-1在廚房場景實現97%任務執行準確率的關鍵“教材”。
這之后,谷歌又相繼在2023年7月和2023年10月發布了RT-2和RT-X。
谷歌RT系列相繼面世,引起了全球機器人團隊的高度關注,大家都開始拆解研究谷歌RT系列成果,思考大模型究竟能為機器人帶來怎樣的泛化能力。
也是在這時,深度參與了RT系列模型研發的谷歌機器人科學家Karol Hausman從谷歌拉出一支團隊,聲稱要為全球機器人造一個通用大腦。
Hausman通用大腦的構想,既是RT系列的延續,也是一次逃離谷歌的冒險。
01一代“產品”,兩輪融資
Hausman為從谷歌“拉出”的這支團隊,起了一個很接地氣的名字——Physical Intelligence,直譯過來是「物理智能」。
當然,你也可以稱它為具身智能,不過,他們更愿意將自己簡稱為PI,而他們的公司LOGO,也是直接用的數學中那個用來表示圓周率的π。
如今,PI對外公布了第一階段研究成果——π0。
π0不是一款機器人,而是PI團隊花費八個月時間造出的一個通用機器人基礎模型,PI團隊希望,這個模型可以讓人們像使用ChatGPT這樣的chatbot一樣,便捷地使用機器人。
PI團隊這里所說的機器人是任意品牌、任意形態的機器人,可以讓這些機器人執行通用任務,也可以通過微調讓這些機器人在專業場景執行專業任務。
就像ChatGPT不挑電腦品牌,甚至也可以在手機等更多終端設備上應用一樣。
不過,PI團隊在對外發布的論文和視頻中,使用的機器人依然是基于移動平臺的雙機械臂。
由于這一形態最適合機器人“練手”,適合訓練機器人手眼腦協調執行任務的能力,也一直是機器人,尤其是人形機器人的最簡配置。
PI團隊套用莫拉維克悖論解釋稱:
“讓人工智能贏得一場國際象棋比賽或發現一種新藥來說很簡單,但讓它執行疊衣服或清理桌面這樣對人類來說再簡單不過的任務,卻很困難。”
為了構建能夠執行類人任務的人工智能系統,在π0研發的這八個月里,PI團隊最主要的工作就是采集數據,并通過大量數據來對這一模型進行高強度的訓練。
據官方透露,π0的訓練數據主要來源于目前行業中的開源數據集,以及他們自己通過8臺機器人執行多樣化任務積累下來的數據。
具體而言,這一模型訓練過程可以分為以下四步:
第一,從OpenAI的GPT-4V、谷歌的Gemini這樣的預訓練視覺語言模型(VLM)中繼承語義知識和視覺理解能力,PI團隊基于此獲得的30億參數的VLM進行再調整,以適應機器人的實時靈活控制;
第二,基于PI團隊自研的流匹配(flow matching)算法,為VLM模型提供連續動作輸出,以使其可以實現50次/s的頻率輸出運動控制指令;
第三,基于開源的機器人數據集和基于基于互聯網數據訓練的VLM,PI團隊形成了自己的視覺-語言-動作流匹配模型,并通過自采集的高質量機器人數據對這一模型進行后續訓練;
第四,針對復雜、靈巧任務,對模型進行微調。
基于這四步,經過八個月的研發,PI團隊搞出了第一版機器人通用大腦,π0。
相較于年初在學術界鬧得沸沸揚揚的斯坦福團隊遙操作的Mobile ALOHA而言,π0真正實現了完全自主執行任務。
PI團隊就單一指令簡單任務、復合指令復雜任務,以及疊襯衫、雜物裝袋、從烤面包機中拿出吐司幾個任務,對π0、π0-small(未使用VLM預訓練的470M參數模型)與OpenVLA、Octo進行了對比,得出的結論是,π0實現了全面碾壓。
能夠在八個月內迅速造出這樣的模型,得益于Hausman從谷歌拉出了一支強悍的團隊。
這支擁有27人的創業團隊,既有像Brian Ichter、Chelsea Finn這樣來自Google Brain團隊的科學家,也有像UC Berkley助理教授Sergey Levine這樣同樣參與了RT系列項目的外部科研團隊的科學家。
可以說,Hausman是再次集結了RT項目中的科學家,做了一個延續RT系列使命的創業項目。
正因如此,PI團隊在美國大受追捧,截止目前已經先后拿到了7000萬美元、4億美元兩輪融資,包括紅杉資本、Khosla Ventures、Thrive Capital、Lux Capital等知名投資機構都擠進了這一項目。
就連OpenAI、亞馬遜創始人貝索斯,也為PI開出了支票。
據《紐約時報》報道稱,這個成立不到一年的團隊,如今估值已經飆升到了24億美元。
02硬件天團后,軟件熱潮來
大模型讓全球看到了一條通向通用人工智能的路,這不僅讓全球科技巨頭為之騷動,也讓一大批創業團隊涌入了這條賽道。
優質資源堆積的大模型賽道,很快就在全球范圍內經歷了一次百團大戰。
然而,眾所周知,大模型的進化,就是一支又一支科學家團隊不斷燒錢的過程,燒錢程度超乎想象。
馬斯克曾為還未面世的GPT-5的訓練做過一個估算,他認為,OpenAI訓練GPT-5大概需要3-5萬張H100,僅僅是買卡,就需要6-10億美元。
這還不包括服務器成本、電力成本,以及頂級科學家團隊的薪資成本。
另一個來自于市場研究機構CB Insights的統計數據顯示,2023年,全球生成式AI新創企業一共融到了204億美元,即便是國內,人工智能領域融資就有232筆,融資總額達到了20億美元。
面對這樣一個燒錢的大家伙,只進不出是肯定不行的,畢竟投資人的錢也不是白拿的,他們更在乎實際的經濟價值和應用效果。
于是,2024年,我們看到全球都在呼喚大模型落地。
其中,AI硬件被寄予厚望,具身智能概念風起。
AI PC、AI手機,尤其是AI機器人不斷涌向,就連不關注商業化的波士頓動力創始人Marc Raibert也主導成立了波士頓動力人工智能研究院。
而波士頓動力轉向電驅后的Atlas,也在近日放出了在工業場景全自動執行搬運任務的Demo視頻——告訴Atlas搬運位置,它就可以將零件自動搬運到相應位置。
這自然有賴于波士頓動力團隊在人工智能領域的研究成果。
大模型帶來的人工智能技術突破,的確讓一大批機器人團隊看到了推動人形機器人產業化的可能。
據IT桔子統計數據顯示,2023年1月至今,國內共有29家人形機器人公司成立。
這其中就不乏銀河通用、星動紀元、UniX AI這樣以人工智能算法見長的團隊。
人形機器人要進入產業,目前一個關鍵技術瓶頸是任務執行的泛化性,這就對人工智能算法提出了很高的要求。
如果說哪個團隊對這類模型有著最高的聲望,那一定是谷歌RT系列背后的研究團隊。
Hausman正是想要破除壁障,造一個通用的機器人大腦。
他現在的方法是,通過預訓練模型用來教會這個大腦有關物理世界的規律和知識,通過微調讓這個大腦能夠很好地執行特定任務。
借助這一模式,π0已經學會了自動完成疊衣服、收拾桌子、疊紙箱子在內的11項日常任務。
不過,經由這一模式研發的π0,實則仍然算不上機器人通用大腦,要想造出機器人通用大腦,整個模型的微調過程就需要由機器人自動完成。
在PI官方博客中,Hausman的團隊也坦然承認,“通用機器人策略依然處于起步階段,我們還有很長的路要走。”
至于此次發布的π0,PI團隊自己給出的評價是:
強大的通用策略,繼承了預訓練大模型的語義理解能力,整合了來自不同任務和機器人平臺的數據,實現了前所未有的靈活性。
而為了打造機器人通用大腦,PI團隊認為,他們在模型研究上需要聚焦三個方向:
長任務鏈路推理和規劃、自主優化和自進化、穩定性和安全性。
作為脫胎于谷歌RT系列項目的明星團隊,又是只做通用軟件的中立團隊,據悉,PI團隊已經和多家機器人公司和實驗室展開合作:
一方面,幫助合作伙伴的機器人團隊改進他們的遙操作和自主執行任務的能力;
另一方面,引入合作伙伴的數據,將這些數據整合到PI團隊的預訓練模型中,提升模型的泛化性和兼容性。
作為被黃仁勛、馬斯克、奧特曼等科技巨頭掌舵者看重的未來產業,也是具身智能最重要的形態,人形機器人由大腦、小腦、肢體三大核心部分組成。
而如果說誰最有可能造出機器人通用大腦,脫胎于谷歌RT系列項目的PI團隊或是其中一個。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.