亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

開創(chuàng)VLA的那幫人,正在拋棄VLA

0
分享至

編輯 | 澤南

具身智能真的變天了?

上個(gè)星期, 明星創(chuàng)業(yè)公司 Generalist AI 發(fā)布的 GEN-1 模型,憑借在各項(xiàng)機(jī)器人任務(wù)中的極高成功率引發(fā)了行業(yè)震動(dòng)。

GEN-1 在三個(gè)核心維度上都實(shí)現(xiàn)了跨越式提升:成功率超過 99%,速度提升 2-3 倍,只需要上代模型 1/10 的數(shù)據(jù)和微調(diào),就能達(dá)到同樣的性能表現(xiàn)。



Generalist AI 成立于 2024 年,核心愿景是讓「通用型機(jī)器人」成為現(xiàn)實(shí)。憑借其極具潛力的技術(shù)路線,該公司在早期就獲得了包括英偉達(dá)和 boldstart ventures 等機(jī)構(gòu)的投資支持。

該公司的核心創(chuàng)始團(tuán)隊(duì)可謂豪華 ——CEO Pete Florence 來自 Google DeepMind,CTO Andrew Barry 來自波士頓動(dòng)力,首席科學(xué)家 Andy Zeng 曾任 Google DeepMind 研究科學(xué)家。加入 Generalist 前,該公司的部分成員參與了 PaLM-E、RT-2 等模型的研發(fā)與發(fā)布,負(fù)責(zé)將 ChatGPT、GPT-4 規(guī)模化推廣至數(shù)億用戶,或參與 Atlas、Spot、Stretch 等關(guān)鍵自動(dòng)駕駛技術(shù)與機(jī)器人系統(tǒng)開發(fā)。

在 GEN-1 之前,他們推出的 GEN-0 模型已經(jīng)驗(yàn)證了「物理交互數(shù)據(jù)可以轉(zhuǎn)化為可預(yù)測、可擴(kuò)展的機(jī)器智能」。

GEN-1 發(fā)布后,Generalist CEO Pete Florence 本周發(fā)布的一篇博客文章再次成為了社區(qū)討論的熱點(diǎn)。在文中,作者直指目前具身智能領(lǐng)域流行的 VLA(視覺 - 語言 - 動(dòng)作)模型趨勢(shì)。

作為 VLA 概念的共同開創(chuàng)者,他們現(xiàn)在卻表示要「拋棄」VLA 乃至世界模型的標(biāo)簽定義,因?yàn)樵谒麄兛磥?,過于在意工具的標(biāo)簽,反而會(huì)限制通往物理 AGI 的想象力。

讓我們看看他是怎么說的。



在 GEN-1 中,大約 99% 的參數(shù)是從零開始訓(xùn)練的。

在過去,這或許會(huì)被視為一種瘋狂之舉。但對(duì)于 Generalist 而言,這卻是一個(gè)深思熟慮的抉擇。這一決策源于我們堅(jiān)定不移的信念 —— 我們?yōu)榇艘褲撔母艃赡曛?—— 即:只要擁有足夠的數(shù)據(jù),通過對(duì)基礎(chǔ)模型保持完全的掌控權(quán),便能以更快的步伐推動(dòng)前沿技術(shù)的突破。

GEN-1 絕非那種僅僅生硬地「外掛」了機(jī)器人動(dòng)作模塊的微調(diào)版視覺 - 語言模型(VLM),它也不僅僅是一個(gè)單純的「世界模型」。它是一個(gè)擁有「一等公民」地位、專為物理交互場景而原生構(gòu)建的基礎(chǔ)模型。越來越多的證據(jù)表明:只要具備充足的數(shù)據(jù)與算力,從零開始進(jìn)行訓(xùn)練(training from scratch)始終是致勝之道。

在 2026 年初,「世界模型」正迎來屬于它的高光時(shí)刻;而在 2023 至 2025 年間,風(fēng)頭正勁的則是「視覺 - 語言 - 動(dòng)作模型」(VLA)。追逐熱點(diǎn)與潮流,本就是學(xué)術(shù)研究領(lǐng)域的常態(tài)。

在 Generalist,我們從未將自家模型歸類為 VLA 或世界模型。這絕非偶然。事實(shí)上,我們正是 VLA 概念的共同開創(chuàng)者之一;自 2023 年起,我們便持續(xù)在機(jī)器人領(lǐng)域發(fā)表關(guān)于世界模型的研究成果,而我們?cè)谶@一領(lǐng)域的實(shí)際探索與耕耘,更是早在數(shù)年前便已啟動(dòng)。

既然如此,為何我們偏不給模型貼上標(biāo)簽?zāi)??原因有三:首先,你的終極目標(biāo)遠(yuǎn)比你所使用的「工具」標(biāo)簽本身更為重要;其次,正如你不會(huì)將所有的矩形都統(tǒng)稱為正方形一樣,概念的界定需要精準(zhǔn);最后,是因?yàn)榧夹g(shù)供給側(cè)的格局終將發(fā)生演變。接下來,我們將逐一深入剖析這三個(gè)層面的考量。

目標(biāo)比工具上的標(biāo)簽更重要

首先也是最重要的是,目標(biāo)比方法更具力量。幾年前,John Schulman 在一篇對(duì)比「理念驅(qū)動(dòng)」與「目標(biāo)驅(qū)動(dòng)」研究的文章中,對(duì)這一區(qū)別做出了精辟的闡述:理念驅(qū)動(dòng)型研究往往追隨潮流,致力于改進(jìn)最新的技術(shù)方法;而目標(biāo)驅(qū)動(dòng)型研究則首先確立一個(gè)具體的預(yù)期成果,隨后著手解決實(shí)現(xiàn)該成果過程中遇到的任何障礙。

這種區(qū)分至關(guān)重要,因?yàn)樗粌H決定了你會(huì)構(gòu)建出什么,更關(guān)鍵的是,它決定了你不會(huì)被哪些事物所干擾。正如 Schulman 所指出的 —— 這也是我本人的切身體會(huì) —— 通常而言,目標(biāo)驅(qū)動(dòng)型路徑往往更具成效。

當(dāng)前圍繞「世界模型」展開的討論,本質(zhì)上屬于理念驅(qū)動(dòng)型研究。誠然,這些技術(shù)本身確實(shí)令人振奮。但構(gòu)建一個(gè)「世界模型」本身,或許并非真正的終極目標(biāo) —— 即便對(duì)于那些正投身于世界模型研究的科研人員而言,情況亦是如此。真正值得深思的問題在于:你的終極目標(biāo)究竟是什么?

我們認(rèn)為,一個(gè)極具價(jià)值且值得長期追求的目標(biāo),是實(shí)現(xiàn)機(jī)器人技術(shù)的「完全零樣本」(Fully Zero-shot)能力:即讓機(jī)器人能夠以極高的成功率和運(yùn)行速度,執(zhí)行那些它們從未見過的各類任務(wù),且在執(zhí)行過程中,完全無需任何針對(duì)特定任務(wù)的訓(xùn)練數(shù)據(jù)。如果所涉任務(wù)種類繁多、復(fù)雜度極高且具有足夠的應(yīng)用價(jià)值,那么實(shí)現(xiàn)這一目標(biāo),便可被視為需要具備「完全物理通用人工智能」(Full Physical AGI)能力的標(biāo)志。

不過,在此終極目標(biāo)達(dá)成之前,我們還可以設(shè)定一系列具體的階段性里程碑,從而構(gòu)建一條循序漸進(jìn)的進(jìn)階路徑:與其一步到位追求「完全零樣本」,不如先允許為特定任務(wù)(姑且稱之為任務(wù) X)提供少量機(jī)器人訓(xùn)練數(shù)據(jù),并確保機(jī)器人能以極高的性能水平完成該任務(wù)。

如此一來,目標(biāo)驅(qū)動(dòng)型的研發(fā)路線圖便清晰可見:在持續(xù)提升任務(wù)執(zhí)行性能的同時(shí),逐步削減所需訓(xùn)練數(shù)據(jù)量 X。假如我們能僅憑大約一小時(shí)的機(jī)器人訓(xùn)練數(shù)據(jù),便在各類任務(wù)中普遍實(shí)現(xiàn) 99% 以上的成功率,那么這項(xiàng)技術(shù)將具備廣闊的商業(yè)應(yīng)用前景。這便是一個(gè)具體、可量化且完全獨(dú)立于具體技術(shù)方法之外的「目標(biāo)驅(qū)動(dòng)型」里程碑。

此外,正如我此前的經(jīng)驗(yàn)所印證的那樣:在科研工作中,若能確立既具體又充滿雄心的目標(biāo),往往能起到事半功倍的效果:它將成為一個(gè)強(qiáng)有力的跳板,引領(lǐng)研究工作向更廣闊的領(lǐng)域拓展。

奇妙的是,這種做法往往比單純選擇某種「看似能解決各類問題」的技術(shù)方法要有效得多。一個(gè)典型的例證便是:最早問世的多模態(tài)語言模型之一,其最初的研發(fā)初衷正是為了服務(wù)于一項(xiàng)特定的機(jī)器人技術(shù)目標(biāo)。然而,在隨后的評(píng)估測試中,該模型卻在醫(yī)療診斷等一系列基準(zhǔn)測試中展現(xiàn)出了卓越的性能。

這一成果的誕生,正是源于一種「凡是解決問題所需,皆全力以赴」的務(wù)實(shí)心態(tài),而非那種死守某種特定技術(shù)方法不放的僵化思維。相反,以目標(biāo)為導(dǎo)向能賦予你靈活性,讓你得以考量任何有助于達(dá)成目標(biāo)的方法。

我們究竟能走多遠(yuǎn)?

其次,若僅通過「非此即彼」(or)的問題(例如必須嚴(yán)格在方法 A 和方法 B 之間二選一)來框定機(jī)器學(xué)習(xí),這種做法是具有局限性的。更深層的真諦在于去追問:「我們究竟能走多遠(yuǎn)?」或者更進(jìn)一步,去對(duì)既定目標(biāo)與約束條件建立更為深刻的理解。

人們往往很自然地認(rèn)為,事物必須被歸入特定的類別,或者在多種方法或資源來源中必須「擇其一」而用之。幾乎每一個(gè)學(xué)科都可能陷入這種思維陷阱。舉幾個(gè)貼近現(xiàn)實(shí)的例子:在機(jī)器人學(xué)發(fā)展的早期階段,曾流行著這樣一種觀點(diǎn) —— 研究者必須在「感知」與「控制」這兩大領(lǐng)域中擇一深耕。

又如在 2020 年代初期,許多 AI 公司的產(chǎn)品經(jīng)理曾普遍認(rèn)為,每一個(gè)細(xì)分應(yīng)用場景都注定需要一套專屬的定制模型,卻未能意識(shí)到「大規(guī)模協(xié)同訓(xùn)練」(cotraining)所能帶來的巨大收益。

然而,真正值得探究的問題其實(shí)是:在既定的約束條件下,我們究竟能實(shí)現(xiàn)怎樣的突破?我們究竟能走多遠(yuǎn)?而在這些約束條件中,又有哪些是可以被打破或消除的?我們究竟能走得多遠(yuǎn)?舉一個(gè)具體的例子:著名的 Chinchilla 論文正是這種思維理念結(jié)出的碩果,它不僅榮獲了 NeurIPS 大會(huì)的「杰出論文獎(jiǎng)」,更在工業(yè)界產(chǎn)生了立竿見影的巨大影響。



在絕大多數(shù)情況下,一個(gè)「非此即彼」(or)的問題,往往可以轉(zhuǎn)化為一個(gè)「兼而有之」(and)的問題;隨后,這個(gè)問題又可進(jìn)一步轉(zhuǎn)化為「各類成分應(yīng)各占多少比例」的配比問題;最終,它將升華為一個(gè)關(guān)于宏大目標(biāo)與核心約束條件的深層探究。

在過去兩年間,我們正是秉持著這一理念,對(duì)自身的訓(xùn)練方法進(jìn)行了持續(xù)的迭代與優(yōu)化。在過去一年多的時(shí)間里,我們一直在積極嘗試融合來自不同領(lǐng)域的思想 —— 涵蓋了所謂的「視覺語言動(dòng)作模型」(VLA)、「世界模型」(World Models),乃至更為前沿的探索方向。當(dāng)一個(gè)模型所融合的跨學(xué)科能力越豐富,將其強(qiáng)行歸入某一特定類別也就越發(fā)困難。

歸根結(jié)底,真正具有決定性意義的唯有一點(diǎn):它究竟能帶我們走多遠(yuǎn)?

視覺-語言模型只是一根「拐杖」?

第三,供給側(cè)將會(huì)發(fā)生變化。你不僅要考量當(dāng)前的制約因素,更要思考這些制約因素將如何不可避免地發(fā)生演變。制約因素變化得越快,這一點(diǎn)就顯得愈發(fā)重要。

有人指出,當(dāng)前的一個(gè)制約因素在于機(jī)器人領(lǐng)域的數(shù)據(jù)量尚不充裕。但這并非一種具有長遠(yuǎn)眼光的觀點(diǎn)。如今,隨著我們掌握了超過 50 萬小時(shí)的物理交互數(shù)據(jù),我們已能夠擺脫這一制約,去探索更深層的問題。

同理,將「視覺 - 語言」訓(xùn)練引入機(jī)器人領(lǐng)域,其背后的一大動(dòng)因正是因?yàn)闄C(jī)器人領(lǐng)域自身的數(shù)據(jù)積累尚顯不足。因此,從某種意義上講,在機(jī)器人數(shù)據(jù)尚未充裕的過渡期內(nèi),所有的「視覺 - 語言」訓(xùn)練都可以被視為一種有益的「拐杖」。誠然,世間現(xiàn)存的視頻數(shù)據(jù)(以字節(jié)計(jì))確實(shí)遠(yuǎn)多于語言數(shù)據(jù),但歸根結(jié)底,它依然只是一根「拐杖」。那么,當(dāng)不再需要這根「拐杖」時(shí),下一步該走向何方?屆時(shí),你還會(huì)想要依賴這根「拐杖」嗎?

邁向物理 AGI

目標(biāo)的力量遠(yuǎn)勝于具體的方法;我們應(yīng)當(dāng)在既定的制約條件下尋求最優(yōu)解,而非局限于既有的類別劃分中去「選賽道」;況且,這些制約因素本身也是注定會(huì)發(fā)生變化的。

自 Generalist 成立之初,我們便始終致力于對(duì)一切進(jìn)行徹底的重構(gòu)與反思,旨在推動(dòng)具身通用人工智能(Physical AGI)的實(shí)現(xiàn)。正是基于這一理念,我們打造出了 GEN-1—— 這是一個(gè)完全從零開始訓(xùn)練的模型,其訓(xùn)練所依據(jù)的正是我們所擁有的(亦是全球規(guī)模最大的)物理交互數(shù)據(jù)集。無論是模型的架構(gòu)設(shè)計(jì)、訓(xùn)練流程,還是推理執(zhí)行機(jī)制,其每一個(gè)環(huán)節(jié)都經(jīng)過了精心設(shè)計(jì)與反復(fù)迭代;在這一過程中,我們完全擺脫了那些由他人出于不同目的而預(yù)設(shè)的決策框架所帶來的束縛。

我們已向世人展示了該模型所具備的驚人潛能 —— 從機(jī)器人領(lǐng)域的 Scaling Laws,到僅需數(shù)小時(shí)便能泛化適應(yīng)全新環(huán)境與具身形態(tài)的能力,再到通過大規(guī)模預(yù)訓(xùn)練所涌現(xiàn)出的即興智能…… 而這一切,僅僅是一個(gè)開端。

參考內(nèi)容:

https://x.com/peteflorence/status/2041529286562402804

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
女子高空拋撒百萬港幣后續(xù):正面照曝光,原因公開,親屬曝出內(nèi)情

女子高空拋撒百萬港幣后續(xù):正面照曝光,原因公開,親屬曝出內(nèi)情

解鎖世界風(fēng)云
2026-04-15 20:34:10
特朗普稱有能力在“一小時(shí)內(nèi)”摧毀伊朗的橋梁和發(fā)電廠

特朗普稱有能力在“一小時(shí)內(nèi)”摧毀伊朗的橋梁和發(fā)電廠

新華社
2026-04-15 20:15:07
麥當(dāng)娜:與保鏢的性愛視頻,被保鏢拍賣后,她的反應(yīng)讓人稱贊

麥當(dāng)娜:與保鏢的性愛視頻,被保鏢拍賣后,她的反應(yīng)讓人稱贊

七阿姨愛八卦
2026-04-15 17:23:47
南通一客運(yùn)站掛出招租橫幅!一代人的擠車記憶,真的落幕了?

南通一客運(yùn)站掛出招租橫幅!一代人的擠車記憶,真的落幕了?

好通網(wǎng)
2026-04-15 08:46:44
江西男子徐平安去世,年僅24歲,愛健身一身肌肉,確診后不到一年

江西男子徐平安去世,年僅24歲,愛健身一身肌肉,確診后不到一年

社會(huì)日日鮮
2026-04-15 05:53:10
企業(yè)增值稅的設(shè)計(jì):虧損了也要交稅

企業(yè)增值稅的設(shè)計(jì):虧損了也要交稅

生命可以承受之輕
2026-04-15 06:48:23
兩岸命運(yùn)掌握在自己手上!鄭麗文喊話賴清德:為和平大業(yè)愿意溝通

兩岸命運(yùn)掌握在自己手上!鄭麗文喊話賴清德:為和平大業(yè)愿意溝通

海峽導(dǎo)報(bào)社
2026-04-15 17:04:04
采訪了100個(gè)娶了小三的男人,他們幾乎都說了同一句話,讓人恍然

采訪了100個(gè)娶了小三的男人,他們幾乎都說了同一句話,讓人恍然

千秋文化
2026-04-15 20:18:32
A股迎重磅新政:三十年來首次延長交易時(shí)長,牛市要來了

A股迎重磅新政:三十年來首次延長交易時(shí)長,牛市要來了

人生錄
2026-04-15 16:18:11
王哲林20+16上海險(xiǎn)勝廣州豪取20連勝 徐昕10+15伯頓36+10

王哲林20+16上海險(xiǎn)勝廣州豪取20連勝 徐昕10+15伯頓36+10

醉臥浮生
2026-04-15 21:22:42
張子強(qiáng)團(tuán)伙中,唯一聽了李嘉誠建議買28套豪宅的青年,后來如何了

張子強(qiáng)團(tuán)伙中,唯一聽了李嘉誠建議買28套豪宅的青年,后來如何了

深度報(bào)
2026-04-14 22:45:47
臭氣熏天,記者現(xiàn)場“yue”個(gè)不停!網(wǎng)友:很久沒看到這么有“活人感”的報(bào)道,隔著屏幕都能感受到

臭氣熏天,記者現(xiàn)場“yue”個(gè)不停!網(wǎng)友:很久沒看到這么有“活人感”的報(bào)道,隔著屏幕都能感受到

深圳晚報(bào)
2026-04-15 14:53:52
泰國征兵再出“美女”奇葩名場面!有人盛裝亮相美成天仙,有人為逃避吃成200斤?

泰國征兵再出“美女”奇葩名場面!有人盛裝亮相美成天仙,有人為逃避吃成200斤?

英國報(bào)姐
2026-04-14 21:12:12
反轉(zhuǎn)!巴西部長強(qiáng)行封殺比亞迪,盧拉深夜震怒:立刻卷鋪蓋走人!

反轉(zhuǎn)!巴西部長強(qiáng)行封殺比亞迪,盧拉深夜震怒:立刻卷鋪蓋走人!

共工之錨
2026-04-15 00:31:36
張雪峰去世不到一個(gè)月,員工宣布離職,低價(jià)挖客戶,賬號(hào)已私密

張雪峰去世不到一個(gè)月,員工宣布離職,低價(jià)挖客戶,賬號(hào)已私密

180視角
2026-04-15 17:52:51
上萬美軍封鎖下,多艘貨船成功通過霍爾木茲海峽,美軍稱已完全切斷伊朗海上進(jìn)出口貿(mào)易;美國為何在此時(shí)打出“封鎖牌”?伊朗如何反擊?

上萬美軍封鎖下,多艘貨船成功通過霍爾木茲海峽,美軍稱已完全切斷伊朗海上進(jìn)出口貿(mào)易;美國為何在此時(shí)打出“封鎖牌”?伊朗如何反擊?

每日經(jīng)濟(jì)新聞
2026-04-15 10:59:49
王博被驅(qū)逐!三大核心缺席廣廈惜敗山西 布朗空砍41分

王博被驅(qū)逐!三大核心缺席廣廈惜敗山西 布朗空砍41分

醉臥浮生
2026-04-15 21:51:38
不想訪華了?特朗普召回美駐華大使,貝森特?fù)P言:中國“不可靠”

不想訪華了?特朗普召回美駐華大使,貝森特?fù)P言:中國“不可靠”

影孖看世界
2026-04-15 22:29:46
何潤東瞿穎內(nèi)衣廣告爆了!網(wǎng)友:太頂了!

何潤東瞿穎內(nèi)衣廣告爆了!網(wǎng)友:太頂了!

品牌頭版
2026-04-15 20:29:41
女子利用天氣預(yù)報(bào)頻繁購買飛機(jī)延誤險(xiǎn),5年買中900多次,獲賠近300萬,被抓時(shí):我符合保險(xiǎn)理賠要求

女子利用天氣預(yù)報(bào)頻繁購買飛機(jī)延誤險(xiǎn),5年買中900多次,獲賠近300萬,被抓時(shí):我符合保險(xiǎn)理賠要求

譚老師地理大課堂
2026-04-15 20:11:42
2026-04-15 23:35:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12772文章數(shù) 142628關(guān)注度
往期回顧 全部

科技要聞

ChatGPT十億用戶又怎樣?Anthropic直接貼臉

頭條要聞

豫劇團(tuán)下鄉(xiāng)演出臺(tái)下觀眾痛哭流涕:觀眾超千人一半落淚

頭條要聞

豫劇團(tuán)下鄉(xiāng)演出臺(tái)下觀眾痛哭流涕:觀眾超千人一半落淚

體育要聞

三球準(zhǔn)絕殺戴大金鏈:轟30+10自我救贖

娛樂要聞

謝娜現(xiàn)身環(huán)球影城,牽手女兒溫馨有愛

財(cái)經(jīng)要聞

業(yè)績失速的Lululemon:"健康"人設(shè)崩塌?

汽車要聞

空間絲毫不用妥協(xié) 小鵬GX首發(fā)評(píng)測

態(tài)度原創(chuàng)

教育
家居
本地
藝術(shù)
公開課

教育要聞

千城百縣看中國|山東定陶:創(chuàng)意滿格大課間

家居要聞

簡而不減 暖居之道

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

藝術(shù)要聞

這山水,蕩滌胸中塵埃

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版