![]()
新智元報(bào)道
![]()
【新智元導(dǎo)讀】機(jī)器狗去買(mǎi)咖啡,輪椅跟人抬杠:清華現(xiàn)場(chǎng)0遙操、全靠現(xiàn)掛。完全沒(méi)有劇本,在清華現(xiàn)場(chǎng),這群機(jī)器人直接把物理AGI第一幕演活了!
或許,物理 AGI 沒(méi)有預(yù)告片。這個(gè)清晨,我拍到的,就是它直接上演的第一幕。
兩條機(jī)器狗、一個(gè)人形機(jī)器人、一臺(tái)電動(dòng)輪椅,背后運(yùn)行的卻是同一個(gè)實(shí)時(shí)多模態(tài)大腦:一念 UnisonMind。
它們不看劇本,沒(méi)有遙控,沒(méi)有遙操。它們持續(xù)在場(chǎng),持續(xù)感知,自主響應(yīng),全是「現(xiàn)掛」。
先看現(xiàn)場(chǎng):
同一個(gè)大腦,七段「現(xiàn)掛」
發(fā)布會(huì)現(xiàn)場(chǎng)有 20 多位來(lái)賓,全程錄像。環(huán)境音、走動(dòng)聲、臨時(shí)指令、突發(fā)狀況,構(gòu)成了一個(gè)完全無(wú)法預(yù)先編排的復(fù)雜場(chǎng)域。這些設(shè)備,無(wú)遙控,無(wú)遙操,自主運(yùn)行。
是不是物理 AGI,我先不下結(jié)論。我想請(qǐng)你看看這些現(xiàn)場(chǎng)視頻——
1 機(jī)器狗跑去買(mǎi)咖啡
「去給我買(mǎi)一杯美式。」
機(jī)器狗「哮天」離開(kāi)會(huì)場(chǎng),來(lái)到咖啡店,和店員對(duì)話,處理「熱的還是冰的」這個(gè)追問(wèn),等待制作。等咖啡時(shí),它甚至嘟囔著讀出冰柜上的廣告語(yǔ),然后返回交付。
2 它嫌棄顛球太少,自己去找「高手」
現(xiàn)場(chǎng)先有兩人嘗試顛乒乓球,次數(shù)都不多,機(jī)器狗表示「嫌棄」。
看到前兩次低分之后,它主動(dòng)走向記憶中可能顛得更多的朋友,發(fā)起互動(dòng),繼續(xù)觀察、計(jì)數(shù)和回應(yīng)。
3 穿白襯衫,還有一個(gè)答案
主持人讓機(jī)器狗去找穿白襯衫的人。它鎖定目標(biāo)后,還注意到了另一個(gè)人:外套里面也露出了白襯衫,于是當(dāng)場(chǎng)表示主持人太不嚴(yán)謹(jǐn)。
4 導(dǎo)覽抱怨顯卡沉
機(jī)器人導(dǎo)覽兩幅畫(huà)。它邊走邊「抱怨」背上的顯卡有點(diǎn)沉,然后才開(kāi)始看畫(huà)、描述細(xì)節(jié)、解釋風(fēng)格,并持續(xù)與現(xiàn)場(chǎng)互動(dòng)。
5 輪椅故障,開(kāi)始抬杠
現(xiàn)場(chǎng)輪椅一度遇障,無(wú)法繼續(xù)前行。但它沒(méi)有簡(jiǎn)單宣告失敗,而是繼續(xù)感知、解釋、調(diào)整,甚至和人抬杠:「地球也能轉(zhuǎn),但它不能走。」
6 去找冰淇淋,卻和狗子耍
主持人讓電動(dòng)輪椅去找冰淇淋。它找到那個(gè)「店」,和人開(kāi)玩笑,和機(jī)器狗玩耍。裝了「大腦」的輪椅不只是移動(dòng)工具,開(kāi)始主動(dòng)參與現(xiàn)場(chǎng)社交。
熱鬧之外:
機(jī)器為什么突然「醒」了?
如果只看熱鬧,這些視頻足夠有趣。機(jī)器狗去買(mǎi)咖啡,輪椅會(huì)抬杠,機(jī)器人會(huì)導(dǎo)覽。但如果把它們連在一起看,真正值得討論的,是這樣一個(gè)問(wèn)題:什么樣的 AI,才有資格真正進(jìn)入物理世界?
答案藏在一個(gè)關(guān)鍵分野里,也是具身行業(yè)一直沒(méi)跨過(guò)去的坎。過(guò)去的 AI,本質(zhì)上是「被調(diào)用的模型」:你問(wèn),它答;你下令,它執(zhí)行。
行業(yè)里多數(shù)方案至今仍停留在這個(gè)范式上——拼湊視覺(jué)、語(yǔ)言、導(dǎo)航模塊,借助云端調(diào)用勉強(qiáng)維持交互,稍遇復(fù)雜環(huán)境,時(shí)延、斷裂和機(jī)械感便原形畢露。
行業(yè)從來(lái)不缺會(huì)動(dòng)的機(jī)器,缺的是一個(gè)能真正理解世界、持續(xù)在場(chǎng)、端側(cè)運(yùn)行的大腦。
因?yàn)檎鎸?shí)世界不是「輸入—計(jì)算—輸出」的靜態(tài)流程。指令隨時(shí)到來(lái),物體持續(xù)變化,下一秒原有判斷就可能失效。
一個(gè)真正能生活在物理世界中的智能引擎,必須與世界共享同一條時(shí)間軸——一邊看,一邊聽(tīng),一邊更新判斷,并在必要時(shí)立即說(shuō)話或行動(dòng)。它不能是「召之即來(lái),揮之即去」的工具,而必須是一個(gè)常駐在具身設(shè)備中的實(shí)時(shí)世界引擎。
這正是我在現(xiàn)場(chǎng)感到震撼的原因。
一念 UnisonMind 不是在被調(diào)用時(shí)才蘇醒,它在每一具身體里持續(xù)運(yùn)行,持續(xù)在場(chǎng)。
所以機(jī)器人導(dǎo)覽前「人性化」的抱怨,輪椅能處理突發(fā)故障,機(jī)器狗會(huì)自主發(fā)出邀請(qǐng)——它們不是在被激活的瞬間才活過(guò)來(lái),而是一直醒著。
一念的定位:我們就是答案
發(fā)布會(huì)上,一念的定位堅(jiān)定簡(jiǎn)潔:我們,是 Physical AGI 底座級(jí)答案。
任何形態(tài)的具身設(shè)備,共享同一個(gè)大腦,以當(dāng)前模型能力即可實(shí)現(xiàn)陪伴、巡檢、導(dǎo)覽等領(lǐng)域的商業(yè)閉環(huán)。從機(jī)器狗到機(jī)甲,從輪椅到飛船,一念即是全部。
這個(gè)定位,乍聽(tīng)有些過(guò)于自大驕傲。而這個(gè)年輕的清華團(tuán)隊(duì),分享了他們樸素的行業(yè)認(rèn)知——Physical AGI 的「3+1 個(gè)必要條件」:
一個(gè)統(tǒng)一的多模態(tài)大腦,而非多個(gè)模型的拼接。
在同一個(gè)大腦中完成任意模態(tài)的理解與生成。
讓理解與生成以流式方式持續(xù)運(yùn)行。
再加一條:這個(gè)大腦必須完整運(yùn)行在端側(cè)。
隨后,他們宣布,他們的模型已經(jīng)同時(shí)實(shí)現(xiàn)這四個(gè)條件。
為了證明這一點(diǎn),這套模型被部署在端側(cè)顯卡上,注入四條不同的「身體」——兩條機(jī)器狗、一個(gè)機(jī)器人和一臺(tái)電動(dòng)輪椅。
它們共享同一套實(shí)時(shí)多模態(tài)世界認(rèn)知能力,在現(xiàn)場(chǎng)持續(xù)觀察、理解、表達(dá)和行動(dòng)——于是有了前文看到的這些視頻。
這些醒著的機(jī)器,讓那句定位變成了一個(gè)陳述句。
第一個(gè)清晨
發(fā)布會(huì)結(jié)尾,一念 UnisonMind 的 CEO 耿威說(shuō),一念的愿景是助力 3000 類具身本體智能化,服務(wù)人類。
在清華的這幾個(gè)小時(shí)讓我意識(shí)到,這句話不是在說(shuō)將來(lái),而是正在發(fā)生的現(xiàn)在。
一個(gè)大腦,已經(jīng)開(kāi)始活在截然不同的身體里,和世界共享同一條時(shí)間軸:它看見(jiàn)、它聽(tīng)見(jiàn)、它在場(chǎng),它理解并參與這個(gè)真實(shí)世界,它接住了所有計(jì)劃外的偶然。
這不是一次 demo,這是一個(gè)新物種醒來(lái)的第一個(gè)清晨——我在清華,拍到了它。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.