无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

獨(dú)家|兩位清華教授聯(lián)手創(chuàng)業(yè),要打造以人為中心的具身模型范式

0
分享至



2026 年,機(jī)器人正在準(zhǔn)備走進(jìn)家庭,和人類(lèi)同處一個(gè)屋檐下。

但在這背后,一個(gè)難以忽略的現(xiàn)實(shí)是:當(dāng)前幾乎所有具身智能模型的訓(xùn)練中,“人”是缺席的。

模型已經(jīng)學(xué)會(huì)了抓取水杯、折疊衣物、執(zhí)行一條條指令,卻幾乎無(wú)法理解坐在沙發(fā)上的人此刻是疲憊還是焦躁。然而對(duì)于人類(lèi)來(lái)說(shuō),有時(shí)遞過(guò)一杯水的時(shí)機(jī)與方式,可能比“遞水”這個(gè)動(dòng)作本身更重要。

這個(gè)問(wèn)題吸引了兩位學(xué)者:馮瑤和劉淼的注意。在他們看來(lái),具身智能要真正落地生活場(chǎng)景,必須把對(duì)“人”的理解加入模型。對(duì)物體的操作能力和對(duì)人的理解需要同步推進(jìn),而非先后分離。

馮瑤目前是斯坦福大學(xué)的博士后,明年即將入職清華人工智能學(xué)院任教。她在博士階段師從計(jì)算機(jī)視覺(jué)領(lǐng)域的重要學(xué)者 Michael J. Black,在德國(guó)馬普所專(zhuān)注"人"的數(shù)字化建模,用算法重建人體的三維形態(tài)、動(dòng)作與姿態(tài),讓機(jī)器理解人類(lèi)身體如何在空間中移動(dòng)、交互。到斯坦福后轉(zhuǎn)入機(jī)器人方向,試圖把對(duì)人的理解帶進(jìn)物理世界。

而剛從海外回國(guó)的劉淼,目前擔(dān)任清華大學(xué)人工智能學(xué)院的助理教授。他在過(guò)去三年在 Meta GenAI 參與了 Llama 3 與 Llama 4 等多模態(tài)大模型的研發(fā),博士期間在佐治亞理工研究第一視角視覺(jué)與具身感知。

雖然兩人的研究路徑不同,但他們看到了同一塊缺失:當(dāng)前的具身智能訓(xùn)練中,"人"并沒(méi)有被放在一個(gè)重要的位置。無(wú)論是對(duì)人體進(jìn)行三維建模,還是用第一視角數(shù)據(jù)訓(xùn)練模型,畫(huà)面中的"人"往往只是背景而非交互主體。模型學(xué)會(huì)了識(shí)別場(chǎng)景中的一切物體,卻讀不懂對(duì)面那個(gè)人的狀態(tài)、意圖與需求。

于是他們決定一起創(chuàng)業(yè)——打造一種以人為中心(Human-Centric)的全新具身模型范式,讓機(jī)器人真正理解“人”的行為、意圖、記憶與偏好,并最終在真實(shí)的共處場(chǎng)景中建立信任。

在這場(chǎng)對(duì)話(huà)中,我們的問(wèn)題始終圍繞“人”展開(kāi):機(jī)器人該如何捕捉需求、推斷意圖,進(jìn)而贏得信任?答案可能藏在尚未成型的數(shù)據(jù)范式里,可能指向仍在探索的模型架構(gòu),也可能依賴(lài)一套需要徹底重構(gòu)的評(píng)測(cè)體系……

一切還在探索之中。

以下是我們的對(duì)話(huà):

為什么是“人”?從大模型到具身智能的轉(zhuǎn)向

DeepTech:兩位為什么會(huì)選擇具身智能這個(gè)方向進(jìn)行研究?

劉淼:其實(shí)我在博士階段做的就是機(jī)器人方向,比如基于第一視角視覺(jué)(egocentric vision),結(jié)合 learning from demonstration 或 imitation learning,讓機(jī)器人通過(guò)模仿學(xué)習(xí)去完成更接近人類(lèi)的操作任務(wù)。

當(dāng)時(shí)受限于項(xiàng)目條件,我們更多只能做一些偏“純視覺(jué)”的研究。后來(lái)在 Meta 工作期間,由于研究方向相對(duì)自上而下(top-down),個(gè)人能夠選擇的空間比較有限,這條路徑依然沒(méi)有被系統(tǒng)性推進(jìn)。

但具身智能在我心里其實(shí)一直沒(méi)有放下。我始終希望有機(jī)會(huì)把“讓機(jī)器人真正像人一樣在物理世界中行動(dòng)”這件事做好。

馮瑤:我的路徑和劉淼有些不同。我的出發(fā)點(diǎn)就是“人”,在博士階段,我在德國(guó)主要的工作是做“人”的建模,比如什么是好的 human representation(人體表征),以及如何從網(wǎng)絡(luò)數(shù)據(jù)中理解人類(lèi)行為。我也嘗試過(guò)結(jié)合大模型做行為理解,但這些大多在“數(shù)字世界”里完成。

但純數(shù)字環(huán)境的問(wèn)題在于缺乏真實(shí)的交互感,也很難評(píng)估模型是否真的“理解了人”。因?yàn)槿鄙倏煽康?benchmark。

后來(lái)我去了斯坦福,加入機(jī)器人團(tuán)隊(duì),把這些關(guān)于“人”的建模放到物理世界中驗(yàn)證。我逐漸意識(shí)到:只有當(dāng)模型既能理解人類(lèi)行為,又能驅(qū)動(dòng)一個(gè)實(shí)體在真實(shí)世界中與人交互時(shí),我們才真正有機(jī)會(huì)判斷它是否“做對(duì)了”。

而機(jī)器人就像一個(gè)天然的測(cè)試平臺(tái)。你讓它去行動(dòng)、去互動(dòng),很多問(wèn)題會(huì)立刻暴露出來(lái),推動(dòng)研究從“看起來(lái)有效”轉(zhuǎn)向“真正可用”。

DeepTech:劉淼老師之前在 Meta GenAI 參與過(guò) Llama 3/4 等大模型訓(xùn)練,那是純粹的數(shù)字世界;但具身智能需要處理復(fù)雜的物理世界。除了熱愛(ài),這種轉(zhuǎn)變背后是什么原因?

劉淼:費(fèi)曼有一句很有名的話(huà):“What I cannot create, I do not understand.”(我無(wú)法創(chuàng)造的東西,我就無(wú)法真正理解。)

但在今天這個(gè)時(shí)代,這句話(huà)其實(shí)可以被“反過(guò)來(lái)”看。一個(gè)模型即使能夠生成文本、圖像甚至視頻,也不意味著它真正理解了物理世界。

什么才算真正的理解?一個(gè)標(biāo)準(zhǔn)是:它能否在物理世界中行動(dòng),并理解行動(dòng)帶來(lái)的后果。包括物理規(guī)律、因果關(guān)系,以及“動(dòng)作如何改變環(huán)境”。這正是具身智能被重視的原因:只有進(jìn)入真實(shí)世界、與環(huán)境交互,模型才可能形成類(lèi)似人類(lèi)的“世界模型”。

更重要的是,現(xiàn)實(shí)世界不只是由物體構(gòu)成的,它更是一個(gè)“有人存在的世界”。當(dāng)前的大模型在“理解人”上很有限。它們能識(shí)別動(dòng)作、服飾、年齡,但很難理解情緒、意圖,以及“心智理論”。

如果把這些模型直接放進(jìn)真實(shí)環(huán)境與人類(lèi)互動(dòng),它們很難穩(wěn)定工作。這個(gè)世界從來(lái)不是空的物理空間,而是充滿(mǎn)人的世界。忽略這一點(diǎn),具身智能走不遠(yuǎn)。這也是我在 Meta 時(shí)逐漸意識(shí)到的局限,所以我回國(guó)后,希望在這些方向上繼續(xù)探索。

DeepTech:相比海量的第三視角數(shù)據(jù),你所研究的第一視角數(shù)據(jù)的不可替代性在哪里?

劉淼:第一視角最核心的獨(dú)特性是“具身性”(embodiment):感知和動(dòng)作緊密耦合。感知驅(qū)動(dòng)動(dòng)作、動(dòng)作改變環(huán)境、環(huán)境反過(guò)來(lái)影響下一步的觀測(cè)。這種閉環(huán)是第一視角天然具備的,也更符合人類(lèi)的感知和行為方式。

另外,長(zhǎng)時(shí)間的第一視角視頻還隱含了人類(lèi)的認(rèn)知層級(jí):它記錄了你的意圖(視線(xiàn)主動(dòng)聚焦在哪里)、探索路徑(如何尋找目標(biāo)),以及到達(dá)目標(biāo)后如何利用環(huán)境完成任務(wù)。

這對(duì)應(yīng)了機(jī)器學(xué)習(xí)中的“探索與利用”的權(quán)衡(exploration vs. exploitation)。第一視角數(shù)據(jù)天然把兩者結(jié)合在了一起,對(duì)機(jī)器人學(xué)習(xí)非常有價(jià)值。

DeepTech:如果放在一個(gè)具體任務(wù)中,基于第一視角和第三視角的數(shù)據(jù),機(jī)器人實(shí)際表現(xiàn)會(huì)有什么差別?

劉淼:以廚房場(chǎng)景為例,比如洗菜或切菜。從第三視角看,你能大致判斷這個(gè)人在做什么。是站在水池邊或案板前,知道是洗菜或切菜。

但很多關(guān)鍵細(xì)節(jié)是捕捉不到的:具體洗到哪個(gè)位置、哪只手握菜、哪只手開(kāi)水龍頭,或者切菜時(shí)的角度、雙手配合、切到哪一步。這些細(xì)粒度的動(dòng)作信息,第三視角很難獲取。

而第一視角能直接對(duì)齊“手—眼—?jiǎng)幼鳌钡年P(guān)系,這對(duì)機(jī)器人學(xué)習(xí)可執(zhí)行的操作策略非常關(guān)鍵。

DeepTech:馮瑤老師,從 DECA、PIXIE 這樣的人體重建工作,到語(yǔ)言模型相關(guān)研究,再到近一兩年的人形機(jī)器人控制,這條路徑其實(shí)跨度很大。你的研究思路是怎樣的?

馮瑤:我一直想構(gòu)建一個(gè)真正的“實(shí)體智能體”,它能夠像人一樣存在和行動(dòng)。

從這個(gè)目標(biāo)往回看,第一步一定是理解“人本身”。早期的工作,比如 DECA、PIXIE,關(guān)注的是如何在數(shù)字世界中重建人,也就是學(xué)習(xí)一個(gè)有效的 human representation,以及從大規(guī)模互聯(lián)網(wǎng)數(shù)據(jù)中提取人的行為模式。

但一個(gè)很自然的問(wèn)題是:學(xué)到這些表示之后,下一步該做什么?大約在 2022 年,大模型的出現(xiàn)讓我很快意識(shí)到,這類(lèi)模型在建模和推理能力上是一個(gè)非常關(guān)鍵的突破。于是我們開(kāi)始嘗試把大模型和此前的人體表示結(jié)合起來(lái),讓模型不僅能“看到人”,還能在語(yǔ)義層面理解人類(lèi)行為。

再往前走,就遇到了一個(gè)很現(xiàn)實(shí)的問(wèn)題:我們很難判斷模型是否真的理解了人類(lèi)。即使構(gòu)建各種數(shù)據(jù)集和 benchmark,也很難覆蓋復(fù)雜、多變的真實(shí)行為。所以我后來(lái)去了斯坦福,進(jìn)入機(jī)器人方向,把模型放到真實(shí)的物理系統(tǒng)中,讓它和人發(fā)生交互。

在這個(gè)過(guò)程中也發(fā)現(xiàn),傳統(tǒng)強(qiáng)化學(xué)習(xí)(RL)往往更關(guān)注任務(wù)成功率或精度,但與人交互時(shí),柔順性(compliance)、安全性等因素同樣重要,這些在過(guò)去的算法設(shè)計(jì)中是被低估的。因此,后續(xù)的工作也會(huì)更多關(guān)注這些維度。

DeepTech:如果用一句話(huà)定義,你們理想中的 human-centric(以人為中心)的具身基礎(chǔ)模型是什么樣的?

劉淼:我希望這個(gè)模型能夠通過(guò)理解世界中的“人”,從而獲得對(duì)世界更完整的認(rèn)知。

馮瑤:我會(huì)覺(jué)得是通過(guò)理解人、以及人與人之間的交互,讓機(jī)器人更像“人”。

端到端還是模塊化?以及具身智能的“陷阱”

DeepTech:目前行業(yè)里存在端到端(end-to-end)和模塊化(modular)的路線(xiàn)之爭(zhēng)。兩位設(shè)想中的具身基礎(chǔ)模型,會(huì)更接近 VLA 這種端到端模型,還是會(huì)保留清晰的控制邊界?

馮瑤:我覺(jué)得“端到端 vs 模塊化”某種程度上是個(gè)偽命題。關(guān)鍵在于:在系統(tǒng)的哪一層引入可解釋性,哪一層做語(yǔ)義介入。比如疊衣服任務(wù),機(jī)器人不能只是“看到衣服就疊”,而是要先理解指令(“幫我把衣服疊一下”),找到衣服,執(zhí)行。

更關(guān)鍵的是,任務(wù)會(huì)動(dòng)態(tài)變化。如果疊到一半,你說(shuō)馬上要穿,它就得中止并切換任務(wù)。這就要求系統(tǒng)能在中間層插入語(yǔ)義理解與決策。

另外,可解釋性也很重要。如果機(jī)器人遞水失敗了,要知道是意圖理解錯(cuò)了、抓取失敗了,還是遞交位置不對(duì)。這些都需要分層語(yǔ)義表達(dá)。

所以我們的思路是:高層保留明確的語(yǔ)義結(jié)構(gòu)和可解釋性,底層控制(如抓取)采用更接近端到端的優(yōu)化方式,兼顧效率。這有點(diǎn)像人類(lèi)神經(jīng)系統(tǒng)。把“緩慢的社會(huì)認(rèn)知”與“快速的本能控制”解耦,避免用一個(gè)龐大網(wǎng)絡(luò)同時(shí)處理極難和極簡(jiǎn)單的問(wèn)題。

劉淼:我覺(jué)得現(xiàn)在之所以有“端到端 vs 模塊化”的討論,是因?yàn)槟壳叭蝿?wù)還比較簡(jiǎn)單。放到復(fù)雜場(chǎng)景(比如既要對(duì)話(huà)又要同時(shí)做飯),很難用一個(gè)統(tǒng)一模型同時(shí)輸出語(yǔ)言和動(dòng)作策略。

所以架構(gòu)的選擇,本質(zhì)上是由任務(wù)需求決定的。如果是高度結(jié)構(gòu)化、重復(fù)性的工業(yè)場(chǎng)景,比如“抓—取—放”,做成端到端系統(tǒng)是有可能的;但在開(kāi)放環(huán)境中,尤其是涉及人機(jī)交互的復(fù)雜任務(wù),就很難用單一架構(gòu)覆蓋。換句話(huà)說(shuō),不太可能存在一個(gè)統(tǒng)一的框架適用于所有場(chǎng)景,系統(tǒng)結(jié)構(gòu)會(huì)隨著任務(wù)復(fù)雜度和能力邊界不斷演化。

DeepTech:聽(tīng)起來(lái)你們的方案中有很多“語(yǔ)義插入”和動(dòng)態(tài)決策的設(shè)計(jì),你們認(rèn)為實(shí)現(xiàn)它最大的困難在哪里?

馮瑤:這條路線(xiàn)的難點(diǎn)在于它對(duì)“人”的理解要求更高。比如語(yǔ)義插入不僅僅是理解一句話(huà)的表層含義,還涉及對(duì)用戶(hù)的長(zhǎng)期建模:包括記憶(memory)、行為模式,以及具體情境。

舉個(gè)例子:用戶(hù)說(shuō)“這件衣服不用疊了”,系統(tǒng)需要理解原因。可能是這件衣服剛穿過(guò),需要放去清洗;也可能是馬上要穿,需要直接遞給用戶(hù)。這背后其實(shí)是一個(gè)復(fù)雜的決策過(guò)程,需要結(jié)合歷史信息、用戶(hù)習(xí)慣以及當(dāng)前狀態(tài)。因此,這不僅是一個(gè)感知或控制問(wèn)題,更是一個(gè)關(guān)于“人類(lèi)建模”的問(wèn)題,需要多模態(tài)信息融合和長(zhǎng)期記憶機(jī)制的支持。

從技術(shù)角度看,這一整套系統(tǒng)的復(fù)雜度是比較高的。 不僅是架構(gòu)復(fù)雜,更是數(shù)據(jù)壁壘。工業(yè)操作數(shù)據(jù)可以靠人工遙控在工廠里大規(guī)模刷出來(lái),但‘人機(jī)真實(shí)交互的信任數(shù)據(jù)’是無(wú)法在實(shí)驗(yàn)室里靠遙控演出來(lái)的,它必須通過(guò)真實(shí)用戶(hù)的長(zhǎng)期日常使用才能自然生長(zhǎng)。

劉淼:從行業(yè)角度來(lái)說(shuō),過(guò)去很多團(tuán)隊(duì)沒(méi)有優(yōu)先做這件事情,也有現(xiàn)實(shí)原因:是技術(shù)成熟度還不夠,另一方面大家普遍認(rèn)為“機(jī)器人進(jìn)入家庭”還比較遙遠(yuǎn),所以更傾向于先把基礎(chǔ)能力,比如抓取和操作,做好。

但現(xiàn)在我們判斷,這個(gè)時(shí)間點(diǎn)正在發(fā)生變化。雖然真正進(jìn)入家庭可能還需要幾年,但已經(jīng)不再是一個(gè)很遙遠(yuǎn)的目標(biāo)了。在這個(gè)階段,如果仍然只關(guān)注“抓取效率”或“操作精度”,其實(shí)是不夠的。因?yàn)橐粋€(gè)機(jī)器人如果不能理解人,就很難安全、可靠地和人共處。至少?gòu)挠脩?hù)角度來(lái)看,很難信任這樣一個(gè)系統(tǒng)。

所以我們更多是從“人”的視角出發(fā),把“理解人”作為具身智能進(jìn)入現(xiàn)實(shí)場(chǎng)景的一個(gè)前提條件,而不僅僅是把任務(wù)完成好。

馮瑤:像今年一些 AI agent 產(chǎn)品(比如可以操作電腦的系統(tǒng)),一開(kāi)始用戶(hù)其實(shí)是不太愿意把個(gè)人信息交給它的。但隨著使用過(guò)程,你會(huì)先通過(guò)對(duì)話(huà)建立信任,確認(rèn)它真的理解你的需求,然后才逐步開(kāi)放更多權(quán)限。讀取文件、處理郵件、甚至幫你完成復(fù)雜任務(wù)。

這個(gè)過(guò)程本質(zhì)上是“逐步建立信任”。 我認(rèn)為機(jī)器人進(jìn)入家庭也是類(lèi)似的路徑:它需要先理解人、獲得信任,然后再逐漸擴(kuò)展能力,而不是一開(kāi)始就承擔(dān)所有任務(wù)。用戶(hù)也更傾向于持續(xù)使用同一個(gè)系統(tǒng),而不是頻繁更換。因?yàn)槠渲幸呀?jīng)建立了一種“關(guān)系”。

DeepTech:如果從更客觀的技術(shù)指標(biāo)來(lái)看,兩位認(rèn)為衡量一個(gè)具身模型優(yōu)劣的根本標(biāo)準(zhǔn)是什么?比如推理延遲、操作成功率,還是泛化能力?

劉淼:這是很關(guān)鍵的問(wèn)題。我最近一直在反思:評(píng)測(cè)本身可能成為具身智能最大的“陷阱”之一。

多模態(tài)大模型有相對(duì)成熟的評(píng)測(cè)體系:自動(dòng)化 benchmark(如 MMLU)加上人工評(píng)測(cè)。但具身智能完全不同。由于硬件形態(tài)不統(tǒng)一,實(shí)驗(yàn)平臺(tái)各異,所以沒(méi)有公認(rèn)的標(biāo)準(zhǔn)化 benchmark。常見(jiàn)的做法是在真實(shí)機(jī)器人上做簡(jiǎn)單任務(wù)(如 zero-shot 抓取),但成本極高、可復(fù)現(xiàn)性很差。

大家常說(shuō)數(shù)據(jù)最重要,但我越來(lái)越覺(jué)得,評(píng)測(cè)體系的不完善本身,可能是一個(gè)很大的瓶頸,甚至?xí)`導(dǎo)技術(shù)路線(xiàn)。

馮瑤:我非常同意這一點(diǎn)。所以現(xiàn)在很多研究者開(kāi)始更主動(dòng)地和工業(yè)界結(jié)合,因?yàn)楫?dāng)一個(gè)系統(tǒng)真正進(jìn)入用戶(hù)場(chǎng)景之后,用戶(hù)才是最好的評(píng)測(cè)者。

不管機(jī)器人是什么形態(tài)。是陪伴型、護(hù)理型,還是家庭助手;是輪式還是腿式,單臂還是雙臂。這些都不是最核心的。關(guān)鍵在于:當(dāng)它被用戶(hù)實(shí)際使用時(shí),用戶(hù)的反饋是什么,他們是否愿意持續(xù)使用。

從這個(gè)角度看,真實(shí)用戶(hù)反饋可能才是唯一的黃金標(biāo)準(zhǔn)。而系統(tǒng)需要根據(jù)這些反饋不斷調(diào)整自身,無(wú)論是模型能力還是機(jī)器人形態(tài)。

DeepTech:有沒(méi)有一種可能是,現(xiàn)在真實(shí)反饋還不夠多,所以還無(wú)法形成統(tǒng)一標(biāo)準(zhǔn)?

劉淼:我覺(jué)得不只是“數(shù)量不夠”,而是“數(shù)據(jù)本身不對(duì)”。很多現(xiàn)有數(shù)據(jù)像“糖水”而不是“牛奶”。來(lái)自過(guò)于干凈、簡(jiǎn)單的環(huán)境(比如桌面抓取),與真實(shí)家庭環(huán)境差距很大。

如果模型在這種“假分布”上訓(xùn)練和評(píng)測(cè),就會(huì)學(xué)到錯(cuò)誤的模式,甚至帶偏技術(shù)路線(xiàn)。本質(zhì)上,模型是在擬合數(shù)據(jù)分布。如果分布本身偏離真實(shí)世界,再好的模型設(shè)計(jì)也會(huì)被帶偏。

所以我們更關(guān)心的是如何獲得“真實(shí)世界”的數(shù)據(jù)。如果機(jī)器人能更好地理解人,即使功能還不夠全面,用戶(hù)也更可能接受它、愿意使用它。這樣我們才能以更可擴(kuò)展(scalable)的方式獲取高質(zhì)量數(shù)據(jù),而不是依賴(lài)“數(shù)據(jù)采集工廠”。

DeepTech:但現(xiàn)實(shí)問(wèn)題是,第一視角和人機(jī)交互數(shù)據(jù)的獲取成本非常高,甚至互聯(lián)網(wǎng)里幾乎沒(méi)有現(xiàn)成數(shù)據(jù)。未來(lái)你們打算怎么構(gòu)建一個(gè)低成本、可規(guī)模化的數(shù)據(jù)閉環(huán)?

馮瑤:這是一個(gè)很好的問(wèn)題。我先說(shuō)結(jié)論:互聯(lián)網(wǎng)數(shù)據(jù)其實(shí)是可以用的,而且會(huì)是一個(gè)非常重要的數(shù)據(jù)來(lái)源。關(guān)鍵在于“重建能力”。如果你能把視頻中的人體行為高精度重建出來(lái),它本質(zhì)上就可以轉(zhuǎn)化為可學(xué)習(xí)的數(shù)據(jù)。包括姿態(tài)、動(dòng)作、手部操作等 3D 行為信息。

這部分其實(shí)是我的一個(gè)長(zhǎng)期研究方向,也和人體重建、行為建模是直接相關(guān)的。中間會(huì)涉及一些關(guān)鍵技術(shù),比如人體動(dòng)作 prior、3D 重建優(yōu)化等。

在這個(gè)基礎(chǔ)上,我們會(huì)做兩件事:第一,利用互聯(lián)網(wǎng)視頻數(shù)據(jù)作為最大規(guī)模的數(shù)據(jù)源;第二,在此基礎(chǔ)上進(jìn)行低成本的真實(shí)數(shù)據(jù)采集,由我們自己設(shè)計(jì)采集環(huán)境和硬件系統(tǒng),再通過(guò)算法保證高質(zhì)量重建。

另外,合成數(shù)據(jù)(simulation)我認(rèn)為是一個(gè)重要的“增強(qiáng)器”。它更像是一種數(shù)據(jù) augmentation 的工具,而不是憑空生成數(shù)據(jù)的來(lái)源。比如,我們可以把多個(gè)短視頻片段進(jìn)行組合,在物理約束下進(jìn)行重建和補(bǔ)全,從而生成更長(zhǎng)的行為序列。這一類(lèi)方法可以幫助模型學(xué)習(xí)更長(zhǎng)時(shí)序的行為結(jié)構(gòu)。

劉淼:如果你上周問(wèn)我,我可能會(huì)說(shuō)我不太信任合成數(shù)據(jù)。但現(xiàn)在不一樣了,比如 GPT-image2 能力已經(jīng)提升很快,從肉眼來(lái)看,很多情況下已經(jīng)很難區(qū)分真實(shí)和合成數(shù)據(jù)。

所以這件事其實(shí)是動(dòng)態(tài)演化的:當(dāng)合成數(shù)據(jù)的質(zhì)量和成本達(dá)到一個(gè)臨界點(diǎn),它就會(huì)自然進(jìn)入訓(xùn)練體系。但更重要的一點(diǎn)不是“用不用合成數(shù)據(jù)”,而是“如何更合理地使用數(shù)據(jù)”。包括如何利用真實(shí)數(shù)據(jù)和合成數(shù)據(jù)之間的互補(bǔ)關(guān)系,這里其實(shí)還有很多沒(méi)有被充分探索的空間。

從學(xué)術(shù)到創(chuàng)業(yè):為什么選擇家庭場(chǎng)景?

DeepTech:聽(tīng)說(shuō)兩位有計(jì)劃從學(xué)術(shù)走向創(chuàng)業(yè)?你們是如何相識(shí),并最終決定在具身智能這個(gè)方向上展開(kāi)合作的?

馮瑤:其實(shí)我和劉淼很早就認(rèn)識(shí)了,但之前一直覺(jué)得我們?cè)谧霾煌较虻氖虑椤N议L(zhǎng)期聚焦在人本身。包括人體表征、人類(lèi)行為理解以及機(jī)器人控制;而劉老師更多是從多模態(tài)學(xué)習(xí)、以模型為中心(model-centric)的視角來(lái)推進(jìn)相關(guān)問(wèn)題。

直到前段時(shí)間我們有了比較深入的交流,才發(fā)現(xiàn)我們?cè)凇熬呱碇悄艽竽X”這個(gè)問(wèn)題上,其實(shí)有一個(gè)很一致的判斷:如果要構(gòu)建一個(gè)能夠與人長(zhǎng)期共處的具身系統(tǒng),它既需要強(qiáng)大的多模態(tài)感知能力,也必須真正理解“人”本身。這兩件事情是缺一不可的。所以我們會(huì)覺(jué)得,這種結(jié)合其實(shí)是比較自然的。而且從個(gè)人層面來(lái)說(shuō),能找到一個(gè)在技術(shù)上互補(bǔ)、同時(shí)也值得信任的合作伙伴,是一件挺難得的事情。

另外一個(gè)很現(xiàn)實(shí)的原因是,前面也提到,這一類(lèi)系統(tǒng)的迭代高度依賴(lài)真實(shí)世界的數(shù)據(jù)和用戶(hù)反饋。要做到這一點(diǎn),就必須有大規(guī)模的真實(shí)部署,而這在工程復(fù)雜度、資金、算力等方面的要求,已經(jīng)超出了一個(gè)學(xué)術(shù)實(shí)驗(yàn)室所能承擔(dān)的范圍。從這個(gè)角度看,走向創(chuàng)業(yè)其實(shí)是一個(gè)比較自然、甚至可以說(shuō)是“必經(jīng)”的路徑。只有進(jìn)入真實(shí)用戶(hù)場(chǎng)景,才能完成模型的閉環(huán)迭代。

劉淼:我和馮瑤也算是“相識(shí)于微時(shí)”。我當(dāng)時(shí)去她導(dǎo)師 Michael Black 的團(tuán)隊(duì)訪問(wèn)過(guò)一段時(shí)間。

雖然那時(shí)候我們的研究方向不完全一樣,但有一個(gè)共同的關(guān)注點(diǎn)。“人”在系統(tǒng)中的角色。無(wú)論是從人的視角去感知世界,還是去理解環(huán)境中的人,本質(zhì)上都是圍繞“人”展開(kāi)的。當(dāng)時(shí)其實(shí)沒(méi)有想到,未來(lái)會(huì)一起做產(chǎn)業(yè)化。但現(xiàn)在回過(guò)頭來(lái)看,這種結(jié)合是有一定內(nèi)在邏輯的。后來(lái)馮老師回國(guó),我們才有機(jī)會(huì)更深入地討論這些問(wèn)題,也逐漸發(fā)現(xiàn)雙方在技術(shù)上是高度互補(bǔ)的。

簡(jiǎn)單來(lái)說(shuō),她更多是在做偏底層的 human behavior understanding,比如運(yùn)動(dòng)信號(hào)、動(dòng)作層面的建模;我則更偏向認(rèn)知層,比如 memory、intention、attention,以及多模態(tài)融合。這兩部分正好可以形成一個(gè)比較完整的閉環(huán)。

DeepTech:那從學(xué)術(shù)走向產(chǎn)業(yè)的過(guò)程中,你們有沒(méi)有遇到一些落差或挑戰(zhàn)?畢竟學(xué)術(shù)研究往往更偏理想化。

劉淼:我們其實(shí)都不算完全“純學(xué)術(shù)”的路徑。我之前在 Meta 工作過(guò)幾年,對(duì)產(chǎn)業(yè)側(cè)還是有一定了解的,也很清楚“寫(xiě)論文”和“做產(chǎn)品”之間的差別。但我個(gè)人的一個(gè)判斷是:在某個(gè)階段,確實(shí)需要考慮商業(yè)化,這是不可避免的;但模型本身的迭代邏輯,仍然應(yīng)該以研究為主導(dǎo),而不是完全由產(chǎn)品需求驅(qū)動(dòng)。否則很容易出現(xiàn)方向性的偏差。

馮瑤:我其實(shí)也接觸過(guò)不少產(chǎn)業(yè)環(huán)境。早期我在 Horizon Robotics、CloudWalk Technology 實(shí)習(xí),后來(lái)也在 Meta 有過(guò)經(jīng)歷。再往后,我還參與過(guò)我博士導(dǎo)師的創(chuàng)業(yè)公司,開(kāi)始接觸一些更核心的決策問(wèn)題。那段經(jīng)歷對(duì)我影響挺大的。你會(huì)發(fā)現(xiàn),一個(gè)團(tuán)隊(duì)里不僅有研究者,還有 3D 藝術(shù)家、前后端工程師、以及業(yè)務(wù)和銷(xiāo)售團(tuán)隊(duì)。不同角色會(huì)帶來(lái)完全不同的視角,這些視角反過(guò)來(lái)會(huì)幫助我們把研究真正落地。

我自己一直比較在意的一點(diǎn)是:無(wú)論是研究還是產(chǎn)品,最終都應(yīng)該被人使用。如果一個(gè)技術(shù)只是停留在論文里,它的價(jià)值是有限的。從這個(gè)角度來(lái)說(shuō),我也比較幸運(yùn)。之前做的一些開(kāi)源項(xiàng)目,在社區(qū)里有比較多的使用和反饋,這讓我更堅(jiān)定了一個(gè)想法:技術(shù)只有進(jìn)入真實(shí)世界,才會(huì)真正“長(zhǎng)出來(lái)”。

DeepTech:回到路線(xiàn)選擇的問(wèn)題。現(xiàn)在很多具身公司一開(kāi)始會(huì)選擇工業(yè)場(chǎng)景,比如工廠或倉(cāng)庫(kù)。但你們更強(qiáng)調(diào)家庭環(huán)境和人機(jī)共融,為什么一開(kāi)始就沒(méi)有選擇工業(yè)路徑?

馮瑤:本質(zhì)的原因還是愿景不同。我們更希望做的是進(jìn)入家庭、進(jìn)入日常生活,讓更多普通人可以使用。另外,工業(yè)場(chǎng)景在某種程度上是“結(jié)構(gòu)化的”,人的參與較少,行為也更可預(yù)測(cè)。但我們關(guān)注的恰恰是人本身,所以方向自然不同。

劉淼:對(duì)。我回國(guó)之后,其實(shí)也有很多工業(yè)落地的合作機(jī)會(huì),但我覺(jué)得這和我們想做的 human-centric AI 不是一件事。工業(yè)環(huán)境里,人是弱存在的,行為模式也比較固定。但如果目標(biāo)是讓機(jī)器人進(jìn)入人類(lèi)生活空間,那它必須先理解“人”,否則我個(gè)人是很難信任它和我共處在一個(gè)空間里的。所以這更多是一個(gè)價(jià)值選擇的問(wèn)題,而不是單純的技術(shù)路線(xiàn)選擇。

DeepTech:從時(shí)間尺度上看,兩位覺(jué)得具身智能目前處在什么階段?距離理想狀態(tài)大概還有多久?

馮瑤:我覺(jué)得可以分兩條路徑來(lái)看。如果是傳統(tǒng)“任務(wù)驅(qū)動(dòng)”的路線(xiàn),比如只做抓取、疊衣服這種能力,那進(jìn)入家庭可能還需要較長(zhǎng)時(shí)間,因?yàn)橛脩?hù)接受“機(jī)器進(jìn)入生活空間”本身就需要一個(gè)過(guò)程。但如果是我們這條“以理解人為核心”的路線(xiàn),我認(rèn)為進(jìn)入家庭的時(shí)間會(huì)更短。可能在一到兩年內(nèi),就可以先以“有限功能 + 建立信任”的形式進(jìn)入家庭,然后逐步迭代能力。

劉淼:我整體判斷是類(lèi)似的。短期來(lái)看,一到兩年內(nèi),確實(shí)會(huì)出現(xiàn)一些“初級(jí)可用”的家庭機(jī)器人,它們可能已經(jīng)開(kāi)始進(jìn)入真實(shí)家庭,但功能仍然比較有限,甚至有點(diǎn)“實(shí)驗(yàn)性”,可能會(huì)出現(xiàn)大家說(shuō)的“買(mǎi)回去吃灰”的情況。

所以如果沿著當(dāng)前的技術(shù)路線(xiàn)發(fā)展,目標(biāo)是一個(gè)真正意義上的“家庭智能體”。類(lèi)似可以長(zhǎng)期陪伴、理解需求、承擔(dān)多任務(wù)的系統(tǒng)。我認(rèn)為至少還需要五年以上。這個(gè)差距主要不在硬件,而在于對(duì)“人”的理解能力,以及在復(fù)雜家庭環(huán)境中的長(zhǎng)期學(xué)習(xí)能力。這也是為什么我想探索一種新的具身模型范式。

運(yùn)營(yíng)/排版:何晨龍

注:封面/首圖由 AI 輔助生成

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
61歲的王姬駕馭一身黑色禮服,這身材讓年輕人都望塵莫及

61歲的王姬駕馭一身黑色禮服,這身材讓年輕人都望塵莫及

大江
2026-05-24 12:20:25
阿斯談姆巴佩:16年禁區(qū)內(nèi)的一次腦震蕩,導(dǎo)致他至今懼怕頭球

阿斯談姆巴佩:16年禁區(qū)內(nèi)的一次腦震蕩,導(dǎo)致他至今懼怕頭球

懂球帝
2026-05-30 20:30:13
讀懂了《烏合之眾》,你就知道人是如何被降智的

讀懂了《烏合之眾》,你就知道人是如何被降智的

洞見(jiàn)
2026-03-21 23:21:41
炸裂預(yù)警!未來(lái)三年全球十大驚悚預(yù)言逼近現(xiàn)實(shí)(2026-2028)

炸裂預(yù)警!未來(lái)三年全球十大驚悚預(yù)言逼近現(xiàn)實(shí)(2026-2028)

神奇故事
2026-05-27 21:50:31
歐冠決賽魔咒:首球即冠軍?阿森納與巴黎誰(shuí)能打破十年定律

歐冠決賽魔咒:首球即冠軍?阿森納與巴黎誰(shuí)能打破十年定律

星耀國(guó)際足壇
2026-05-30 21:40:20
為什么人一旦覺(jué)醒,就會(huì)斷絕90%的朋友

為什么人一旦覺(jué)醒,就會(huì)斷絕90%的朋友

洞見(jiàn)
2026-05-28 22:05:54
為何借道庫(kù)爾德,推翻神棍政權(quán)的計(jì)劃最終會(huì)擱淺?

為何借道庫(kù)爾德,推翻神棍政權(quán)的計(jì)劃最終會(huì)擱淺?

西樓飲月
2026-05-30 21:06:40
今夜的歐冠決賽,沒(méi)有法蘭西,也沒(méi)有英格蘭

今夜的歐冠決賽,沒(méi)有法蘭西,也沒(méi)有英格蘭

生活新鮮市
2026-05-30 20:17:11
西方精心搭臺(tái)“圍堵”中國(guó),香會(huì)中國(guó)專(zhuān)場(chǎng)徹底取消,中方直接離場(chǎng)

西方精心搭臺(tái)“圍堵”中國(guó),香會(huì)中國(guó)專(zhuān)場(chǎng)徹底取消,中方直接離場(chǎng)

腦洞時(shí)史
2026-05-29 19:45:20
隆多慶祝兒子畢業(yè),他面試鵜鶘主教練,二婚娶美女,兒子沖NBA

隆多慶祝兒子畢業(yè),他面試鵜鶘主教練,二婚娶美女,兒子沖NBA

大西體育
2026-05-30 10:11:28
國(guó)米2500萬(wàn)歐元,想要打包利物浦三星,夏窗撿漏美夢(mèng)能否成真?

國(guó)米2500萬(wàn)歐元,想要打包利物浦三星,夏窗撿漏美夢(mèng)能否成真?

寶哥愛(ài)足球
2026-05-29 17:11:57
“死在家里,沒(méi)人嫌棄你”——這是22歲老狗臨終時(shí),人給它的最后一句情話(huà)

“死在家里,沒(méi)人嫌棄你”——這是22歲老狗臨終時(shí),人給它的最后一句情話(huà)

消化石醫(yī)生
2026-05-25 12:12:28
上海16區(qū)區(qū)長(zhǎng)、街道辦主任、鎮(zhèn)長(zhǎng)等值班電話(huà)公布!

上海16區(qū)區(qū)長(zhǎng)、街道辦主任、鎮(zhèn)長(zhǎng)等值班電話(huà)公布!

愛(ài)看劇的阿峰
2026-05-30 20:27:28
睡覺(jué)七小時(shí)被推翻了?醫(yī)生建議:過(guò)了55歲,睡覺(jué)盡量要做到這4點(diǎn)

睡覺(jué)七小時(shí)被推翻了?醫(yī)生建議:過(guò)了55歲,睡覺(jué)盡量要做到這4點(diǎn)

健康科普365
2026-05-30 18:50:05
陳幸同29歲生日反差感太酷!深夜公園開(kāi)香檳盡顯松弛,國(guó)乒神秘好友送祝福

陳幸同29歲生日反差感太酷!深夜公園開(kāi)香檳盡顯松弛,國(guó)乒神秘好友送祝福

好乒乓
2026-05-30 12:14:43
47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個(gè)買(mǎi)菜大姐

47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個(gè)買(mǎi)菜大姐

胖松松與瘦二毛
2026-05-06 12:40:53
馬科斯連夜釋放中國(guó)公民!菲律賓慌了:就怕中國(guó)殺雞用宰牛刀!

馬科斯連夜釋放中國(guó)公民!菲律賓慌了:就怕中國(guó)殺雞用宰牛刀!

80后房車(chē)生活
2026-05-29 20:42:25
10萬(wàn)億窟窿!比恒大更坑的民企來(lái)了,曾力壓許家印,位居第一

10萬(wàn)億窟窿!比恒大更坑的民企來(lái)了,曾力壓許家印,位居第一

孤單是寂寞的毒
2026-03-04 15:38:03
臺(tái)灣網(wǎng)紅館長(zhǎng)參觀張雪機(jī)車(chē),張雪為何會(huì)給足排面全程陪同接待!

臺(tái)灣網(wǎng)紅館長(zhǎng)參觀張雪機(jī)車(chē),張雪為何會(huì)給足排面全程陪同接待!

總在茶余后
2026-05-31 00:37:44
美國(guó)發(fā)話(huà)也不行,中方正式通告全球:打日本,中國(guó)具備“正當(dāng)性”

美國(guó)發(fā)話(huà)也不行,中方正式通告全球:打日本,中國(guó)具備“正當(dāng)性”

鳳語(yǔ)談
2026-05-28 12:13:58
2026-05-31 01:36:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
16770文章數(shù) 514989關(guān)注度
往期回顧 全部

財(cái)經(jīng)要聞

雙匯管不住一頭豬

頭條要聞

兩名9歲女孩被困電梯近2小時(shí) 求救幾十次物業(yè)無(wú)動(dòng)于衷

頭條要聞

兩名9歲女孩被困電梯近2小時(shí) 求救幾十次物業(yè)無(wú)動(dòng)于衷

體育要聞

歲月不饒人!39歲德約鏖戰(zhàn)近5小時(shí)拼到嘔吐

娛樂(lè)要聞

張碧晨《歌手》 “活人微死” 自嘲

科技要聞

車(chē)圈大佬發(fā)聲:價(jià)格戰(zhàn)遠(yuǎn)去,但競(jìng)爭(zhēng)仍殘酷

汽車(chē)要聞

900V+3.2秒破百 領(lǐng)克10+&領(lǐng)克10上市16.99萬(wàn)元起

態(tài)度原創(chuàng)

旅游
教育
游戲
房產(chǎn)
公開(kāi)課

旅游要聞

六一帶娃去哪玩?鄭州又多了個(gè)好去處!

教育要聞

26歲女教師賽課時(shí)猝死!老師,一路走好,愿天堂沒(méi)有賽課

巫師3新DLC跨十年:年輕玩家在初發(fā)售時(shí)還是小孩!

房產(chǎn)要聞

紅動(dòng)五月!全國(guó)搶入核心資產(chǎn),廣州盯緊凱旋新世界!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版