網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

獨(dú)家｜兩位清華教授聯(lián)手創(chuàng)業(yè)，要打造以人為中心的具身模型范式

2026-05-11 13:09:02　來(lái)源: DeepTech深科技

北京舉報(bào)

分享至

2026 年，機(jī)器人正在準(zhǔn)備走進(jìn)家庭，和人類(lèi)同處一個(gè)屋檐下。

但在這背后，一個(gè)難以忽略的現(xiàn)實(shí)是：當(dāng)前幾乎所有具身智能模型的訓(xùn)練中，“人”是缺席的。

模型已經(jīng)學(xué)會(huì)了抓取水杯、折疊衣物、執(zhí)行一條條指令，卻幾乎無(wú)法理解坐在沙發(fā)上的人此刻是疲憊還是焦躁。然而對(duì)于人類(lèi)來(lái)說(shuō)，有時(shí)遞過(guò)一杯水的時(shí)機(jī)與方式，可能比“遞水”這個(gè)動(dòng)作本身更重要。

這個(gè)問(wèn)題吸引了兩位學(xué)者：馮瑤和劉淼的注意。在他們看來(lái)，具身智能要真正落地生活場(chǎng)景，必須把對(duì)“人”的理解加入模型。對(duì)物體的操作能力和對(duì)人的理解需要同步推進(jìn)，而非先后分離。

馮瑤目前是斯坦福大學(xué)的博士后，明年即將入職清華人工智能學(xué)院任教。她在博士階段師從計(jì)算機(jī)視覺(jué)領(lǐng)域的重要學(xué)者 Michael J. Black，在德國(guó)馬普所專(zhuān)注"人"的數(shù)字化建模，用算法重建人體的三維形態(tài)、動(dòng)作與姿態(tài)，讓機(jī)器理解人類(lèi)身體如何在空間中移動(dòng)、交互。到斯坦福后轉(zhuǎn)入機(jī)器人方向，試圖把對(duì)人的理解帶進(jìn)物理世界。

而剛從海外回國(guó)的劉淼，目前擔(dān)任清華大學(xué)人工智能學(xué)院的助理教授。他在過(guò)去三年在 Meta GenAI 參與了 Llama 3 與 Llama 4 等多模態(tài)大模型的研發(fā)，博士期間在佐治亞理工研究第一視角視覺(jué)與具身感知。

雖然兩人的研究路徑不同，但他們看到了同一塊缺失：當(dāng)前的具身智能訓(xùn)練中，"人"并沒(méi)有被放在一個(gè)重要的位置。無(wú)論是對(duì)人體進(jìn)行三維建模，還是用第一視角數(shù)據(jù)訓(xùn)練模型，畫(huà)面中的"人"往往只是背景而非交互主體。模型學(xué)會(huì)了識(shí)別場(chǎng)景中的一切物體，卻讀不懂對(duì)面那個(gè)人的狀態(tài)、意圖與需求。

于是他們決定一起創(chuàng)業(yè)——打造一種以人為中心（Human-Centric）的全新具身模型范式，讓機(jī)器人真正理解“人”的行為、意圖、記憶與偏好，并最終在真實(shí)的共處場(chǎng)景中建立信任。

在這場(chǎng)對(duì)話(huà)中，我們的問(wèn)題始終圍繞“人”展開(kāi)：機(jī)器人該如何捕捉需求、推斷意圖，進(jìn)而贏得信任？答案可能藏在尚未成型的數(shù)據(jù)范式里，可能指向仍在探索的模型架構(gòu)，也可能依賴(lài)一套需要徹底重構(gòu)的評(píng)測(cè)體系……

一切還在探索之中。

以下是我們的對(duì)話(huà)：

為什么是“人”？從大模型到具身智能的轉(zhuǎn)向

DeepTech：兩位為什么會(huì)選擇具身智能這個(gè)方向進(jìn)行研究？

劉淼：其實(shí)我在博士階段做的就是機(jī)器人方向，比如基于第一視角視覺(jué)（egocentric vision），結(jié)合 learning from demonstration 或 imitation learning，讓機(jī)器人通過(guò)模仿學(xué)習(xí)去完成更接近人類(lèi)的操作任務(wù)。

當(dāng)時(shí)受限于項(xiàng)目條件，我們更多只能做一些偏“純視覺(jué)”的研究。后來(lái)在 Meta 工作期間，由于研究方向相對(duì)自上而下（top-down），個(gè)人能夠選擇的空間比較有限，這條路徑依然沒(méi)有被系統(tǒng)性推進(jìn)。

但具身智能在我心里其實(shí)一直沒(méi)有放下。我始終希望有機(jī)會(huì)把“讓機(jī)器人真正像人一樣在物理世界中行動(dòng)”這件事做好。

馮瑤：我的路徑和劉淼有些不同。我的出發(fā)點(diǎn)就是“人”，在博士階段，我在德國(guó)主要的工作是做“人”的建模，比如什么是好的 human representation（人體表征），以及如何從網(wǎng)絡(luò)數(shù)據(jù)中理解人類(lèi)行為。我也嘗試過(guò)結(jié)合大模型做行為理解，但這些大多在“數(shù)字世界”里完成。

但純數(shù)字環(huán)境的問(wèn)題在于缺乏真實(shí)的交互感，也很難評(píng)估模型是否真的“理解了人”。因?yàn)槿鄙倏煽康?benchmark。

后來(lái)我去了斯坦福，加入機(jī)器人團(tuán)隊(duì)，把這些關(guān)于“人”的建模放到物理世界中驗(yàn)證。我逐漸意識(shí)到：只有當(dāng)模型既能理解人類(lèi)行為，又能驅(qū)動(dòng)一個(gè)實(shí)體在真實(shí)世界中與人交互時(shí)，我們才真正有機(jī)會(huì)判斷它是否“做對(duì)了”。

而機(jī)器人就像一個(gè)天然的測(cè)試平臺(tái)。你讓它去行動(dòng)、去互動(dòng)，很多問(wèn)題會(huì)立刻暴露出來(lái)，推動(dòng)研究從“看起來(lái)有效”轉(zhuǎn)向“真正可用”。

DeepTech：劉淼老師之前在 Meta GenAI 參與過(guò) Llama 3/4 等大模型訓(xùn)練，那是純粹的數(shù)字世界；但具身智能需要處理復(fù)雜的物理世界。除了熱愛(ài)，這種轉(zhuǎn)變背后是什么原因？

劉淼：費(fèi)曼有一句很有名的話(huà)：“What I cannot create, I do not understand.”（我無(wú)法創(chuàng)造的東西，我就無(wú)法真正理解。）

但在今天這個(gè)時(shí)代，這句話(huà)其實(shí)可以被“反過(guò)來(lái)”看。一個(gè)模型即使能夠生成文本、圖像甚至視頻，也不意味著它真正理解了物理世界。

什么才算真正的理解？一個(gè)標(biāo)準(zhǔn)是：它能否在物理世界中行動(dòng)，并理解行動(dòng)帶來(lái)的后果。包括物理規(guī)律、因果關(guān)系，以及“動(dòng)作如何改變環(huán)境”。這正是具身智能被重視的原因：只有進(jìn)入真實(shí)世界、與環(huán)境交互，模型才可能形成類(lèi)似人類(lèi)的“世界模型”。

更重要的是，現(xiàn)實(shí)世界不只是由物體構(gòu)成的，它更是一個(gè)“有人存在的世界”。當(dāng)前的大模型在“理解人”上很有限。它們能識(shí)別動(dòng)作、服飾、年齡，但很難理解情緒、意圖，以及“心智理論”。

如果把這些模型直接放進(jìn)真實(shí)環(huán)境與人類(lèi)互動(dòng)，它們很難穩(wěn)定工作。這個(gè)世界從來(lái)不是空的物理空間，而是充滿(mǎn)人的世界。忽略這一點(diǎn)，具身智能走不遠(yuǎn)。這也是我在 Meta 時(shí)逐漸意識(shí)到的局限，所以我回國(guó)后，希望在這些方向上繼續(xù)探索。

DeepTech：相比海量的第三視角數(shù)據(jù)，你所研究的第一視角數(shù)據(jù)的不可替代性在哪里？

劉淼：第一視角最核心的獨(dú)特性是“具身性”（embodiment）：感知和動(dòng)作緊密耦合。感知驅(qū)動(dòng)動(dòng)作、動(dòng)作改變環(huán)境、環(huán)境反過(guò)來(lái)影響下一步的觀測(cè)。這種閉環(huán)是第一視角天然具備的，也更符合人類(lèi)的感知和行為方式。

另外，長(zhǎng)時(shí)間的第一視角視頻還隱含了人類(lèi)的認(rèn)知層級(jí)：它記錄了你的意圖（視線(xiàn)主動(dòng)聚焦在哪里）、探索路徑（如何尋找目標(biāo)），以及到達(dá)目標(biāo)后如何利用環(huán)境完成任務(wù)。

這對(duì)應(yīng)了機(jī)器學(xué)習(xí)中的“探索與利用”的權(quán)衡（exploration vs. exploitation）。第一視角數(shù)據(jù)天然把兩者結(jié)合在了一起，對(duì)機(jī)器人學(xué)習(xí)非常有價(jià)值。

DeepTech：如果放在一個(gè)具體任務(wù)中，基于第一視角和第三視角的數(shù)據(jù)，機(jī)器人實(shí)際表現(xiàn)會(huì)有什么差別？

劉淼：以廚房場(chǎng)景為例，比如洗菜或切菜。從第三視角看，你能大致判斷這個(gè)人在做什么。是站在水池邊或案板前，知道是洗菜或切菜。

但很多關(guān)鍵細(xì)節(jié)是捕捉不到的：具體洗到哪個(gè)位置、哪只手握菜、哪只手開(kāi)水龍頭，或者切菜時(shí)的角度、雙手配合、切到哪一步。這些細(xì)粒度的動(dòng)作信息，第三視角很難獲取。

而第一視角能直接對(duì)齊“手—眼—?jiǎng)幼鳌钡年P(guān)系，這對(duì)機(jī)器人學(xué)習(xí)可執(zhí)行的操作策略非常關(guān)鍵。

DeepTech：馮瑤老師，從 DECA、PIXIE 這樣的人體重建工作，到語(yǔ)言模型相關(guān)研究，再到近一兩年的人形機(jī)器人控制，這條路徑其實(shí)跨度很大。你的研究思路是怎樣的？

馮瑤：我一直想構(gòu)建一個(gè)真正的“實(shí)體智能體”，它能夠像人一樣存在和行動(dòng)。

從這個(gè)目標(biāo)往回看，第一步一定是理解“人本身”。早期的工作，比如 DECA、PIXIE，關(guān)注的是如何在數(shù)字世界中重建人，也就是學(xué)習(xí)一個(gè)有效的 human representation，以及從大規(guī)模互聯(lián)網(wǎng)數(shù)據(jù)中提取人的行為模式。

但一個(gè)很自然的問(wèn)題是：學(xué)到這些表示之后，下一步該做什么？大約在 2022 年，大模型的出現(xiàn)讓我很快意識(shí)到，這類(lèi)模型在建模和推理能力上是一個(gè)非常關(guān)鍵的突破。于是我們開(kāi)始嘗試把大模型和此前的人體表示結(jié)合起來(lái)，讓模型不僅能“看到人”，還能在語(yǔ)義層面理解人類(lèi)行為。

再往前走，就遇到了一個(gè)很現(xiàn)實(shí)的問(wèn)題：我們很難判斷模型是否真的理解了人類(lèi)。即使構(gòu)建各種數(shù)據(jù)集和 benchmark，也很難覆蓋復(fù)雜、多變的真實(shí)行為。所以我后來(lái)去了斯坦福，進(jìn)入機(jī)器人方向，把模型放到真實(shí)的物理系統(tǒng)中，讓它和人發(fā)生交互。

在這個(gè)過(guò)程中也發(fā)現(xiàn)，傳統(tǒng)強(qiáng)化學(xué)習(xí)（RL）往往更關(guān)注任務(wù)成功率或精度，但與人交互時(shí)，柔順性（compliance）、安全性等因素同樣重要，這些在過(guò)去的算法設(shè)計(jì)中是被低估的。因此，后續(xù)的工作也會(huì)更多關(guān)注這些維度。

DeepTech：如果用一句話(huà)定義，你們理想中的 human-centric（以人為中心）的具身基礎(chǔ)模型是什么樣的？

劉淼：我希望這個(gè)模型能夠通過(guò)理解世界中的“人”，從而獲得對(duì)世界更完整的認(rèn)知。

馮瑤：我會(huì)覺(jué)得是通過(guò)理解人、以及人與人之間的交互，讓機(jī)器人更像“人”。

端到端還是模塊化？以及具身智能的“陷阱”

DeepTech：目前行業(yè)里存在端到端（end-to-end）和模塊化（modular）的路線(xiàn)之爭(zhēng)。兩位設(shè)想中的具身基礎(chǔ)模型，會(huì)更接近 VLA 這種端到端模型，還是會(huì)保留清晰的控制邊界？

馮瑤：我覺(jué)得“端到端 vs 模塊化”某種程度上是個(gè)偽命題。關(guān)鍵在于：在系統(tǒng)的哪一層引入可解釋性，哪一層做語(yǔ)義介入。比如疊衣服任務(wù)，機(jī)器人不能只是“看到衣服就疊”，而是要先理解指令（“幫我把衣服疊一下”），找到衣服，執(zhí)行。

更關(guān)鍵的是，任務(wù)會(huì)動(dòng)態(tài)變化。如果疊到一半，你說(shuō)馬上要穿，它就得中止并切換任務(wù)。這就要求系統(tǒng)能在中間層插入語(yǔ)義理解與決策。

另外，可解釋性也很重要。如果機(jī)器人遞水失敗了，要知道是意圖理解錯(cuò)了、抓取失敗了，還是遞交位置不對(duì)。這些都需要分層語(yǔ)義表達(dá)。

所以我們的思路是：高層保留明確的語(yǔ)義結(jié)構(gòu)和可解釋性，底層控制（如抓取）采用更接近端到端的優(yōu)化方式，兼顧效率。這有點(diǎn)像人類(lèi)神經(jīng)系統(tǒng)。把“緩慢的社會(huì)認(rèn)知”與“快速的本能控制”解耦，避免用一個(gè)龐大網(wǎng)絡(luò)同時(shí)處理極難和極簡(jiǎn)單的問(wèn)題。

劉淼：我覺(jué)得現(xiàn)在之所以有“端到端 vs 模塊化”的討論，是因?yàn)槟壳叭蝿?wù)還比較簡(jiǎn)單。放到復(fù)雜場(chǎng)景（比如既要對(duì)話(huà)又要同時(shí)做飯），很難用一個(gè)統(tǒng)一模型同時(shí)輸出語(yǔ)言和動(dòng)作策略。

所以架構(gòu)的選擇，本質(zhì)上是由任務(wù)需求決定的。如果是高度結(jié)構(gòu)化、重復(fù)性的工業(yè)場(chǎng)景，比如“抓—取—放”，做成端到端系統(tǒng)是有可能的；但在開(kāi)放環(huán)境中，尤其是涉及人機(jī)交互的復(fù)雜任務(wù)，就很難用單一架構(gòu)覆蓋。換句話(huà)說(shuō)，不太可能存在一個(gè)統(tǒng)一的框架適用于所有場(chǎng)景，系統(tǒng)結(jié)構(gòu)會(huì)隨著任務(wù)復(fù)雜度和能力邊界不斷演化。

DeepTech：聽(tīng)起來(lái)你們的方案中有很多“語(yǔ)義插入”和動(dòng)態(tài)決策的設(shè)計(jì)，你們認(rèn)為實(shí)現(xiàn)它最大的困難在哪里？

馮瑤：這條路線(xiàn)的難點(diǎn)在于它對(duì)“人”的理解要求更高。比如語(yǔ)義插入不僅僅是理解一句話(huà)的表層含義，還涉及對(duì)用戶(hù)的長(zhǎng)期建模：包括記憶（memory）、行為模式，以及具體情境。

舉個(gè)例子：用戶(hù)說(shuō)“這件衣服不用疊了”，系統(tǒng)需要理解原因。可能是這件衣服剛穿過(guò)，需要放去清洗；也可能是馬上要穿，需要直接遞給用戶(hù)。這背后其實(shí)是一個(gè)復(fù)雜的決策過(guò)程，需要結(jié)合歷史信息、用戶(hù)習(xí)慣以及當(dāng)前狀態(tài)。因此，這不僅是一個(gè)感知或控制問(wèn)題，更是一個(gè)關(guān)于“人類(lèi)建模”的問(wèn)題，需要多模態(tài)信息融合和長(zhǎng)期記憶機(jī)制的支持。

從技術(shù)角度看，這一整套系統(tǒng)的復(fù)雜度是比較高的。不僅是架構(gòu)復(fù)雜，更是數(shù)據(jù)壁壘。工業(yè)操作數(shù)據(jù)可以靠人工遙控在工廠里大規(guī)模刷出來(lái)，但‘人機(jī)真實(shí)交互的信任數(shù)據(jù)’是無(wú)法在實(shí)驗(yàn)室里靠遙控演出來(lái)的，它必須通過(guò)真實(shí)用戶(hù)的長(zhǎng)期日常使用才能自然生長(zhǎng)。

劉淼：從行業(yè)角度來(lái)說(shuō)，過(guò)去很多團(tuán)隊(duì)沒(méi)有優(yōu)先做這件事情，也有現(xiàn)實(shí)原因：是技術(shù)成熟度還不夠，另一方面大家普遍認(rèn)為“機(jī)器人進(jìn)入家庭”還比較遙遠(yuǎn)，所以更傾向于先把基礎(chǔ)能力，比如抓取和操作，做好。

但現(xiàn)在我們判斷，這個(gè)時(shí)間點(diǎn)正在發(fā)生變化。雖然真正進(jìn)入家庭可能還需要幾年，但已經(jīng)不再是一個(gè)很遙遠(yuǎn)的目標(biāo)了。在這個(gè)階段，如果仍然只關(guān)注“抓取效率”或“操作精度”，其實(shí)是不夠的。因?yàn)橐粋€(gè)機(jī)器人如果不能理解人，就很難安全、可靠地和人共處。至少?gòu)挠脩?hù)角度來(lái)看，很難信任這樣一個(gè)系統(tǒng)。

所以我們更多是從“人”的視角出發(fā)，把“理解人”作為具身智能進(jìn)入現(xiàn)實(shí)場(chǎng)景的一個(gè)前提條件，而不僅僅是把任務(wù)完成好。

馮瑤：像今年一些 AI agent 產(chǎn)品（比如可以操作電腦的系統(tǒng)），一開(kāi)始用戶(hù)其實(shí)是不太愿意把個(gè)人信息交給它的。但隨著使用過(guò)程，你會(huì)先通過(guò)對(duì)話(huà)建立信任，確認(rèn)它真的理解你的需求，然后才逐步開(kāi)放更多權(quán)限。讀取文件、處理郵件、甚至幫你完成復(fù)雜任務(wù)。

這個(gè)過(guò)程本質(zhì)上是“逐步建立信任”。我認(rèn)為機(jī)器人進(jìn)入家庭也是類(lèi)似的路徑：它需要先理解人、獲得信任，然后再逐漸擴(kuò)展能力，而不是一開(kāi)始就承擔(dān)所有任務(wù)。用戶(hù)也更傾向于持續(xù)使用同一個(gè)系統(tǒng)，而不是頻繁更換。因?yàn)槠渲幸呀?jīng)建立了一種“關(guān)系”。

DeepTech：如果從更客觀的技術(shù)指標(biāo)來(lái)看，兩位認(rèn)為衡量一個(gè)具身模型優(yōu)劣的根本標(biāo)準(zhǔn)是什么？比如推理延遲、操作成功率，還是泛化能力？

劉淼：這是很關(guān)鍵的問(wèn)題。我最近一直在反思：評(píng)測(cè)本身可能成為具身智能最大的“陷阱”之一。

多模態(tài)大模型有相對(duì)成熟的評(píng)測(cè)體系：自動(dòng)化 benchmark（如 MMLU）加上人工評(píng)測(cè)。但具身智能完全不同。由于硬件形態(tài)不統(tǒng)一，實(shí)驗(yàn)平臺(tái)各異，所以沒(méi)有公認(rèn)的標(biāo)準(zhǔn)化 benchmark。常見(jiàn)的做法是在真實(shí)機(jī)器人上做簡(jiǎn)單任務(wù)（如 zero-shot 抓取），但成本極高、可復(fù)現(xiàn)性很差。

大家常說(shuō)數(shù)據(jù)最重要，但我越來(lái)越覺(jué)得，評(píng)測(cè)體系的不完善本身，可能是一個(gè)很大的瓶頸，甚至?xí)`導(dǎo)技術(shù)路線(xiàn)。

馮瑤：我非常同意這一點(diǎn)。所以現(xiàn)在很多研究者開(kāi)始更主動(dòng)地和工業(yè)界結(jié)合，因?yàn)楫?dāng)一個(gè)系統(tǒng)真正進(jìn)入用戶(hù)場(chǎng)景之后，用戶(hù)才是最好的評(píng)測(cè)者。

不管機(jī)器人是什么形態(tài)。是陪伴型、護(hù)理型，還是家庭助手；是輪式還是腿式，單臂還是雙臂。這些都不是最核心的。關(guān)鍵在于：當(dāng)它被用戶(hù)實(shí)際使用時(shí)，用戶(hù)的反饋是什么，他們是否愿意持續(xù)使用。

從這個(gè)角度看，真實(shí)用戶(hù)反饋可能才是唯一的黃金標(biāo)準(zhǔn)。而系統(tǒng)需要根據(jù)這些反饋不斷調(diào)整自身，無(wú)論是模型能力還是機(jī)器人形態(tài)。

DeepTech：有沒(méi)有一種可能是，現(xiàn)在真實(shí)反饋還不夠多，所以還無(wú)法形成統(tǒng)一標(biāo)準(zhǔn)？

劉淼：我覺(jué)得不只是“數(shù)量不夠”，而是“數(shù)據(jù)本身不對(duì)”。很多現(xiàn)有數(shù)據(jù)像“糖水”而不是“牛奶”。來(lái)自過(guò)于干凈、簡(jiǎn)單的環(huán)境（比如桌面抓取），與真實(shí)家庭環(huán)境差距很大。

如果模型在這種“假分布”上訓(xùn)練和評(píng)測(cè)，就會(huì)學(xué)到錯(cuò)誤的模式，甚至帶偏技術(shù)路線(xiàn)。本質(zhì)上，模型是在擬合數(shù)據(jù)分布。如果分布本身偏離真實(shí)世界，再好的模型設(shè)計(jì)也會(huì)被帶偏。

所以我們更關(guān)心的是如何獲得“真實(shí)世界”的數(shù)據(jù)。如果機(jī)器人能更好地理解人，即使功能還不夠全面，用戶(hù)也更可能接受它、愿意使用它。這樣我們才能以更可擴(kuò)展（scalable）的方式獲取高質(zhì)量數(shù)據(jù)，而不是依賴(lài)“數(shù)據(jù)采集工廠”。

DeepTech：但現(xiàn)實(shí)問(wèn)題是，第一視角和人機(jī)交互數(shù)據(jù)的獲取成本非常高，甚至互聯(lián)網(wǎng)里幾乎沒(méi)有現(xiàn)成數(shù)據(jù)。未來(lái)你們打算怎么構(gòu)建一個(gè)低成本、可規(guī)模化的數(shù)據(jù)閉環(huán)？

馮瑤：這是一個(gè)很好的問(wèn)題。我先說(shuō)結(jié)論：互聯(lián)網(wǎng)數(shù)據(jù)其實(shí)是可以用的，而且會(huì)是一個(gè)非常重要的數(shù)據(jù)來(lái)源。關(guān)鍵在于“重建能力”。如果你能把視頻中的人體行為高精度重建出來(lái)，它本質(zhì)上就可以轉(zhuǎn)化為可學(xué)習(xí)的數(shù)據(jù)。包括姿態(tài)、動(dòng)作、手部操作等 3D 行為信息。

這部分其實(shí)是我的一個(gè)長(zhǎng)期研究方向，也和人體重建、行為建模是直接相關(guān)的。中間會(huì)涉及一些關(guān)鍵技術(shù)，比如人體動(dòng)作 prior、3D 重建優(yōu)化等。

在這個(gè)基礎(chǔ)上，我們會(huì)做兩件事：第一，利用互聯(lián)網(wǎng)視頻數(shù)據(jù)作為最大規(guī)模的數(shù)據(jù)源；第二，在此基礎(chǔ)上進(jìn)行低成本的真實(shí)數(shù)據(jù)采集，由我們自己設(shè)計(jì)采集環(huán)境和硬件系統(tǒng)，再通過(guò)算法保證高質(zhì)量重建。

另外，合成數(shù)據(jù)（simulation）我認(rèn)為是一個(gè)重要的“增強(qiáng)器”。它更像是一種數(shù)據(jù) augmentation 的工具，而不是憑空生成數(shù)據(jù)的來(lái)源。比如，我們可以把多個(gè)短視頻片段進(jìn)行組合，在物理約束下進(jìn)行重建和補(bǔ)全，從而生成更長(zhǎng)的行為序列。這一類(lèi)方法可以幫助模型學(xué)習(xí)更長(zhǎng)時(shí)序的行為結(jié)構(gòu)。

劉淼：如果你上周問(wèn)我，我可能會(huì)說(shuō)我不太信任合成數(shù)據(jù)。但現(xiàn)在不一樣了，比如 GPT-image2 能力已經(jīng)提升很快，從肉眼來(lái)看，很多情況下已經(jīng)很難區(qū)分真實(shí)和合成數(shù)據(jù)。

所以這件事其實(shí)是動(dòng)態(tài)演化的：當(dāng)合成數(shù)據(jù)的質(zhì)量和成本達(dá)到一個(gè)臨界點(diǎn)，它就會(huì)自然進(jìn)入訓(xùn)練體系。但更重要的一點(diǎn)不是“用不用合成數(shù)據(jù)”，而是“如何更合理地使用數(shù)據(jù)”。包括如何利用真實(shí)數(shù)據(jù)和合成數(shù)據(jù)之間的互補(bǔ)關(guān)系，這里其實(shí)還有很多沒(méi)有被充分探索的空間。

從學(xué)術(shù)到創(chuàng)業(yè)：為什么選擇家庭場(chǎng)景？

DeepTech：聽(tīng)說(shuō)兩位有計(jì)劃從學(xué)術(shù)走向創(chuàng)業(yè)？你們是如何相識(shí)，并最終決定在具身智能這個(gè)方向上展開(kāi)合作的？

馮瑤：其實(shí)我和劉淼很早就認(rèn)識(shí)了，但之前一直覺(jué)得我們?cè)谧霾煌较虻氖虑椤Ｎ议L(zhǎng)期聚焦在人本身。包括人體表征、人類(lèi)行為理解以及機(jī)器人控制；而劉老師更多是從多模態(tài)學(xué)習(xí)、以模型為中心（model-centric）的視角來(lái)推進(jìn)相關(guān)問(wèn)題。

直到前段時(shí)間我們有了比較深入的交流，才發(fā)現(xiàn)我們?cè)凇熬呱碇悄艽竽X”這個(gè)問(wèn)題上，其實(shí)有一個(gè)很一致的判斷：如果要構(gòu)建一個(gè)能夠與人長(zhǎng)期共處的具身系統(tǒng)，它既需要強(qiáng)大的多模態(tài)感知能力，也必須真正理解“人”本身。這兩件事情是缺一不可的。所以我們會(huì)覺(jué)得，這種結(jié)合其實(shí)是比較自然的。而且從個(gè)人層面來(lái)說(shuō)，能找到一個(gè)在技術(shù)上互補(bǔ)、同時(shí)也值得信任的合作伙伴，是一件挺難得的事情。

另外一個(gè)很現(xiàn)實(shí)的原因是，前面也提到，這一類(lèi)系統(tǒng)的迭代高度依賴(lài)真實(shí)世界的數(shù)據(jù)和用戶(hù)反饋。要做到這一點(diǎn)，就必須有大規(guī)模的真實(shí)部署，而這在工程復(fù)雜度、資金、算力等方面的要求，已經(jīng)超出了一個(gè)學(xué)術(shù)實(shí)驗(yàn)室所能承擔(dān)的范圍。從這個(gè)角度看，走向創(chuàng)業(yè)其實(shí)是一個(gè)比較自然、甚至可以說(shuō)是“必經(jīng)”的路徑。只有進(jìn)入真實(shí)用戶(hù)場(chǎng)景，才能完成模型的閉環(huán)迭代。

劉淼：我和馮瑤也算是“相識(shí)于微時(shí)”。我當(dāng)時(shí)去她導(dǎo)師 Michael Black 的團(tuán)隊(duì)訪問(wèn)過(guò)一段時(shí)間。

雖然那時(shí)候我們的研究方向不完全一樣，但有一個(gè)共同的關(guān)注點(diǎn)。“人”在系統(tǒng)中的角色。無(wú)論是從人的視角去感知世界，還是去理解環(huán)境中的人，本質(zhì)上都是圍繞“人”展開(kāi)的。當(dāng)時(shí)其實(shí)沒(méi)有想到，未來(lái)會(huì)一起做產(chǎn)業(yè)化。但現(xiàn)在回過(guò)頭來(lái)看，這種結(jié)合是有一定內(nèi)在邏輯的。后來(lái)馮老師回國(guó)，我們才有機(jī)會(huì)更深入地討論這些問(wèn)題，也逐漸發(fā)現(xiàn)雙方在技術(shù)上是高度互補(bǔ)的。

簡(jiǎn)單來(lái)說(shuō)，她更多是在做偏底層的 human behavior understanding，比如運(yùn)動(dòng)信號(hào)、動(dòng)作層面的建模；我則更偏向認(rèn)知層，比如 memory、intention、attention，以及多模態(tài)融合。這兩部分正好可以形成一個(gè)比較完整的閉環(huán)。

DeepTech：那從學(xué)術(shù)走向產(chǎn)業(yè)的過(guò)程中，你們有沒(méi)有遇到一些落差或挑戰(zhàn)？畢竟學(xué)術(shù)研究往往更偏理想化。

劉淼：我們其實(shí)都不算完全“純學(xué)術(shù)”的路徑。我之前在 Meta 工作過(guò)幾年，對(duì)產(chǎn)業(yè)側(cè)還是有一定了解的，也很清楚“寫(xiě)論文”和“做產(chǎn)品”之間的差別。但我個(gè)人的一個(gè)判斷是：在某個(gè)階段，確實(shí)需要考慮商業(yè)化，這是不可避免的；但模型本身的迭代邏輯，仍然應(yīng)該以研究為主導(dǎo)，而不是完全由產(chǎn)品需求驅(qū)動(dòng)。否則很容易出現(xiàn)方向性的偏差。

馮瑤：我其實(shí)也接觸過(guò)不少產(chǎn)業(yè)環(huán)境。早期我在 Horizon Robotics、CloudWalk Technology 實(shí)習(xí)，后來(lái)也在 Meta 有過(guò)經(jīng)歷。再往后，我還參與過(guò)我博士導(dǎo)師的創(chuàng)業(yè)公司，開(kāi)始接觸一些更核心的決策問(wèn)題。那段經(jīng)歷對(duì)我影響挺大的。你會(huì)發(fā)現(xiàn)，一個(gè)團(tuán)隊(duì)里不僅有研究者，還有 3D 藝術(shù)家、前后端工程師、以及業(yè)務(wù)和銷(xiāo)售團(tuán)隊(duì)。不同角色會(huì)帶來(lái)完全不同的視角，這些視角反過(guò)來(lái)會(huì)幫助我們把研究真正落地。

我自己一直比較在意的一點(diǎn)是：無(wú)論是研究還是產(chǎn)品，最終都應(yīng)該被人使用。如果一個(gè)技術(shù)只是停留在論文里，它的價(jià)值是有限的。從這個(gè)角度來(lái)說(shuō)，我也比較幸運(yùn)。之前做的一些開(kāi)源項(xiàng)目，在社區(qū)里有比較多的使用和反饋，這讓我更堅(jiān)定了一個(gè)想法：技術(shù)只有進(jìn)入真實(shí)世界，才會(huì)真正“長(zhǎng)出來(lái)”。

DeepTech：回到路線(xiàn)選擇的問(wèn)題。現(xiàn)在很多具身公司一開(kāi)始會(huì)選擇工業(yè)場(chǎng)景，比如工廠或倉(cāng)庫(kù)。但你們更強(qiáng)調(diào)家庭環(huán)境和人機(jī)共融，為什么一開(kāi)始就沒(méi)有選擇工業(yè)路徑？

馮瑤：本質(zhì)的原因還是愿景不同。我們更希望做的是進(jìn)入家庭、進(jìn)入日常生活，讓更多普通人可以使用。另外，工業(yè)場(chǎng)景在某種程度上是“結(jié)構(gòu)化的”，人的參與較少，行為也更可預(yù)測(cè)。但我們關(guān)注的恰恰是人本身，所以方向自然不同。

劉淼：對(duì)。我回國(guó)之后，其實(shí)也有很多工業(yè)落地的合作機(jī)會(huì)，但我覺(jué)得這和我們想做的 human-centric AI 不是一件事。工業(yè)環(huán)境里，人是弱存在的，行為模式也比較固定。但如果目標(biāo)是讓機(jī)器人進(jìn)入人類(lèi)生活空間，那它必須先理解“人”，否則我個(gè)人是很難信任它和我共處在一個(gè)空間里的。所以這更多是一個(gè)價(jià)值選擇的問(wèn)題，而不是單純的技術(shù)路線(xiàn)選擇。

DeepTech：從時(shí)間尺度上看，兩位覺(jué)得具身智能目前處在什么階段？距離理想狀態(tài)大概還有多久？

馮瑤：我覺(jué)得可以分兩條路徑來(lái)看。如果是傳統(tǒng)“任務(wù)驅(qū)動(dòng)”的路線(xiàn)，比如只做抓取、疊衣服這種能力，那進(jìn)入家庭可能還需要較長(zhǎng)時(shí)間，因?yàn)橛脩?hù)接受“機(jī)器進(jìn)入生活空間”本身就需要一個(gè)過(guò)程。但如果是我們這條“以理解人為核心”的路線(xiàn)，我認(rèn)為進(jìn)入家庭的時(shí)間會(huì)更短。可能在一到兩年內(nèi)，就可以先以“有限功能 + 建立信任”的形式進(jìn)入家庭，然后逐步迭代能力。

劉淼：我整體判斷是類(lèi)似的。短期來(lái)看，一到兩年內(nèi)，確實(shí)會(huì)出現(xiàn)一些“初級(jí)可用”的家庭機(jī)器人，它們可能已經(jīng)開(kāi)始進(jìn)入真實(shí)家庭，但功能仍然比較有限，甚至有點(diǎn)“實(shí)驗(yàn)性”，可能會(huì)出現(xiàn)大家說(shuō)的“買(mǎi)回去吃灰”的情況。

所以如果沿著當(dāng)前的技術(shù)路線(xiàn)發(fā)展，目標(biāo)是一個(gè)真正意義上的“家庭智能體”。類(lèi)似可以長(zhǎng)期陪伴、理解需求、承擔(dān)多任務(wù)的系統(tǒng)。我認(rèn)為至少還需要五年以上。這個(gè)差距主要不在硬件，而在于對(duì)“人”的理解能力，以及在復(fù)雜家庭環(huán)境中的長(zhǎng)期學(xué)習(xí)能力。這也是為什么我想探索一種新的具身模型范式。

運(yùn)營(yíng)/排版：何晨龍

注：封面/首圖由 AI 輔助生成

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.