具身智能：形態(tài)、行動、感知與學(xué)習(xí)的協(xié)同作用

2026-04-06 18:44:42　來源: CreateAMind

上海舉報

分享至

Embodied Intelligence: A Synergy of Morphology,Action, Perception and Learning

具身智能：形態(tài)、行動、感知與學(xué)習(xí)的協(xié)同作用

https://dl.acm.org/doi/pdf/10.1145/3717059

具身智能強調(diào)智能受到大腦、身體與環(huán)境緊密耦合的影響。它通過信息感知和與環(huán)境的物理交互過程持續(xù)且動態(tài)地生成。在過去的幾年中，具身智能的研究范圍也在不斷擴大，并受到了來自不同領(lǐng)域的廣泛關(guān)注。與此同時，大量與具身智能相關(guān)的研究成果被提出，尤其是在最近幾年。在本文中，我們從具身智能是形態(tài)、行動、感知與學(xué)習(xí)四者協(xié)同作用的視角出發(fā)，對其進行了全面綜述，并對現(xiàn)有研究進行了系統(tǒng)的總結(jié)與分類。具體而言，由于具身智能是所有這些組成部分協(xié)同作用的結(jié)果，而非各自獨立發(fā)揮作用，我們主要關(guān)注形態(tài)、行動、感知與學(xué)習(xí)這四個組成部分之間的關(guān)聯(lián)，并指出未來研究可以從它們的內(nèi)在聯(lián)系中獲益的領(lǐng)域。

CCS概念：? 計算機系統(tǒng)組織 → 機器人自主性；
附加關(guān)鍵詞與短語：具身智能，形態(tài)，行動，感知，學(xué)習(xí)

1 引言

具身智能是一種計算方法，用于通過考慮智能體與其環(huán)境之間的嚴(yán)格耦合（這種耦合受到智能體自身身體、感知與運動系統(tǒng)以及大腦的限制的調(diào)節(jié)），來設(shè)計和理解具身且處于情境中的智能體的智能行為[23]。具身智能強調(diào)智能受到大腦、身體與環(huán)境緊密耦合的影響。它通過信息感知和與環(huán)境的物理交互過程持續(xù)且動態(tài)地生成。具身智能是生物體在復(fù)雜環(huán)境中生存的基礎(chǔ)，廣泛存在于植物、動物及其他生物有機體中。Held 和 Hein [70] 通過著名的“小貓實驗”驗證了視覺、發(fā)育與運動之間的關(guān)系。在該實驗中，兩只新生小貓被放在同一個房間里。一只可以主動自由移動，另一只則通過特殊設(shè)計的裝置被動地執(zhí)行相同的運動。盡管兩只小貓接收到相同的視覺刺激，但一段時間后觀察到，主動小貓發(fā)育出了正常的感官-運動系統(tǒng)，而被動小貓則表現(xiàn)出嚴(yán)重的感官-運動障礙。該實驗有力地證明了具身學(xué)習(xí)的重要性。

在本文中，我們討論具身人工智能，這并非一個新概念。早在 20 世紀(jì) 50 年代，艾倫·圖靈就指出，構(gòu)建智能機器的一種方法是賦予它感知世界的能力，并讓它自行發(fā)展[184]。在經(jīng)典的人工智能書籍和教科書中，智能體的定義是通過傳感器感知環(huán)境，并通過執(zhí)行器作用于該環(huán)境[159]。因此，身體-環(huán)境交互一直是研究、模擬和擴展智能的重要途徑。當(dāng)前，由大數(shù)據(jù)、深度學(xué)習(xí)及圖形處理器支持的人工智能技術(shù)在視覺感知、語言處理和語音處理等領(lǐng)域取得了前所未有的成功。然而，更側(cè)重于動作執(zhí)行的機器人領(lǐng)域尚未取得同樣成功的成果。此外，即使在前述取得巨大成功的領(lǐng)域中，大多也是在受限環(huán)境的假設(shè)下實現(xiàn)的。一旦面向開放環(huán)境，當(dāng)前的人工智能技術(shù)仍面臨巨大挑戰(zhàn)。造成這一問題的核心原因在于，我們更多地關(guān)注了智能體的感知和學(xué)習(xí)能力，而未充分挖掘其動作和行為能力。具身人工智能的提出正是為了強調(diào)身體的作用，特別是其對智能行為的影響。相反，忽略身體影響的智能技術(shù)被稱為離身智能。需要注意的是，在離身智能研究中，動作并非完全被忽略，但通常更側(cè)重于模擬大腦活動以做出決策并實現(xiàn)動作，例如下棋和玩電腦游戲。此外，在離身智能研究中身體也并非完全被忽略，但身體通常僅被用來被動執(zhí)行指令。

在過去的幾年中，出現(xiàn)了一些從不同角度探討具身智能的教程和綜述論文。我們在此進行簡要分析并闡明本文的動機。參考文獻[153]最初揭示了一個事實，即更高層次的認(rèn)知和智能行為需要從自下而上的方式來理解，并建立了一個具身智能架構(gòu)。自此，具身智能引起了越來越多的關(guān)注。尤其是在最近幾年，具身智能在機器人學(xué)、計算機視覺和機器學(xué)習(xí)等領(lǐng)域變得相當(dāng)熱門。當(dāng)前的綜述論文主要分為兩類。第一類緊密沿襲參考文獻[152, 153]的研究路線。參考文獻[79]從時間尺度的角度對具身智能進行了綜述，并討論了在復(fù)雜的自主與自適應(yīng)系統(tǒng)中交互如何起作用。參考文獻[173]討論了編碼在身體中的物理智能。然而，具身智能關(guān)注的是智能體的身體、大腦與環(huán)境之間的緊密耦合。需要指出的是，物理智能也支持利用身體產(chǎn)生動作、進行感知和學(xué)習(xí)，但它并未考慮其與大腦及環(huán)境的關(guān)系。第二類綜述更關(guān)注與機器學(xué)習(xí)、計算機視覺及基礎(chǔ)模型高度相關(guān)的最新進展，其中總結(jié)了一些更具體的研究課題，如視覺語言導(dǎo)航、基礎(chǔ)模型及模擬器[47, 53, 122]。參考文獻[116]對具身人工智能進行了較為全面的綜述，但忽略了形態(tài)與動作之間的聯(lián)系。與上述兩類不同，參考文獻[157]系統(tǒng)討論了具身智能的歸納偏置，分析了形態(tài)、表示與學(xué)習(xí)的作用，并描述了智能體與環(huán)境之間的能量交換。然而，參考文獻[157]的目標(biāo)是強調(diào)具身智能中的挑戰(zhàn)與機遇，并提出可能顯著推動機器人學(xué)習(xí)領(lǐng)域當(dāng)前技術(shù)發(fā)展水平的研究方向。在本文中，我們將具身智能視為形態(tài)、行動、感知與學(xué)習(xí)的協(xié)同作用，并對現(xiàn)有研究進行了全面綜述與分類。我們主要關(guān)注形態(tài)、行動、感知與學(xué)習(xí)這四個組成部分之間的聯(lián)系，并基于身體、大腦與環(huán)境的緊密耦合，提供了一個統(tǒng)一的具身智能框架。

本文組織如下：第2節(jié)簡要介紹發(fā)展歷史；第3節(jié)聚焦于所提出的具身智能架構(gòu)；第4節(jié)介紹一些研究前沿；第5節(jié)給出結(jié)論。

2 漫長的過去與短暫的歷史

具身智能擁有漫長的過去，卻只有短暫的歷史。亞里士多德、查爾斯·達爾文、莫里斯·梅洛-龐蒂、克洛德·貝爾納、沃爾特·坎農(nóng)、馬丁·海德格爾、諾伯特·維納、讓·皮亞杰、詹姆斯·吉布森等人的一系列工作，為具身智能在哲學(xué)、生理學(xué)、心理學(xué)和認(rèn)知科學(xué)領(lǐng)域的研究奠定了堅實的基礎(chǔ)。當(dāng)前最具代表性的觀點是：大腦在具身智能中發(fā)揮著重要作用，但它并非認(rèn)知的起源。由于感知與行動之間存在一個動態(tài)循環(huán)，感知與認(rèn)知通過身體-環(huán)境交互建立起一種相互依存的關(guān)系。因此，感知-行動循環(huán)實際上是認(rèn)知的核心。這一框架模糊了感知與認(rèn)知之間的界限。這與參考文獻[8]中所提到的內(nèi)容是一致的：一旦我們開始探究動物在實際世界中所使用的機制，就很難判斷感知在哪里結(jié)束，認(rèn)知又從哪里開始。

然而，現(xiàn)代人工智能起源于1950年代的達特茅斯會議，此后相當(dāng)長一段時期內(nèi)，人工智能研究主要局限于符號處理范式（亦稱符號主義）。這種方法在實際應(yīng)用中的局限性很快顯現(xiàn)出來，從而催生了聯(lián)結(jié)主義的發(fā)展。聯(lián)結(jié)主義包括多層感知機、前饋神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)，以及當(dāng)前在學(xué)術(shù)界和工業(yè)界廣泛流行的深度神經(jīng)網(wǎng)絡(luò)方法。這種利用神經(jīng)網(wǎng)絡(luò)模擬認(rèn)知科學(xué)的方法在適應(yīng)性、泛化性和學(xué)習(xí)等方面確實取得了巨大進展，但并未解決智能體與真實物理世界交互中的挑戰(zhàn)性問題，并且在可解釋性等方面也表現(xiàn)出很大的局限性。

事實上，符號主義和聯(lián)結(jié)主義的根本問題在于它們忽視了與物理世界的交互。莫拉維克悖論最初于20世紀(jì)80年代提出，該悖論指出：計算機像成年人一樣下棋相對容易，但要像一歲兒童一樣具備感知和行動能力卻相當(dāng)困難甚至不可能。有趣的是，當(dāng)我們審視當(dāng)今人工智能蓬勃發(fā)展的成就時，確實仍然難以找到解決這一問題的根本性突破。羅德尼·布魯克斯曾提出，智能需要身體，強調(diào)智能是具身的且與環(huán)境密切相關(guān)。這一觀點推動了以具身人工智能為代表的行為主義的誕生。需要注意的是，本文所指的“EAI”是利用人工智能方法對具身智能進行的模擬，它不同于生物體固有的具身智能。本文聚焦于具身人工智能。除非另有說明，本文后續(xù)內(nèi)容中提到的“具身智能”和“離身智能”分別指代“具身人工智能”和“離身人工智能”。

具身智能與離身智能并非相互排斥。在符號主義、聯(lián)結(jié)主義和行為主義中都可以找到具身智能和離身智能的影子，只是各有側(cè)重。它們也共享相同的目標(biāo)，包括理解生物系統(tǒng)、模仿智能行為以及設(shè)計人工智能體。在大數(shù)據(jù)、深度學(xué)習(xí)及圖形處理器的驅(qū)動下，離身智能在以互聯(lián)網(wǎng)信息處理為代表的領(lǐng)域取得了巨大成功，而與機制和材料高度相關(guān)的具身智能則已成為智能機器人的核心基礎(chǔ)。

在探索智能的過程中，具身智能與離身智能應(yīng)當(dāng)相互補充、協(xié)同發(fā)展，共同促進對智能的理解、模擬與擴展。具身智能與離身智能的緊密結(jié)合，是實現(xiàn)通用人工智能的必要條件。

3 具身智能架構(gòu)

在本節(jié)中，我們構(gòu)建了一個統(tǒng)一的具身智能框架，該框架由形態(tài)、行動、感知和學(xué)習(xí)四個模塊組成（圖1）。由于具身智能是所有這些模塊協(xié)同作用的結(jié)果，我們更多地關(guān)注它們之間的連接（圖1中的連線），而非模塊本身。為此，本節(jié)將介紹與圖1中連線相對應(yīng)的八個子節(jié)。由于圖1中的連線8?（從學(xué)習(xí)到行動）實際上是許多現(xiàn)有研究的基礎(chǔ)，我們首先介紹它，然后再依次介紹其他連線。

3.1 基于學(xué)習(xí)的行動生成（L → A）

本子節(jié)對應(yīng)于圖1中從學(xué)習(xí)到行動的連線8?，聚焦于利用機器學(xué)習(xí)方法生成行動。實際上，行動生成問題在經(jīng)典控制理論和現(xiàn)代控制理論中已有數(shù)百年的廣泛研究。在經(jīng)典控制領(lǐng)域，應(yīng)用最廣泛的PID控制器通過調(diào)節(jié)比例項、積分項和微分項這三個參數(shù)來工作，相當(dāng)方便且有效。然而，參數(shù)調(diào)整需要豐富的工程經(jīng)驗，這限制了此類方法在更復(fù)雜場景中的應(yīng)用。隨后，在20世紀(jì)50年代，基于狀態(tài)空間模型的現(xiàn)代控制理論得以建立。這類方法高度依賴白箱模型來獲取控制器參數(shù)，并能夠完成完整的穩(wěn)定性分析。然而，對于復(fù)雜的機器人和過程控制系統(tǒng)，難以獲得精確的模型，數(shù)學(xué)計算與實際應(yīng)用之間始終存在較大差距。所有這些局限性促使人們考慮引入人工智能技術(shù)來開發(fā)新的智能控制方法，其中強化學(xué)習(xí)方法變得越來越受歡迎。

強化學(xué)習(xí)的基本思想應(yīng)歸功于20世紀(jì)50年代由理查德·貝爾曼建立的馬爾可夫決策過程[9]，智能體基于當(dāng)前狀態(tài)選擇最優(yōu)行動。在此基礎(chǔ)上，克里斯·沃特金斯于1989年提出的Q-learning算法[196]為強化學(xué)習(xí)奠定了基礎(chǔ)。然而，強化學(xué)習(xí)也存在收斂困難、泛化能力差等局限性。隨著深度學(xué)習(xí)的發(fā)展，深度Q網(wǎng)絡(luò)[127]將卷積神經(jīng)網(wǎng)絡(luò)的特征提取能力與強化學(xué)習(xí)的行動學(xué)習(xí)能力無縫結(jié)合，在人機棋類對弈中取得了巨大成功，再次激發(fā)了強化學(xué)習(xí)領(lǐng)域的新一輪研究熱潮。近期研究表明，強化學(xué)習(xí)也廣泛應(yīng)用于生物智能[134]。

目前，強化學(xué)習(xí)方法已成為具身智能的重要方法。需要注意的是，強化學(xué)習(xí)算法的設(shè)計是機器學(xué)習(xí)領(lǐng)域關(guān)注的問題[187]。我們可以直接使用現(xiàn)成的強化學(xué)習(xí)算法，如PPO [167]和SAC [66]，這些算法被最廣泛地用于為智能體生成行動。需要做的是確定狀態(tài)空間、行動空間和獎勵函數(shù)，這些都與具體任務(wù)密切相關(guān)。從這個意義上說，L → A是圖1中其他連線的基礎(chǔ)。

3.2 基于形態(tài)的行動生成（M → A）

本子節(jié)對應(yīng)于圖1中從形態(tài)到行動的連線1?，強調(diào)形態(tài)計算。通過形態(tài)計算，在與環(huán)境交互時，原本需要由大腦完成的部分計算可以卸載到身體上。身體被用來提高計算效率并進一步控制自身的行為。這種現(xiàn)象在日常生活中相當(dāng)普遍。例如，一個人可以輕松地抓取一個物體，而無需仔細(xì)計算運動軌跡和接觸力。近年來，隨著機構(gòu)學(xué)、軟體機器人等領(lǐng)域的發(fā)展，形態(tài)計算正迎來新的機遇[72, 138]，并在Sim2Real遷移和低功耗計算方面已經(jīng)展現(xiàn)出巨大優(yōu)勢[23]。

3.2.1 典型示例。利用形態(tài)計算實現(xiàn)對更復(fù)雜行為控制的一個典型例子是20世紀(jì)90年代研發(fā)的被動行走機器人（圖2）[37, 125]。通過設(shè)計特殊的形態(tài)結(jié)構(gòu)，該機器人無需主動控制輸入即可在緩坡上實現(xiàn)穩(wěn)定的步態(tài)。這項工作摒棄了動力學(xué)建模與控制中對機器人關(guān)節(jié)控制的嚴(yán)格要求，使機器人能夠完全依賴自身的形態(tài)來控制其行為。

近年來，更多新穎的形態(tài)結(jié)構(gòu)不斷涌現(xiàn)。參考文獻[52]探索了利用形態(tài)計算實現(xiàn)四足機器人快速奔跑的方法。參考文獻[103]利用動態(tài)形態(tài)計算為蛇形機器人生成周期性步態(tài)。參考文獻[10]從自然系統(tǒng)和人工系統(tǒng)中的顯示、感知和交互等方面闡述了形態(tài)計算在觸覺感知中的應(yīng)用。受沙漠蝗蟲的啟發(fā)，參考文獻[201]研究了動物腿部適應(yīng)不同地面的控制方法，并在玻璃、砂巖、木材和網(wǎng)格等表面上進行了機器人動態(tài)粘附實驗。

然而，由于增加機器人系統(tǒng)的形態(tài)計算可能會降低總體能量需求和控制器的復(fù)雜度，因此建立了一個能量視角，將機器人表征為機器與其環(huán)境之間為實現(xiàn)特定目標(biāo)集而進行的能量與信息交換[95]。這反過來促使我們開發(fā)用于能量收集及其他益處的形態(tài)計算。例如，參考文獻[59]評估了跳躍運動中肌肉的形態(tài)計算，參考文獻[92]利用機器人自適應(yīng)形態(tài)、控制及后續(xù)行為之間的相互聯(lián)系，驗證了大腦與身體之間的緊密耦合可以通過能量收集來提高能效[170]，這一點值得進一步研究。

總體而言，該領(lǐng)域的研究工作主要與機構(gòu)設(shè)計密切相關(guān)，且大多涉及人工干預(yù)。參考文獻[54]從可編程動態(tài)系統(tǒng)的角度提出了形態(tài)計算的形式化分析方法，并指出形態(tài)計算不僅適用于機器人，還可以廣泛應(yīng)用于化學(xué)系統(tǒng)、統(tǒng)計物理等科學(xué)領(lǐng)域。然而，目前仍缺乏從人工智能技術(shù)角度對形態(tài)計算進行系統(tǒng)性的指導(dǎo)。由于形態(tài)計算的巨大潛力，許多學(xué)者一直在積極探索該領(lǐng)域。盡管形態(tài)計算的完整理論模型尚未建立，但已經(jīng)出現(xiàn)了兩類相對成熟的方法：儲層計算和信息論。

3.2.2 用于形態(tài)計算的物理儲層計算。儲層計算是形態(tài)計算中最常用的方法[81]，屬于動態(tài)系統(tǒng)分析方法。在儲層計算模型中，物理形態(tài)被視為一個物理儲層計算設(shè)備[131]。儲層計算模型的計算機制是一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，其中中間層的參數(shù)隨機固定，僅需訓(xùn)練輸出層的參數(shù)。因此，由于只需解決一個線性優(yōu)化問題，網(wǎng)絡(luò)訓(xùn)練變得非常方便。由于儲層計算具有強大的動態(tài)系統(tǒng)描述能力，它已成為分析形態(tài)計算的有力工具。

然而，由于儲層內(nèi)部參數(shù)不需要顯式學(xué)習(xí)，因此可以利用物理身體的動力學(xué)來實現(xiàn)儲層計算。參考文獻[68]利用質(zhì)量-彈簧系統(tǒng)構(gòu)建了一個儲層計算模型，并詳細(xì)分析了其動態(tài)特性，為形態(tài)計算提供了一個通用的儲層計算模型（圖3(a)）。因此，后續(xù)工作主要是構(gòu)建不同的物理儲層計算模型來實現(xiàn)形態(tài)計算。從這個意義上說，對儲層計算模型的研究可以有效指導(dǎo)形態(tài)計算設(shè)備的設(shè)計。一個典型的例子是，如果前述質(zhì)量改為剛性桿，就可以形成張拉整體結(jié)構(gòu)（見圖3(b)）。這是一種由受拉構(gòu)件連接剛性元件的穩(wěn)定結(jié)構(gòu)。參考文獻[148]使用四個執(zhí)行器控制一個具有24個自由度的張拉整體機器人，展示了張拉整體的計算能力。最近，參考文獻[149]提出了一個用于張拉整體機器人力學(xué)建模與控制的統(tǒng)一框架。

在四足機器人步態(tài)控制任務(wù)中（圖4(a)），研究者發(fā)現(xiàn)直接使用傳統(tǒng)儲層計算模型中的簡單線性層難以實現(xiàn)復(fù)雜的形態(tài)控制，因此引入了非線性層以進一步提升儲層計算模型的性能[42]。參考文獻[74]驗證了仿生魚機器人系統(tǒng)也滿足儲層計算模型中的回聲狀態(tài)特性，并且利用魚形機器人的游動動作可以顯著提升其形態(tài)計算能力（見圖4(b)）。參考文獻[12]指出，折紙結(jié)構(gòu)也能具備足夠的動態(tài)性能，從而擁有足夠的形態(tài)計算能力來模擬高階非線性系統(tǒng)，并以此實現(xiàn)了一種新穎的機器人爬行策略（見圖4(c)）。此外，參考文獻[130]利用儲層計算模擬了人類皮膚的形態(tài)計算能力，參考文獻[182]則利用機器人的自然動力學(xué)來識別風(fēng)向。近年來，儲層計算，特別是物理儲層計算發(fā)展迅速，其通過物理設(shè)備實現(xiàn)儲層計算，與具身形態(tài)計算高度相關(guān)。參考文獻[131]對物理儲層計算的最新進展進行了詳細(xì)綜述。除了物理儲層計算之外，當(dāng)前利用各種物理形態(tài)實現(xiàn)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的方法也引起了不同領(lǐng)域研究者的極大關(guān)注。

此外，軟體機器人近年來受到越來越多的關(guān)注，并取得了巨大進展。與剛性機器人相比，軟體機器人在可變形性、靈活性、安全性等方面具有更好的特性，更適合在復(fù)雜路面上驅(qū)動以及操縱未知物體[89]。需要指出的是，由于軟體機器人身體動力學(xué)復(fù)雜，其控制非常具有挑戰(zhàn)性，但從具身形態(tài)計算的角度來看，這種復(fù)雜的動力學(xué)反而是一種有價值的計算資源[109]，因此軟體機器人成為儲層計算的理想工具。受章魚的啟發(fā)，參考文獻[132]將章魚臂用作儲層計算設(shè)備，通過從其物理身體讀取線性和靜態(tài)輸出，能夠模擬復(fù)雜的非線性行為，并且無需外部控制器，通過收斂到極限環(huán)即可實現(xiàn)閉環(huán)控制。基于這項工作，參考文獻[133]展示了這類軟體機器人對非線性連續(xù)函數(shù)的逼近和控制能力。參考文獻[90]進一步利用這一機制實現(xiàn)了水中的物體定位（圖5）。此外，參考文獻[48]用軟體手?jǐn)U展了具身形態(tài)計算的范圍，并開發(fā)了一種用于氣動驅(qū)動軟體手的儲層模型。參考文獻[208]指出，軟體材料長時間浸泡在水中后產(chǎn)生的褶皺有助于實現(xiàn)某些計算任務(wù)，并將其應(yīng)用于主動觸覺感知。參考文獻[137]利用軟體觸須傳感器進行形態(tài)計算，實現(xiàn)了主動距離估計。參考文獻[46]研究了調(diào)節(jié)軟體硅膠夾持器阻尼特性的方法，實現(xiàn)了動態(tài)形態(tài)計算。可以看出，軟體機器人作為一種非常有前途的機器人形態(tài)，已成為具身形態(tài)計算的重要發(fā)展方向。相信軟體機器人的發(fā)展必將推動新一輪具身形態(tài)計算的熱潮。

3.2.3 形態(tài)計算的信息論方法。盡管基于動態(tài)系統(tǒng)的方法，特別是儲層計算模型，已經(jīng)取得了巨大成功，但這類方法主要旨在定性模擬具身形態(tài)計算，缺乏定量評估能力，這限制了對形態(tài)計算機制的進一步深入分析，而信息論方法在這方面具有明顯優(yōu)勢。實際上，評估形態(tài)計算系統(tǒng)性能最重要的事情是分析原本應(yīng)由“大腦”承擔(dān)的計算中有多少被卸載到了“身體”。受此想法的啟發(fā)，參考文獻[58]指出，對形態(tài)計算進行定量分析需要建立一個包含大腦、執(zhí)行器、傳感器和環(huán)境的認(rèn)知系統(tǒng)因果模型。

此外，一些工作從分析控制復(fù)雜度的角度來評估形態(tài)智能。例如，參考文獻[158]利用概率最優(yōu)控制方法，通過優(yōu)化控制器復(fù)雜度來分析機器人的形態(tài)能夠承擔(dān)多少計算工作。參考文獻[38]比較了不同形態(tài)對應(yīng)的控制器的熵，以分析形態(tài)如何影響行為。參考文獻[150]研究了在微觀尺度上使用熵來表征機器人具身性的方法。“廉價控制”也為形態(tài)智能提供了另一種途徑，即系統(tǒng)必須充分利用具身智能的作用來追求廉價控制。參考文獻[155]進一步將此思想引入強化學(xué)習(xí)，建立了一個鼓勵形態(tài)計算的新的優(yōu)化目標(biāo)。與參考文獻[58]的框架相比，這些工作通過間接分析控制器的復(fù)雜度來分析形態(tài)的作用。最近，參考文獻[49]指出，簡單性通常是在逐個行動的基礎(chǔ)上量化的，通過約束狀態(tài)與行動之間的互信息可以獲得簡單行動，這滿足了策略的復(fù)雜度要求。需要注意的是，這些定量分析工作大多是與實際物理形態(tài)無關(guān)的理論研究。如何結(jié)合具體的物理形態(tài)實現(xiàn)對形態(tài)計算的定量分析，仍然存在巨大挑戰(zhàn)。

3.2.4 小結(jié)。總的來說，該領(lǐng)域的研究工作主要探討如何將“大腦”負(fù)責(zé)的計算任務(wù)卸載到“身體”，以及如何準(zhǔn)確評估“身體”所承擔(dān)的形態(tài)計算。這是一個融合了機構(gòu)學(xué)、材料學(xué)和控制技術(shù)的新型交叉學(xué)科方向。除了人工設(shè)計形態(tài)結(jié)構(gòu)之外，形態(tài)計算的理論也取得了長足的進步，包括儲層計算模型和信息論分析方法。高維機器人控制領(lǐng)域中常見的“維度災(zāi)難”問題，有望通過形態(tài)帶來的優(yōu)勢得到有效克服，我們也將此稱為“形態(tài)的祝福”。

3.3 基于行動的形態(tài)控制（A → M）

本子節(jié)對應(yīng)于圖1中從行動到形態(tài)的連線2?。形態(tài)結(jié)構(gòu)被用來簡化對特定行動的控制。對于具身智能體而言，無論其形態(tài)多么復(fù)雜，都具有某種“結(jié)構(gòu)性”特征。這種結(jié)構(gòu)信息有助于減小行動生成的優(yōu)化空間，保證解的可行性和可解釋性。

在為具有復(fù)雜形態(tài)的智能體設(shè)計控制器時，傳統(tǒng)的強化學(xué)習(xí)并未利用智能體的形態(tài)特征，而僅僅是將來自智能體不同部位的觀測簡單拼接起來，并直接輸出所有控制變量。這導(dǎo)致控制變量的搜索空間很大，并且學(xué)習(xí)到的控制變量難以在不同形態(tài)之間遷移。基于行動的形態(tài)控制的主要任務(wù)是如何有效地將形態(tài)信息整合到行動控制器的學(xué)習(xí)過程中。最直接的想法是對智能體的形態(tài)信息進行編碼以解決形態(tài)控制問題。參考文獻[31]提出了顯式編碼和隱式編碼兩種方法。對于顯式編碼，不同關(guān)節(jié)的相對位姿被拼接成一個向量，這有助于對機器人的運動學(xué)結(jié)構(gòu)進行建模。這種編碼方法利用了一些先驗信息，但僅限于簡單的拼接操作，僅適用于某些機械臂，而不適用于更復(fù)雜的形態(tài)。對于隱式編碼，形態(tài)的編碼是在迭代優(yōu)化學(xué)習(xí)策略的過程中進行優(yōu)化的，這意味著算法不僅搜索從狀態(tài)到行動的最優(yōu)映射，同時還發(fā)現(xiàn)形態(tài)的最優(yōu)編碼。盡管該方法在具有不同自由度的同類型機械臂之間的遷移能力上表現(xiàn)出良好性能，但它給優(yōu)化帶來了新的困難，并且機器人的先驗形態(tài)信息沒有得到充分利用。

目前，更先進的技術(shù)，如圖神經(jīng)網(wǎng)絡(luò)和Transformer [185]，被廣泛用于高效地表示形態(tài)信息，并直接用于提高強化學(xué)習(xí)的效率。更重要的是，直接考慮形態(tài)信息的控制器在跨平臺遷移中表現(xiàn)出良好的性能，并且在控制新型具身智能體時具有顯著優(yōu)勢。

3.3.1 用于形態(tài)控制的圖神經(jīng)網(wǎng)絡(luò)。在強化學(xué)習(xí)領(lǐng)域，許多工作引入圖結(jié)構(gòu)來提高學(xué)習(xí)效率。但其中大多數(shù)僅限于使用圖結(jié)構(gòu)來描述智能體所處的環(huán)境，而非智能體自身的形態(tài)結(jié)構(gòu)[161, 169]。參考文獻[192]建立了一種基本的形態(tài)圖模型方法，其中節(jié)點代表不同的關(guān)節(jié)，邊代表關(guān)節(jié)之間的依賴關(guān)系。利用該圖模型，可以直接使用圖神經(jīng)網(wǎng)絡(luò)的消息傳遞機制來處理各個關(guān)節(jié)之間的關(guān)系。在每個學(xué)習(xí)迭代中，每個節(jié)點可以將其狀態(tài)信息分發(fā)給相鄰節(jié)點，每個節(jié)點綜合其他節(jié)點發(fā)送的狀態(tài)信息來更新自身狀態(tài)。通過這種方式，形態(tài)信息被有效地納入學(xué)習(xí)過程中，有助于控制器更快地學(xué)習(xí)。在此基礎(chǔ)上，參考文獻[16]引入了參數(shù)凍結(jié)技術(shù)來訓(xùn)練圖神經(jīng)網(wǎng)絡(luò)，以解決高維連續(xù)控制問題。盡管參考文獻[192]提出的方法有效利用了形態(tài)信息，但需要為圖結(jié)構(gòu)中對應(yīng)于智能體不同部分的不同節(jié)點設(shè)計不同的策略。參考文獻[78]提出了一種使用圖結(jié)構(gòu)針對不同形態(tài)智能體的統(tǒng)一控制策略。其核心思想是將智能體的形態(tài)分解為不同的獨立模塊，但其實質(zhì)仍然依賴于相鄰節(jié)點的消息來影響策略。這樣，可以為不同模塊獨立設(shè)計控制策略，并針對不同形態(tài)實現(xiàn)統(tǒng)一的控制器。這也為控制器設(shè)計的預(yù)訓(xùn)練模型提供了啟示。最近，參考文獻[199]使用圖神經(jīng)網(wǎng)絡(luò)來描述智能體各模塊之間的結(jié)構(gòu)信息，指出結(jié)構(gòu)相似的模塊可以共享控制策略。通過將此結(jié)構(gòu)信息融入基于模型的強化學(xué)習(xí)中，顯著縮小了搜索空間，并在物理實驗中驗證了結(jié)果（圖6）。

總的來說，使用圖神經(jīng)網(wǎng)絡(luò)進行形態(tài)控制的初衷在于：形態(tài)信息能夠產(chǎn)生有利于學(xué)習(xí)控制器的歸納偏置。然而，目前能夠處理的機器人的自由度和類型仍然相對有限。需要進一步的研究來適應(yīng)形態(tài)差異顯著的情況下的高效遷移。一般而言，對于形態(tài)結(jié)構(gòu)簡單的智能體，不同的形態(tài)描述方法之間差異不大。對于形態(tài)復(fù)雜的智能體，圖結(jié)構(gòu)方法相比簡單形態(tài)的方法表現(xiàn)出更優(yōu)越的性能。在實際使用中，需要利用圖模型準(zhǔn)確捕捉智能體的形態(tài)特征。

3.3.2 用于形態(tài)控制的Transformer。盡管圖模型在形態(tài)控制中發(fā)揮著積極作用，但機器人的形態(tài)通常是一種稀疏圖結(jié)構(gòu)，經(jīng)過多輪消息傳遞后關(guān)鍵信息可能會消失，這就是所謂的“過度平滑”問題。近年來，Transformer作為一種基于自注意力機制的模型受到了廣泛關(guān)注[185]。如果將注意力設(shè)計為“邊到頂點”的聚合單元，Transformer可以被視為全連接圖上的圖神經(jīng)網(wǎng)絡(luò)。參考文獻[101]直接使用Transformer實現(xiàn)不同組件之間的消息傳遞，而編碼器和解碼器可以分別作用于不同的組件。盡管這種方法展示了Transformer的潛力，但它忽略了機器人真實的物理形態(tài)。參考文獻[73]進一步揭示了節(jié)點位置信息對自注意力機制的作用，并將形態(tài)信息嵌入到Transformer模型中，用于異構(gòu)形態(tài)的聯(lián)合策略學(xué)習(xí)。它克服了傳統(tǒng)圖神經(jīng)網(wǎng)絡(luò)中稀疏結(jié)構(gòu)導(dǎo)致的過度平滑問題。此外，針對大規(guī)模機器人形態(tài)控制問題，參考文獻[62]將機器人形態(tài)作為Transformer的輸入，通過構(gòu)建“Metamorph”來學(xué)習(xí)通用策略，以同時控制大量不同的機器人，為具身形態(tài)學(xué)習(xí)的大規(guī)模預(yù)訓(xùn)練模型奠定了基礎(chǔ)（圖7）。

3.3.3 形態(tài)遷移。對于不同形態(tài)之間的形態(tài)控制遷移，由于圖神經(jīng)網(wǎng)絡(luò)及類似方法直接描述了形態(tài)的特征，因此在形態(tài)相似的智能體之間觀察到了良好的遷移性能。然而，當(dāng)形態(tài)差異較大時，遷移性能會下降，因為不同形態(tài)之間對應(yīng)的狀態(tài)空間和行動空間存在顯著差異。

為此，參考文獻[69]提出了一種對策略進行分層解耦的方法，其中僅遷移高層策略，而低層策略仍獨立學(xué)習(xí)。由于高層策略與低層策略之間存在耦合，如果不同形態(tài)智能體的低層策略差異顯著，高層策略的遷移也難以成功。因此，引入互信息來最小化形態(tài)與低層行動之間的差異，從而實現(xiàn)不同智能體低層策略的對齊。總體而言，當(dāng)前大多數(shù)工作仍處于仿真階段，如何在真實機器人（尤其是仿生機器人和人形機器人）上實現(xiàn)這些方法，仍然是一個極具挑戰(zhàn)性的問題。

3.3.4 小結(jié)。由于高維度、非線性和強耦合等因素，使用強化學(xué)習(xí)方法實現(xiàn)對復(fù)雜智能體的形態(tài)控制極具挑戰(zhàn)性。然而，形態(tài)信息提供了非常重要且有用的先驗信息，能夠顯著約束搜索空間。因此，以適當(dāng)?shù)姆绞綄⑿螒B(tài)信息引入學(xué)習(xí)算法中，以提高控制器的學(xué)習(xí)效率，并在將控制策略遷移到其他未知形態(tài)時保證性能，這一點至關(guān)重要，這也體現(xiàn)了“形態(tài)的祝福”。當(dāng)前，圖神經(jīng)網(wǎng)絡(luò)和Transformer是用于描述形態(tài)結(jié)構(gòu)的代表性方法。這些工作仍然主要在仿真環(huán)境中進行，所學(xué)策略在遷移到物理系統(tǒng)時會遇到許多困難。盡管為不同機器人設(shè)計統(tǒng)一的形態(tài)控制器非常有吸引力，但仍存在諸多困難。受近年來自然語言和計算機視覺等領(lǐng)域預(yù)訓(xùn)練模型的啟發(fā)，針對不同形態(tài)的統(tǒng)一預(yù)訓(xùn)練大模型也是未來的一個重要研究方向。

3.4 感知驅(qū)動的形態(tài)變換（P → M）

本子節(jié)對應(yīng)于圖1中從感知到形態(tài)的連線3?，其中智能體根據(jù)環(huán)境感知信息在線變換形態(tài)。形態(tài)變換在我們的生活中相當(dāng)常見。例如，當(dāng)人們在冰面上快速滑行時，會本能地降低身體以保持平衡；鳥類受驚后會快速扇動翅膀飛走。這種形態(tài)變換在機器人領(lǐng)域也經(jīng)常出現(xiàn)，特別是對于兩棲機器人和可變形機器人而言，它們能夠通過適應(yīng)環(huán)境和任務(wù)，在感知驅(qū)動下改變自身的身體結(jié)構(gòu)或參數(shù)。由于在線形態(tài)變換與感知信息相耦合，因此需要較高的實時性。最近，參考文獻[171]報道了一種多模態(tài)移動機器人，它通過改變附屬部件來增強其運動能力（圖8(a)）。在變換其輪子、腿和螺旋槳之后，它可以切換為無人地面車輛、移動倒立擺、無人機系統(tǒng)等。它依靠形態(tài)變換在不同地形間穿行。此外，參考文獻[140]提出的四足機器人可以在不同地面上行走時動態(tài)調(diào)整腿長以適應(yīng)不同地形（見圖8(b)）。另一個典型例子是參考文獻[177]報道的兩棲飛行-驅(qū)動車輛。參考文獻[94]提出了一種變色龍軟體機器人，可以模仿變色龍根據(jù)環(huán)境改變自身顏色。參考文獻[202]利用熱、化學(xué)或電刺激持續(xù)驅(qū)動液態(tài)金屬液滴運動，并使輪式機器人改變重心以產(chǎn)生滾動力矩。

3.4.1 小結(jié)。感知驅(qū)動的形態(tài)變換與硬件高度相關(guān)。盡管有許多相關(guān)的工作，但仍然缺乏標(biāo)準(zhǔn)化的設(shè)計原則。此外，由于形態(tài)變換高度依賴于材料和機構(gòu)領(lǐng)域，其實際實現(xiàn)仍然面臨巨大挑戰(zhàn)。

3.5 學(xué)習(xí)驅(qū)動的形態(tài)優(yōu)化（L → M）

本子節(jié)對應(yīng)于圖1中從學(xué)習(xí)到形態(tài)的連線4?，聚焦于利用學(xué)習(xí)技術(shù)實現(xiàn)形態(tài)優(yōu)化。在生物學(xué)中，形態(tài)優(yōu)化現(xiàn)象很常見。生物體的形態(tài)在進化過程中被優(yōu)化以適應(yīng)環(huán)境。例如，四肢是從魚鰭進化而來的，在形態(tài)進化趨于穩(wěn)定之后，學(xué)習(xí)到了更好的直立行走行為。此外，形態(tài)參數(shù)還可以通過后天運動進一步優(yōu)化。受此啟發(fā)，我們可以通過協(xié)同優(yōu)化來搜索更適用于控制策略學(xué)習(xí)的形態(tài)。對具身智能體的形態(tài)和控制策略進行聯(lián)合優(yōu)化，有助于更高效地完成任務(wù)。如圖9所示，智能體在學(xué)習(xí)跨越障礙物行走的同時，其腿部形態(tài)也得到了優(yōu)化。

參考文獻[135]指出，人類更擅長設(shè)計物理系統(tǒng)而非智能控制系統(tǒng)。基于學(xué)習(xí)的大腦-身體協(xié)同進化思想在具身智能領(lǐng)域早期就受到了廣泛關(guān)注[151]，有時也被稱為發(fā)育機器人和人工生命等。參考文獻[172]首次使用進化學(xué)習(xí)框架在仿真中實現(xiàn)了形態(tài)與控制器的協(xié)同優(yōu)化。一個3D剛體機器人被表示為有向圖基因型，并使用圖上的進化算法來優(yōu)化機器人的形態(tài)。這些工作受到了廣泛關(guān)注，因為它們有助于設(shè)計出更好適應(yīng)環(huán)境和任務(wù)的機器人形態(tài)[4, 19, 76, 107, 119, 124, 174]。參考文獻[5]指出，形態(tài)與控制的協(xié)同進化類似于大腦-身體的協(xié)同作用，但忽略了環(huán)境的影響。該研究驗證了環(huán)境復(fù)雜性對形態(tài)復(fù)雜性的影響。盡管自本世紀(jì)初以來，形態(tài)與控制的協(xié)同優(yōu)化已經(jīng)取得了一些進展，但優(yōu)化過程受限于軟件和硬件仿真條件，并未取得重大突破。在過去十年中，隨著制造技術(shù)、圖形仿真與渲染技術(shù)以及計算技術(shù)的快速發(fā)展，形態(tài)與控制協(xié)同優(yōu)化方法取得了巨大成就。

目前，該領(lǐng)域的工作主要包括形態(tài)參數(shù)和結(jié)構(gòu)的優(yōu)化，使用的方法主要包括強化學(xué)習(xí)[63, 65]和遺傳優(yōu)化[71]。近年來，也有僅使用強化學(xué)習(xí)同時優(yōu)化結(jié)構(gòu)和參數(shù)的工作。該領(lǐng)域需要解決的問題不僅包括形態(tài)的高效表示，還包括算法的高效優(yōu)化。

3.5.1 進化強化學(xué)習(xí)方法。早期的形態(tài)與控制協(xié)同優(yōu)化問題主要基于進化搜索方法，其中進化搜索空間很大（包括形態(tài)參數(shù)和控制器參數(shù)的搜索）。近年來，該領(lǐng)域的工作主要集中在針對特定任務(wù)需求的不同編碼方法的研究上[34, 97, 142]。盡管形態(tài)和控制應(yīng)該聯(lián)合優(yōu)化，但它們實際上是在不同的尺度上優(yōu)化的。以生物為例，形態(tài)的變化更像是一個進化過程，而控制器的設(shè)計在給定特定形態(tài)后更像是一個后天學(xué)習(xí)過程。因此，一個很自然的想法是使用進化優(yōu)化方法來優(yōu)化形態(tài)結(jié)構(gòu)和參數(shù)，并使用強化學(xué)習(xí)方法來實現(xiàn)控制器參數(shù)的優(yōu)化。基于參考文獻[192]提出的圖神經(jīng)網(wǎng)絡(luò)控制器，參考文獻[193]將機器人形態(tài)設(shè)計描述為一個圖搜索問題。它引入了物種的概念，并設(shè)計了添加和刪除節(jié)點的突變操作，從而在圖結(jié)構(gòu)上實現(xiàn)進化搜索。為了使用圖神經(jīng)網(wǎng)絡(luò)作為控制器，參數(shù)可以在控制器之間共享，從而大大減少了控制器的學(xué)習(xí)時間。參考文獻[63]開發(fā)了一個進化環(huán)境和一個稱為“深度進化強化學(xué)習(xí)”的計算框架，用于探索具身智能與環(huán)境之間的關(guān)系。該論文還通過形態(tài)進化學(xué)習(xí)機制驗證了進化生物學(xué)中的“鮑德溫效應(yīng)”，即生物體習(xí)得的行為會影響物種的進化。這種方法相當(dāng)高效，因為進化算法本質(zhì)上等價于零階優(yōu)化。

3.5.2 直接強化學(xué)習(xí)方法。隨著強化學(xué)習(xí)的快速發(fā)展，一些工作嘗試直接使用強化學(xué)習(xí)來協(xié)同優(yōu)化形態(tài)和控制[65]。參考文獻[165]使用PPO聯(lián)合計算形態(tài)參數(shù)和控制參數(shù)（圖10）。這對于學(xué)習(xí)來說是困難的，因為形態(tài)搜索空間很大，并且形態(tài)與控制相互耦合。為此，作者通過僅優(yōu)化指定機器人組件的參數(shù)（而非機器人的結(jié)構(gòu)）來限制形態(tài)搜索空間。在此基礎(chǔ)上，參考文獻[164]使用強化學(xué)習(xí)實現(xiàn)了腿式軟體機器人的形態(tài)搜索和控制策略學(xué)習(xí)，并進一步實現(xiàn)了從仿真到真實的遷移。針對自組裝智能體，參考文獻[146]將形態(tài)和控制統(tǒng)一在行動空間中。形態(tài)搜索和控制設(shè)計被描述為一個強化學(xué)習(xí)問題，并設(shè)計了相應(yīng)的動態(tài)圖網(wǎng)絡(luò)控制器，使其形態(tài)與機器人形態(tài)對齊。參考文獻[65]使用強化學(xué)習(xí)聯(lián)合學(xué)習(xí)形態(tài)和控制策略以跨越障礙物行走。參考文獻[214]在學(xué)習(xí)過程中將形態(tài)變換和控制優(yōu)化分為兩個階段，并使用策略梯度方法聯(lián)合優(yōu)化形態(tài)和控制行動。最近，參考文獻[117, 118]將圖神經(jīng)網(wǎng)絡(luò)引入形態(tài)與控制協(xié)同優(yōu)化的強化學(xué)習(xí)框架中，為形態(tài)學(xué)習(xí)中的仿真到真實遷移提供了一條可行途徑。

3.5.3 物理實現(xiàn)。盡管形態(tài)與控制協(xié)同優(yōu)化的學(xué)習(xí)過程通常在仿真環(huán)境中進行，但人們一直試圖在物理世界中實現(xiàn)學(xué)習(xí)到的形態(tài)。早在2000年，參考文獻[107]就使用3D打印技術(shù)實現(xiàn)了進化得到的形態(tài)。然而，人們也發(fā)現(xiàn)仿真環(huán)境與物理環(huán)境之間存在巨大差異。在仿真中表現(xiàn)良好的形態(tài)，在物理制造出來后無法達到預(yù)期的性能[75]。為了解決這個問題，參考文獻[18]提出了一種連續(xù)形態(tài)建模方法。參考文獻[96]研究了如何將仿真到真實的遷移效果也納入優(yōu)化過程中。參考文獻[156]進一步針對撲翼研究了這種仿真與真實的差異與形態(tài)復(fù)雜度之間的關(guān)系，結(jié)果表明仿真到真實的差距實際上是非單調(diào)的。對于不同類型的機器人，一些工作首先在仿真中進行形態(tài)進化，然后利用遷移技術(shù)在物理機器人上實現(xiàn)它們。例如，關(guān)于腿式機器人[141, 160]、軟體機器人[98]和模塊化機器人[6]的工作主要遵循仿真到真實的遷移途徑。隨著機器人組件種類日益豐富和成本降低，直接在物理系統(tǒng)中優(yōu)化智能體形態(tài)成為可能。參考文獻[20]使用機械臂操作不同的立方體模塊，通過對模塊進行編碼并對組裝后形態(tài)的性能進行物理評估，實現(xiàn)了進化優(yōu)化（圖11）。最近，參考文獻[139]設(shè)計了一種四足機器人，其股骨和脛骨上安裝了線性執(zhí)行器，允許改變腿長。基于這些優(yōu)化，獲得了一種直接進行物理形態(tài)進化的學(xué)習(xí)方法，并在不同地形上進行了實驗。總體而言，直接應(yīng)用于物理系統(tǒng)的形態(tài)優(yōu)化研究仍處于起步階段，可優(yōu)化的參數(shù)非常有限。到目前為止，形態(tài)優(yōu)化已相對成功地應(yīng)用于軟體機器人和機器人手的結(jié)構(gòu)設(shè)計中。

過去幾年，機器人形態(tài)進化的進展相對緩慢。一個重要的原因是人們只關(guān)注了剛性元件的有限組合。針對這個問題，參考文獻[71]利用遺傳算法實現(xiàn)了包含多種材料屬性的體素化軟體機器人的形態(tài)優(yōu)化。參考文獻[34]研究了不同材料的體素模型形態(tài)，這些材料大致模擬了骨骼、組織、肌肉等。參考文獻[33]進一步將控制系統(tǒng)嵌入到機器人形態(tài)的物理仿真中，提出了所謂的“進化電生理軟體機器人”。最近，參考文獻[97]使用直接編碼方法實現(xiàn)了3D體素軟體機器人的形態(tài)進化，并將其應(yīng)用于生物體實現(xiàn)（圖12）。由于3D體素軟體機器人的形態(tài)優(yōu)化、控制和制造都非常困難，一些工作開始轉(zhuǎn)向2D體素軟體機器人的進化學(xué)習(xí)[126]。參考文獻[88]研究了軟體機器人中的“變態(tài)”現(xiàn)象。這些工作大多主要考慮形態(tài)進化本身，較少考慮環(huán)境交互過程中的控制優(yōu)化。為此，參考文獻[11]提出將進化優(yōu)化與強化學(xué)習(xí)技術(shù)相結(jié)合，實現(xiàn)軟體機器人形態(tài)與控制的協(xié)同設(shè)計。針對基于2D體素的軟體機器人，開發(fā)了一個Evolution Gym環(huán)境（圖13）。Evolution Gym中的機器人由許多“細(xì)胞”作為基本單元組成，包括軟細(xì)胞、剛性細(xì)胞和能夠主動收縮或擴張的執(zhí)行器細(xì)胞。這使得機器人可以在形狀上自由進化，最終完成在不同地形上移動和操縱物體等一系列任務(wù)。

另一個典型的形態(tài)與控制協(xié)同優(yōu)化應(yīng)用是機器人手形態(tài)優(yōu)化。優(yōu)化后的形態(tài)應(yīng)該能夠適應(yīng)需要操縱和抓取的物體。參考文獻[1]應(yīng)用進化策略來優(yōu)化機器人夾持器的形態(tài)，并引入圖元網(wǎng)絡(luò)來提高搜索效率。此外，還實現(xiàn)了對定制化兩指夾持器形態(tài)的微調(diào)。針對強力抓取、捏取抓取和側(cè)向抓取，參考文獻[144]將手的形態(tài)和控制參數(shù)投影到共同的潛在空間中，并提出了一種貝葉斯優(yōu)化算法來搜索最佳的手部形態(tài)（圖14）。最近，參考文獻[206]從計算機圖形學(xué)的角度，基于籠狀變形模型設(shè)計了一種通用的形態(tài)表示方法。這種方法的優(yōu)點在于可以用更少的參數(shù)描述豐富的形態(tài)。通過將該模型與可微分模擬器相結(jié)合，形成了一種端到端的學(xué)習(xí)方法。

3.5.4 小結(jié)。當(dāng)前大多數(shù)研究工作都在仿真環(huán)境中得到驗證。如何將仿真器中的形態(tài)進化結(jié)果遷移到物理系統(tǒng)，或者直接在物理系統(tǒng)中進行進化，是一個值得進一步探討的前沿研究方向。此外，值得注意的是，在機械領(lǐng)域已經(jīng)有許多成熟的形態(tài)設(shè)計方法。如何將這些經(jīng)驗性信息，以及相關(guān)的物理約束和外部知識，與數(shù)據(jù)驅(qū)動的學(xué)習(xí)方法相結(jié)合，以協(xié)同優(yōu)化形態(tài)和控制，將是提高學(xué)習(xí)效率的有效工具。

3.6 感知驅(qū)動的行動生成（P → A）

本子節(jié)對應(yīng)于圖1中從感知到行動的連線5?。環(huán)境感知信息被用來引導(dǎo)智能體生成行動，以實時與環(huán)境交互。這種范式在眾多機器人任務(wù)中最為常見。例如，在自動駕駛領(lǐng)域，視覺感知及其他感知方式被用于自主導(dǎo)航。許多機器人操作任務(wù)也借助視覺感知來生成抓取合成。當(dāng)前大多數(shù)機器感知研究也屬于這一類別。

3.6.1 傳統(tǒng)視覺操作與導(dǎo)航。在過去的幾十年中，傳感器和感知算法發(fā)展迅速。許多最新的硬件和算法已被集成到機器人平臺中。典型的常用傳感器包括Kinect、RealSense和事件相機等。此外，用于目標(biāo)檢測、識別、分割和跟蹤等傳統(tǒng)任務(wù)的計算機視覺算法[211, 226]在深度學(xué)習(xí)時代得到了進一步發(fā)展。在此背景下，感知-行動任務(wù)得到了極大發(fā)展，其中機器人操作和視覺導(dǎo)航是兩個代表性任務(wù)。

對于機器人操作任務(wù)，早期工作主要屬于分析方法[13]的范疇，即使用接觸模型來計算合適的接觸力和扭矩。然而，分析方法需要對象的完整知識，而這在僅有部分且?guī)в性肼暤母兄畔⒌那闆r下很難獲得。隨著深度學(xué)習(xí)技術(shù)在計算機視覺領(lǐng)域的巨大成功，越來越多的數(shù)據(jù)驅(qū)動方法被提出用于機器人操作[136]。此外，端到端方法（即單個網(wǎng)絡(luò)直接從視覺輸入回歸出行動）變得越來越普遍。在視覺導(dǎo)航任務(wù)中，智能體需要規(guī)劃一條合理的路徑到達目的地。借助視覺同時定位與建圖（SLAM），智能體能夠很好地感知和理解其周圍環(huán)境[22]。近年來，更先進的SLAM算法，如度量-語義SLAM [166]和動態(tài)SLAM [195]，已被提出用于處理動態(tài)環(huán)境。傳統(tǒng)的機器人視覺導(dǎo)航通常遵循全局路徑規(guī)劃結(jié)合局部運動控制的多階段范式，這需要大量的先驗知識和工程設(shè)計工作。與機器人操作類似，越來越多的端到端學(xué)習(xí)方法被提出，直接將視覺輸入映射為運動指令[205]。毫無疑問，感知驅(qū)動的行動生成在機器人領(lǐng)域中極為常見。我們僅關(guān)注兩個重要的新興方向——多模態(tài)融合和語言引導(dǎo)——這兩個方向也可以結(jié)合成一個統(tǒng)一的、以語言為條件的多模態(tài)感知驅(qū)動行動生成框架（圖15）[204]。

3.6.2 多模態(tài)感知驅(qū)動的導(dǎo)航與操作。多模態(tài)感知被廣泛用于導(dǎo)航。一般來說，視覺和深度信息對于移動機器人是必需的。Kinect、RealSense、超聲波和激光雷達常用于室內(nèi)和室外場景[50]。一系列多模態(tài)數(shù)據(jù)集已為研究和工業(yè)目的而開發(fā)[56, 217]。最近，其他感知模態(tài)，如4D毫米波雷達，在一些極端天氣條件下展現(xiàn)了潛在應(yīng)用價值[191]。此外，多模態(tài)感知對于某些單感知模態(tài)難以解決的任務(wù)也至關(guān)重要。例如，視覺、觸覺和聽覺模態(tài)常常被融合在一起以識別物體的不同屬性。參考文獻[14]回顧了在機器人操作中集成多模態(tài)感知所取得的進展。參考文獻[111]系統(tǒng)地解決了視覺-聽覺-觸覺模態(tài)融合用于材料識別時的弱配對問題。近年來，多模態(tài)感知已被用于更廣泛和復(fù)雜的任務(wù)，如精確抓取[194]和手中操作[176]。

3.6.3 語言條件下的導(dǎo)航與操作。另一個重要方向是將語言與感知相結(jié)合，從而提供與人類的自然交互界面。一個代表性任務(wù)是視覺語言導(dǎo)航（VLN），其中智能體通過將語言與其視覺感知以及生成的導(dǎo)航行動對齊來執(zhí)行導(dǎo)航指令[53]。智能體需要同時理解導(dǎo)航指令和視覺感知信息，然后生成相應(yīng)的導(dǎo)航行動。參考文獻[3]提出了VLN問題的基本框架，并在MatterPort3D環(huán)境中建立了一個基準(zhǔn)。當(dāng)前對VLN任務(wù)的研究涉及計算機視覺、自然語言處理和跨模態(tài)處理中的許多最新方法，以幫助智能體更好地解決任務(wù)。隨著VLN的成功，許多工作將此思想擴展到操作場景，形成了所謂的視覺-語言-操作（VLM）任務(wù)[220]。從本質(zhì)上講，VLM表現(xiàn)出與VLN相似的特征，但可能面臨更多挑戰(zhàn)，因為操作通常需要更細(xì)粒度的行動空間和更復(fù)雜的規(guī)劃。

3.6.4 小結(jié)。感知驅(qū)動的行動生成任務(wù)在機器人技術(shù)中非常常見。隨著深度學(xué)習(xí)和計算技術(shù)的快速發(fā)展，將感知信息直接投影到行動空間的端到端模型已成為解決這類問題的主流方法。此外，多模態(tài)感知和語言條件下的行動任務(wù)在實際場景中變得越來越流行。然而，將自然語言、多模態(tài)感知和復(fù)雜行動三者對齊仍然存在巨大挑戰(zhàn)。

3.7 行動驅(qū)動的感知改進（A → P）

本子節(jié)對應(yīng)于圖1中從行動到感知的連線6?，強調(diào)感知可以通過有目標(biāo)的探索得到改進。該領(lǐng)域的研究工作早在20世紀(jì)80年代就引起了關(guān)注，當(dāng)時主動感知首次被系統(tǒng)性地討論[7]。在主動感知中，智能體在智能控制下采取運動，以改進其對環(huán)境的感知方式。理論上已經(jīng)證明，在引入運動之后，傳統(tǒng)計算機視覺領(lǐng)域的許多不適定或非線性問題變成了適定和線性問題[2]。從那以后，主動感知被廣泛應(yīng)用于機器人技術(shù)，并成為具身智能的重要組成部分[186]。

早期，信息論方法是主動感知的典型方法。例如，參考文獻[45]將許多視覺問題歸結(jié)為狀態(tài)估計問題，并使用信息論方法來研究狀態(tài)估計中的最優(yōu)傳感器選擇，這為主動感知的貝葉斯方法奠定了基礎(chǔ)[147]。這些方法大多使用條件熵或互信息來衡量不確定性，但通常泛化能力較差。近年來，強化學(xué)習(xí)逐漸成為實現(xiàn)主動感知的重要方法[143]。下面，我們總結(jié)幾種典型的主動感知任務(wù)，并指出將語義和語言融入主動感知任務(wù)的最新趨勢。

3.7.1 主動視覺感知。任何典型的計算機視覺任務(wù)（檢測、識別等）都可以通過引入行動轉(zhuǎn)化為相應(yīng)的“主動”版本。在此我們列舉一些典型的主動視覺感知任務(wù)。其一是主動目標(biāo)檢測[67]，即待檢測的目標(biāo)不在初始視野內(nèi)，智能體需要探索環(huán)境以發(fā)現(xiàn)目標(biāo)，或者通過某種智能控制策略調(diào)整相機位姿，以更好地檢測被遮擋或尺度較小的目標(biāo)。主動目標(biāo)識別任務(wù)[84]旨在當(dāng)當(dāng)前視野中提取的特征不足以區(qū)分目標(biāo)時，通過調(diào)整相機位姿來獲得新的視野。例如，要識別一個人，從正面識別比從后腦勺識別要容易得多。還有一種主動目標(biāo)跟蹤任務(wù)[222]。傳統(tǒng)的視覺目標(biāo)跟蹤任務(wù)需要準(zhǔn)確檢測視頻流中的目標(biāo)并進行時序關(guān)聯(lián)。當(dāng)目標(biāo)移出視野時，跟蹤算法就無法再正常工作。為此，主動目標(biāo)跟蹤可以實時調(diào)整相機位姿，使運動目標(biāo)始終保持在視野內(nèi)。

3.7.2 視覺語義導(dǎo)航。近年來，一個重要的趨勢是研究語言條件下的主動感知。這方面最典型的任務(wù)是視覺語義導(dǎo)航（VSN）（圖17）。與使用較長語言導(dǎo)航指令的VLN不同，VSN僅要求用戶提供一個語義目標(biāo)物體，然后智能體便可在環(huán)境中自主搜索該目標(biāo)。此類語義目標(biāo)可以通過語義標(biāo)簽[210]或物體圖像[225]給出。VSN任務(wù)實際上是主動目標(biāo)檢測和識別任務(wù)的擴展。由于VSN任務(wù)中待檢測的目標(biāo)是用語義信息描述的，這為與人的交互提供了可能。

目前，VSN模型大多在仿真環(huán)境中訓(xùn)練，這導(dǎo)致了仿真環(huán)境與真實環(huán)境之間的差距。參考文獻[114]討論了具身不匹配問題，即實際行動空間與仿真環(huán)境中的行動空間不匹配。參考文獻[216]利用機器人自身的能力，結(jié)合3D感知信息來提高其物體發(fā)現(xiàn)能力。參考文獻[57]構(gòu)建了一個實際的物理場景，以全面評估不同方法在仿真環(huán)境和物理環(huán)境中的性能差異。此外，該研究還指出模塊化設(shè)計方法顯著優(yōu)于端到端學(xué)習(xí)方法。

然而，由于場景的先驗信息通常能為物體發(fā)現(xiàn)帶來很大便利，一些方法利用場景先驗來實現(xiàn)高效的物體發(fā)現(xiàn)[210]。但這些工作忽略了一個重要問題：隨著時間的推移，場景本身可能會發(fā)生各種意想不到的變化。忽視場景的動態(tài)性會嚴(yán)重降低物體發(fā)現(xiàn)能力的性能，也給長期部署帶來困難。參考文獻[224]建立了一種動態(tài)時空場景圖來解決這個問題，該場景圖利用智能體在日常探索過程中收集的信息進行實時更新，從而動態(tài)適應(yīng)環(huán)境的變化。參考文獻[100]將動態(tài)場景圖更新形式化為鏈接預(yù)測問題，并設(shè)計了一個動態(tài)模擬器來生成動態(tài)場景。參考文獻[106]提出通過監(jiān)測對話來動態(tài)獲取和實時預(yù)測人員的位置。總的來說，動態(tài)場景的處理仍處于相當(dāng)初步的階段。當(dāng)前，主動感知任務(wù)正在快速發(fā)展。許多新任務(wù)，如重排[197]、視聽導(dǎo)航[30, 113]和整理[162]等已被提出。視覺、聽覺、觸覺等多種感知模態(tài)也被應(yīng)用于主動感知任務(wù)中[17, 112]。

3.7.3 具身問答。具身問答（EQA）任務(wù)[40, 60]是主動感知領(lǐng)域中的一個更高級的課題。在EQA任務(wù)中，智能體從3D環(huán)境中的隨機位置出發(fā)，主動探索環(huán)境以回答給定的自然語言問題（圖18）。然而，當(dāng)前EQA任務(wù)的發(fā)展在語言理解、任務(wù)規(guī)劃、視覺感知和行動執(zhí)行等方面仍面臨許多困難。

3.7.4 小結(jié)。主動感知是一類典型的具身智能任務(wù)，在該任務(wù)中，智能體在采取行動的同時改進了感知。它呈現(xiàn)出一種“以時間換空間”的特征（圖16），這實際上是一把雙刃劍。因此，由于其復(fù)雜性和部署難度，其應(yīng)用仍然相當(dāng)有限。近年來，語義和語言越來越多地被融入主動感知中，這可能為主動感知的廣泛應(yīng)用提供更多機會。然而，針對動態(tài)場景的主動感知仍然極具挑戰(zhàn)性。

3.8 行動驅(qū)動的具身學(xué)習(xí)（A → L）

本子節(jié)對應(yīng)于圖1中從行動到學(xué)習(xí)的連線7?。學(xué)習(xí)是具身智能的基本組成部分，只有當(dāng)智能體具備自主更新自身知識和技能的能力時，它才能適應(yīng)不斷變化的開放環(huán)境。當(dāng)前，利用豐富的互聯(lián)網(wǎng)數(shù)據(jù)構(gòu)建了各種大規(guī)模數(shù)據(jù)集，預(yù)訓(xùn)練的感知模型取得了前所未有的成功。然而，在這種學(xué)習(xí)范式下，數(shù)據(jù)采集和模型學(xué)習(xí)的過程是分離的。一個數(shù)據(jù)集是否真正適合某個學(xué)習(xí)任務(wù)仍然是一個懸而未決的問題。此外，在訓(xùn)練模型之前必須執(zhí)行數(shù)據(jù)清洗和數(shù)據(jù)標(biāo)注等操作，這遠(yuǎn)遠(yuǎn)不能滿足自主學(xué)習(xí)的要求。

利用具身智能體的行動來改進感知性能，實際上是人類學(xué)習(xí)的方式。例如，當(dāng)人類看到一個新物體時，我們會自然地操作該物體或從不同視角觀察它以主動探索它，然后我們會意識到，無論從哪個視角看這個物體，它都是同一個物體。我們在這個行動-學(xué)習(xí)循環(huán)中不斷學(xué)習(xí)。探索過程實際上是一個數(shù)據(jù)采集和標(biāo)注的過程。受此啟發(fā)，具身智能體被鼓勵去探索那些預(yù)訓(xùn)練感知模型可能表現(xiàn)不佳的區(qū)域。然后可以收集探索過程中觀察到的數(shù)據(jù)并進行標(biāo)注，以進一步改進感知模型。這種行動驅(qū)動的具身學(xué)習(xí)范式通常可以分為三個階段：探索策略學(xué)習(xí)、訓(xùn)練樣本收集和應(yīng)用部署。它將數(shù)據(jù)采集和模型學(xué)習(xí)無縫結(jié)合，并能在探索過程中持續(xù)提升智能體的能力。它已成為具身智能中一個非常有前景的方向。其主要成果可以分為面向感知的學(xué)習(xí)和面向表示的學(xué)習(xí)，具體如下。

3.8.1 通過學(xué)習(xí)改進感知。參考文獻[28]引入了一種語義好奇心獎勵，利用當(dāng)前幀與前一幀語義地圖的一致性來引導(dǎo)智能體探索環(huán)境，并收集有助于提高模型性能的數(shù)據(jù)（圖19）。參考文獻[26]構(gòu)建了3D全局場景語義地圖，該地圖可以反投影到2D空間以生成偽標(biāo)簽，從而實現(xiàn)自監(jiān)督學(xué)習(xí)。同時，使用3D語義體素的數(shù)量作為獎勵，以鼓勵智能體探索具有更多語義信息的位置。參考文獻[190]分析了熟悉樣本和不熟悉樣本在具身學(xué)習(xí)過程中的不同作用，并設(shè)計了一種新的自監(jiān)督學(xué)習(xí)方法。上述所有工作均在仿真環(huán)境中實現(xiàn)。進一步地，參考文獻[87]基于語義分布的不確定性學(xué)習(xí)探索軌跡，并嘗試進行物理實現(xiàn)。參考文獻[219]提出了真實場景中的3D具身數(shù)據(jù)集，包括視覺數(shù)據(jù)和密集點云數(shù)據(jù)。它利用不同視角下3D感知結(jié)果的一致性來收集數(shù)據(jù)。

當(dāng)前這些工作大多面向一些通用的感知模型，如目標(biāo)檢測和目標(biāo)分割。具身學(xué)習(xí)也可以與某些特定任務(wù)相結(jié)合，以實現(xiàn)一些有目標(biāo)的特定任務(wù)。例如，參考文獻[104]提出了一種智能體自動學(xué)習(xí)構(gòu)建場景圖的通用方法。參考文獻[123]提出了具身NeRF，旨在自動收集高質(zhì)量圖像以構(gòu)建3D場景。

除了直接改進感知模型的性能之外，另一類研究通過自主行為學(xué)習(xí)直接進行特征表示學(xué)習(xí)[198]。參考文獻[21]從一系列游戲中探索了好奇心驅(qū)動的表示學(xué)習(xí)。參考文獻[154]利用機械臂通過簡單的觸覺傳感器與物體進行物理交互，以幫助學(xué)習(xí)視覺特征，并取得了有希望的結(jié)果。參考文獻[207]進一步提出了DensePhysNet，通過主動執(zhí)行一系列動態(tài)交互來學(xué)習(xí)物體的若干物理屬性。

3.8.2 小結(jié)。可以看出，行動驅(qū)動的具身學(xué)習(xí)能夠提供一種學(xué)習(xí)機制，該機制可進一步用于某些下游任務(wù)，如感知或理解。其核心是利用具身智能體的行動進行學(xué)習(xí)，從而彌合數(shù)據(jù)采集與模型訓(xùn)練之間的鴻溝。通過這種方式，智能體的具身特性得到了充分利用。

4 討論

4.1 具身人工智能的優(yōu)、劣與難

在深度學(xué)習(xí)技術(shù)驅(qū)動的離身智能研究中，我們觀察到其在感知和學(xué)習(xí)任務(wù)中表現(xiàn)出的優(yōu)越性能，但由于其黑箱特性和可解釋性差，存在安全性問題。此外，其訓(xùn)練過程中的收斂分析仍然是一個難點。在本節(jié)中，我們對具身智能的優(yōu)勢（Good）、劣勢（Bad）和難點（Ugly）進行全面分析和評估。

4.1.1 優(yōu)。具身智能最重要的特點是引入了“身體與環(huán)境的交互”，從而引入了行動維度。如果能夠巧妙地利用身體，許多困難的任務(wù)會變得更容易。例如，從背面觀察一個人時很難識別出該人。為了解決這個問題，離身智能的典型方法是利用先驗知識或數(shù)據(jù)驅(qū)動的方法提取更好的特征，而具身智能的典型方法是移動到一個更好的視角，從而使識別任務(wù)變得更容易。此外，適當(dāng)利用身體形態(tài)信息也可以顯著簡化控制器的設(shè)計。例如，合理設(shè)計飛機的氣動構(gòu)型可以利用環(huán)境實現(xiàn)更靈活的運動，而單純依賴控制算法的設(shè)計則非常困難。

4.1.2 劣。傳統(tǒng)的具身智能過分強調(diào)身體和環(huán)境的作用，而忽視了知識和數(shù)據(jù)的作用。這樣一來，大腦和身體的發(fā)展是不平衡的。此外，由于與環(huán)境的物理交互，具身智能的安全性也是一個非常具有挑戰(zhàn)性的問題。例如，在物體識別任務(wù)中，如果模型達到了95%的識別準(zhǔn)確率，它可以被部署到一些實際應(yīng)用中；而在具身智能系統(tǒng)中，即使是1%的失敗率（例如在手術(shù)中）也可能帶來致命的后果。

4.1.3 難。具身智能強調(diào)智能產(chǎn)生于環(huán)境、身體和大腦的緊密耦合。這一過程需要整合形態(tài)、行動、感知、學(xué)習(xí)，甚至語言理解。由于形態(tài)、感知、行動、學(xué)習(xí)和語言屬于不同的領(lǐng)域，且具有顯著不同的特性，實現(xiàn)它們之間的對齊非常具有挑戰(zhàn)性。然而，具身智能的應(yīng)用需要環(huán)境感知、語言理解、行為控制等各個組件的完美實現(xiàn)。因此，很難以一種優(yōu)雅的端到端方式來實現(xiàn)它。

4.2 具身智能與機器人學(xué)

具身智能與機器人學(xué)密切相關(guān)，兩者在許多情況下被相互混淆。具身智能的核心在于智能產(chǎn)生于身體與環(huán)境的交互。這里的“身體”不僅限于機器人。實際上，任何物理實體（例如，詹姆斯·瓦特發(fā)明的著名的離心調(diào)速器）或非物理實體（例如，數(shù)字人和仿真智能體）都是適用的。因此，具身智能更側(cè)重于通用理論、方法和技術(shù)的研究，而機器人可以被視為具身智能的一種體現(xiàn)形式。對于機器人本身而言，其智能行為可能來源于具身智能，也可能不是。

然而，我們可以將“具身智能”這個詞解讀為用“具身的”來修飾“智能”。其中的“智能”通常可以指視覺檢測、語言問答等智能任務(wù)，這些屬于離身智能的范疇。但通過在前面加上“具身的”，我們得到了諸如具身視覺檢測和具身問答等新任務(wù)。從這個意義上說，具身智能可以理解為離身智能的擴展，旨在向機器人領(lǐng)域邁進。另一方面，在機器人學(xué)領(lǐng)域，由于機器人通常具有物理身體，早期人們很少用“具身的”來修飾相關(guān)研究工作。當(dāng)前，機器人學(xué)與具身智能領(lǐng)域確實已經(jīng)深度融合。

5 具身智能前沿

5.1 來自離身機器學(xué)習(xí)的啟示

傳統(tǒng)機器學(xué)習(xí)領(lǐng)域所倡導(dǎo)的有監(jiān)督學(xué)習(xí)方法要求訓(xùn)練集和測試集明確分離，并且需要提供準(zhǔn)確的標(biāo)簽。這顯然會阻礙智能體對動態(tài)和開放環(huán)境的適應(yīng)。幸運的是，機器學(xué)習(xí)領(lǐng)域也意識到了這個問題，并做出了巨大努力來解決它。自監(jiān)督學(xué)習(xí)提供了一種新的學(xué)習(xí)范式來減輕標(biāo)注壓力。通過各種手段為無標(biāo)簽樣本構(gòu)建偽標(biāo)簽，可以在特征學(xué)習(xí)階段取得良好效果[86]。此外，終身學(xué)習(xí)雖然起源于機器人學(xué)領(lǐng)域[183]，但近年來在機器學(xué)習(xí)領(lǐng)域也受到了廣泛關(guān)注，并在識別和檢測等任務(wù)中提出了各種克服災(zāi)難性遺忘的方法[175]。它也已擴展到強化學(xué)習(xí)領(lǐng)域，為具身智能體在真實環(huán)境中的性能提升帶來了巨大機遇。受這些離身機器學(xué)習(xí)成果的啟發(fā)，我們認(rèn)為自監(jiān)督學(xué)習(xí)和終身學(xué)習(xí)的無縫結(jié)合也為具身智能提供了一條有前景的路徑。

5.2 形態(tài)的作用

當(dāng)前在仿真環(huán)境中研究的許多具身導(dǎo)航任務(wù)通常只使用簡單的行動空間，并未考慮智能體的形態(tài)特征[99]。此外，這些任務(wù)對環(huán)境有較高的約束，通常需要可通行的拓?fù)涞貓D，并且不考慮避障等問題。如前所述，在具身智能中，形態(tài)是產(chǎn)生智能的重要工具，也是體現(xiàn)智能的重要途徑。它被視為具身智能的核心。然而，形態(tài)計算、形態(tài)控制和形態(tài)優(yōu)化等方向尚未成為支撐具身智能發(fā)展的重要研究方向。一個重要原因是形態(tài)的成功強烈依賴于材料，而材料在選擇、驅(qū)動和設(shè)計方面仍然存在巨大挑戰(zhàn)[39]。近年來，軟材料在具身智能中得到了廣泛應(yīng)用，因為軟體機器人中材料的固有特性能夠以剛性機器人無法實現(xiàn)的方式降低機械和算法復(fù)雜度。這為未來的工作提供了廣闊的研究空間。

5.3 仿真到真實

隨著計算機圖形學(xué)的快速發(fā)展，視覺仿真技術(shù)可以為具身智能研究提供逼真的平臺，并為建立標(biāo)準(zhǔn)化基準(zhǔn)奠定良好基礎(chǔ)[15]。目前，有許多仿真平臺直接應(yīng)用于具身智能任務(wù)，如AI2THOR [43]、Matterport3D [25]、Habitat [163]和iGibson [168]。然而，盡管當(dāng)前仿真環(huán)境中的視覺效果越來越逼真，但仿真環(huán)境不可能覆蓋真實世界的所有方面。此外，當(dāng)前仿真環(huán)境中的感知信息大多局限于視覺模態(tài)。在模擬聽覺、觸覺等其他感知模態(tài)方面仍然存在巨大困難。當(dāng)我們將仿真中學(xué)習(xí)到的控制策略遷移到真實世界時，由于難以對具身智能體的動力學(xué)進行建模，我們將面臨巨大的行為差距。因此，在仿真環(huán)境中訓(xùn)練的具身智能體在直接遷移到物理世界時仍然面臨嚴(yán)重的遷移問題，這被稱為Sim2Real問題。目前，主要有兩種方法來解決這個問題。一種方法是使用各種手段豐富仿真環(huán)境，例如域隨機化[129]；另一種方法是盡可能縮小仿真環(huán)境與物理環(huán)境之間的感知和行動空間差距。例如，參考文獻[27, 115]提出了語義感知方法。參考文獻[121]提出了一種環(huán)境增強方法以增加訓(xùn)練仿真環(huán)境的多樣性。參考文獻[114]考慮了行動空間的具身不匹配問題。參考文獻[115]建立了一種Sim2Real方法，利用語義和高級規(guī)劃來對齊仿真世界和物理世界。參考文獻[221]為可泛化的主動目標(biāo)跟蹤構(gòu)建了一種結(jié)構(gòu)感知的表示。參考文獻[227]同時包含虛擬子集和真實子集用于訓(xùn)練。

5.4 多模態(tài)具身智能與語言 grounding

“多模態(tài)”在當(dāng)前具身智能研究中被頻繁提及[102]。最近發(fā)布的VIMA被稱為多模態(tài)人工智能系統(tǒng)[85]。但這里的“多模態(tài)”通常指視覺、語言、聲音等，更側(cè)重于解決視覺環(huán)境感知與人類指令和意圖之間的關(guān)系。從本質(zhì)上講，多模態(tài)融合仍然局限于離身智能領(lǐng)域。具身智能強調(diào)身體與環(huán)境的交互。這種交互包括多種不同的模態(tài)，如視覺、聽覺和觸覺。如何有效融合這些異質(zhì)的多模態(tài)信息以實現(xiàn)多模態(tài)具身感知，是一個需要關(guān)注的重要問題[194]。目前，視覺和聽覺是研究相對較多的領(lǐng)域[29, 55, 189]，相應(yīng)的傳感器也在快速發(fā)展。觸覺感知的研究相對滯后，這嚴(yán)重制約了具身智能的發(fā)展，但它對于身體與環(huán)境之間的物理交互至關(guān)重要[110]。它可以用來確保操作的安全性、穩(wěn)定性和靈活性，并且能夠獲取其他感知模態(tài)難以捕捉的獨特信息。

語言grounding領(lǐng)域也是具身人工智能和機器人學(xué)的一個關(guān)鍵領(lǐng)域[61]。Grounding指的是智能體將其內(nèi)部的語言表示和符號與外部世界中的指稱對象以及內(nèi)部狀態(tài)進行內(nèi)在連接的能力。因此，具身機器人必須學(xué)會將“紅色”和“球”等詞與外部玩具（球）及其感知屬性（如紅色）聯(lián)系起來。但grounding并不一定需要將內(nèi)部符號與外部對象直接連接。事實上，即使是抽象詞匯也可以間接地與感官運動經(jīng)驗和內(nèi)在感受相連接[24]。

5.5 用于具身人工智能的大語言模型

近年來，大語言模型受到了廣泛關(guān)注。特別是GPT等大語言模型的出現(xiàn)，為機器人應(yīng)用帶來了許多新的范式。參考文獻[85]開發(fā)了一種用于操作任務(wù)的多模態(tài)提示。參考文獻[105]研究了預(yù)訓(xùn)練的視覺語言模型如何有益于語言條件下的機器人操作。參考文獻[215]和[44]嘗試使用大語言模型來解決多機器人協(xié)作問題中的任務(wù)分配，并展示了有希望的結(jié)果。參考文獻[91]展示了人工智能生成內(nèi)容在機器人操作中的一些有趣應(yīng)用。最近，參考文獻[36]通過21個機構(gòu)的合作，匯集了來自22個不同機器人的數(shù)據(jù)集，展示了527種技能。所有這些嘗試都顯示了大語言模型在機器人應(yīng)用中的強大能力。然而，我們也必須看到，盡管這些技術(shù)的引入可能為具身智能的應(yīng)用帶來新的思路和機遇，但具身智能的許多關(guān)鍵挑戰(zhàn)并未真正得到解決。特別是，大語言模型更擅長解決高級任務(wù)規(guī)劃和人與計算機的語言交互問題，而對于導(dǎo)航和操作任務(wù)中的低級控制，仍然沒有理想的解決方案[209]。事實上，大語言模型的出發(fā)點與最初的具身智能存在某種程度的矛盾。此外，我們更應(yīng)該關(guān)注如何利用大語言模型來研究具身智能，而不是天真地直接使用大語言模型來實現(xiàn)具身智能。

5.6 多智能體協(xié)作

多智能體協(xié)作是具身智能不可或缺的一部分。與一些在簡單離身環(huán)境中學(xué)習(xí)多智能體協(xié)作策略的工作[64, 80]不同，已經(jīng)涌現(xiàn)出大量在具身視覺環(huán)境中學(xué)習(xí)多智能體協(xié)作策略的研究，多智能體強化學(xué)習(xí)已成為學(xué)習(xí)多智能體協(xié)作策略的主流方法[32, 35]。在參考文獻[82, 83]中，兩個智能體學(xué)習(xí)在動作層面協(xié)作搬運家具。一些典型的具身任務(wù)，如具身問答和具身導(dǎo)航，也已擴展到多智能體設(shè)置[181, 188]。然而，大多數(shù)多智能體協(xié)作任務(wù)只考慮同質(zhì)智能體，但已有工作嘗試?yán)卯愘|(zhì)智能體的不同能力來處理更復(fù)雜的任務(wù)[128]。此外，多智能體協(xié)作也帶來了智能體之間通信機制的挑戰(zhàn)。參考文獻[145]分析了異質(zhì)智能體之間的不同通信機制。參考文獻[93]將通信信息納入多智能體強化學(xué)習(xí)中。值得注意的是，除了多智能體協(xié)作外，已有研究表明多智能體之間的競爭也能促進智能體的技能學(xué)習(xí)能力[77, 203, 223]。隨著任務(wù)日益復(fù)雜，多智能體協(xié)作顯然將變得越來越重要和必要[51]。

5.7 具身人工智能的安全性與脆弱性

以深度學(xué)習(xí)為代表的人工智能技術(shù)中的安全問題已引起越來越多的關(guān)注。一些像素級的攻擊會導(dǎo)致整個智能系統(tǒng)識別失敗甚至決策失敗。對于具身智能系統(tǒng)而言，由于涉及物理行動執(zhí)行和交互，其安全問題更應(yīng)該得到重視。一方面，我們看到許多現(xiàn)有的具身感知任務(wù)在面對未見過的場景或物體時性能顯著下降，并且在仿真環(huán)境中訓(xùn)練的策略遷移到物理環(huán)境也面臨巨大挑戰(zhàn)。另一方面，即使在一些成功的應(yīng)用場景中，具身探索的性能也可能受到某些攻擊的影響。例如，參考文獻[108]通過向環(huán)境添加紋理效果直接降低了具身問答的準(zhǔn)確性。參考文獻[218]研究了針對視覺語言導(dǎo)航任務(wù)的拜占庭魯棒聯(lián)邦具身智能體學(xué)習(xí)。針對視聽導(dǎo)航，聲源的攻擊也可能導(dǎo)致導(dǎo)航任務(wù)失敗[213]。在具身智能的背景下，出現(xiàn)多少種攻擊方式，就會出現(xiàn)多少種防御方式。這將是未來很長一段時間內(nèi)的重要課題。

6 結(jié)論

在本文中，我們回顧了具身智能，特別是具身人工智能的發(fā)展歷程。從形態(tài)、行動、感知和學(xué)習(xí)的視角，提出了一個統(tǒng)一的具身智能框架，該框架主要關(guān)注這些組成部分之間的連接，而非它們本身。根據(jù)所提出的框架，我們對現(xiàn)有研究進行了全面的總結(jié)和分類。此外，我們還指出了未來研究可以從這些內(nèi)在聯(lián)系中獲益的領(lǐng)域。由于具身智能是形態(tài)、行動、感知與學(xué)習(xí)的協(xié)同作用，學(xué)術(shù)界既面臨著巨大的機遇，也面臨著需要整合多個不同學(xué)科技術(shù)的挑戰(zhàn)。

原文：https://dl.acm.org/doi/pdf/10.1145/3717059

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.