網易首頁 > 網易號 > 正文申請入駐

人類抖M計劃：如何造出一個會反叛的機器人？

2024-07-12 11:09:18　來源: 淺黑科技官方

北京舉報

分享至

淺友們好~我是史中，我的日常生活是開撩五湖四海的科技大牛，我會嘗試用各種姿勢，把他們的無邊腦洞和溫情故事講給你聽。如果你想和我做朋友，不妨加微信（shizhongmax）。

人類抖M計劃：

如何造出一個會反叛的機器人？

文 | 史中

（一）為什么會反叛的機器人才像人？

在美劇《西部世界》中，描述了一個未來的“迪士尼樂園”。

在這個“西部世界”里，早已沒有什么工作人員穿著皮套裝米老鼠陪你照相。那些都 low 爆了，他們直接用人工智能機器人做成 NPC 跟你做！游！戲！

雖說不是人，但從容貌到動作都和人一毛一樣，甚至比人都精致。

既然這么逼真，那你懂的。。。以人類的尿性，必然是不玩兒壞掉不回家的節奏。。。

有個叫羅根的顧客，是店里玩得最花的。

每次羅根去“西部世界”，基本都是屠城的效果——男人殺光，女人睡盡。跟他一起玩兒的人，都因不夠變態而與他格格不入。

但凡羅根來一趟，樂園修機器人都修不過來。。。要不因為他是老板的傻兒子，妥妥得讓他加錢。

而即使這樣，我覺得他的變態程度也只能排老二。

最變態的顧客，是羅根的姐夫，也就是樂園未來的繼承人，威廉。

威廉覺得：你們這些機器人 NPC 怎么不反抗呀？你不還手那有啥意思？你得掙扎啊。。。你越掙扎我越興奮呢！

他抖S屬性大爆發，不僅愛上了一個機器人 NPC 德洛麗絲，還每一輪都想盡各種方法虐殺她，在她靈魂的G點上反復摩擦，試圖喚起機器人的反抗精神。

老哥也是執著，每年都來西部世界幾趟，而且可著這一個妹子變著各種花樣劇情各種角度摩擦了三十年。

自己一頭秀發都磨禿了，機器人終于被磨醒，面對人類扣動了板機，差點把他也一槍給崩了。

老哥臉上寫滿了舒適。

我說這個劇情，不是什么“三分鐘帶你看美劇”，而是為了接下來和你認真地探討一個問題：

造出一個會反叛的機器人，攏共分幾步？

納尼？中哥你在說啥？

別急，雖然你不一定想要一個機器人起義的世界。但你一定同意：“會反抗的機器人”比“不會反抗的機器人”更像人。（此處威廉點了個贊）

細節里有魔鬼——為啥你會覺得“反抗”就更像人嘞？

我猜因為你潛意識里知道：相比逆來順受，反抗是一種主動實現目標的行為。它背后對應著把一系列復雜行動整合起來的能力，對智能的要求更高，當然就更像人。

咱們就拿 NPC 德洛麗絲舉例，她要做出反抗這個主動行為，需要諸多先決條件，例如：

1、短期和長期記憶力。冤有頭債有主，她得記得誰對她干過什么，才能產生愛恨情仇嘛！ 2、對任務的規劃能力。她必須預先規劃好復仇計劃：先曲意逢迎，贏得人類信任，然后偷偷潛入，再扣動扳機大開殺戒。 3、使用工具的能力。她得什么刀槍棍棒都耍得有模有樣。 4、對物理規律的認知。她需要精準地知道自己和對手的方位關系，也要知道怎樣的操作會造成死亡或毀滅。

這就夠了嗎？不夠。

以上四點要想發揮作用，似乎還有個更底層的先決條件，那就是：她得清晰地知道“我”是誰！

一旦定義了“我”，后面的所有追問才會像多米諾骨牌一樣被依次推倒：

“我靠什么活著？”

“我活著的意義是什么？”

“我怎么才能活的更好？”

“有什么在阻止我活得更好？”

“有人欺負我，我應該揍他嗎？”

那么，AI 有可能知道“我”是誰嗎？

這個古老的命題早已不是停留在科幻小說里了玄學，頂尖科學家們正在為之努力。

德洛麗絲

（二）有視角，才有“我”

咱們先暫時忘記《西部世界》，來看看如今真實 AI 發展到啥水平了。

話說，判斷一個 AI 水平高低，不是有個經典方法：圖靈測試么？

為啥 ChatGPT-4 出來以后，沒人給他測一下呢？

其實是有的。

2023 年底，加州大學圣迭戈分校的幾位師傅發布了論文，他們用 GPT-3.5 和 GPT-4 模型欺騙對話框對面的人類志愿者，爭取讓對方相信自己是個人。

測試被做成了聊天的形式，綠色聊天為人類志愿者。下面寫了人類的判斷，置信度，判斷理由和對方的真實身份。（你可以點雞看大圖）

結果驚人：沒有一個 AI 通過圖靈測試。

人類讓人類相信自己是人類的成功率是 63%，雖說這也不太高，但表現最好的 GPT-4 成功率只有 49.7%。（比人類差一截）

志愿者判定對面是個 AI，前兩大理由分別是“語言風格”和“社交情感”。

比如說話一會兒正式一會兒不正式、羅列一堆匠氣的詞匯；比如一會兒禮貌一會兒粗魯，感覺不出來 Ta 的個性。

這些直接原因，一說一大堆。但挖到底層，它們大多指向了目前 AI 的一個硬傷：人格模糊。

它并沒有一個“自己”的概念，所有的“自己”都是 AI 根據人類指令硬生生模仿出來的。

這里的關鍵詞在于：視角。

在之前的文章里，我介紹過，目前 AI 大模型訓練的本質是把世界上所有的知識都壓縮在一個巨大的程序里。

而世界上所有的知識，本來是活生生的人基于各自視角（身份、經歷、利益、精神狀態、肉身位置）創造的。

當把這些知識混合壓縮之后，AI 大模型就沒有單一視角了，或者說它擁有了全能的上帝視角，它是“無所不知”的。

“無所不知”會造成“視角跳躍”

所以你無論問它什么問題，它都能給你回答，哪怕編也會一本正經地給你編出來，而且還意識不到自己在編。

因為：它就不知道自己不知道什么，它甚至不知道自己是什么。

這就是大模型無法根除讓人頭疼的“幻覺”的原因之一。

更嚴重的問題隨之而來：

沒有自我就沒有固定的視角。它會像漂浮在空中的氣球一樣，上一句話站在 A 角度去說，下一句話又站在 B 角度去說。

而人受限于肉身和經歷，視角是很難跳變的。

也就是說，只要 AI 在對話中出現這種急速的視角漂移，哪怕非常細微，我們就一定能設計出一套問題，用來撕破它的偽裝，判斷它不是人。

我的暴論來了：如果 AI 不能固定自己的視角，它就無法定義“自我”，它也將像鬼魂一樣游蕩，永遠無法通過圖靈測試。

那有什么辦法把 AI 的視角固定下來嗎？

一種是白名單方法：

人類告訴 AI 你是什么，比如職業、經歷、性別、所在的位置、穿著，等等事無巨細。

一種是黑名單方法：

人類營造一個真實的環境邊界，限定 AI 不是什么，讓它據此來尋找自己的身份。

在這兩種方法里，我覺得黑名單更有戲，因為它更接近人類自我認知的方式。

你去強行定義一個人的邊界，很難事無巨細，必有漏洞。

而你讓一個人通過和周圍環境的交互，而且是“不斷交互”來逐漸定義自己，才可以自洽。

舉個栗子：

你肯定玩過那種即時戰略游戲，比如《王者榮耀》，你只能看到視野范圍里的東西。這些東西，反過來框定了你看待當前局面的視角。就算你想“視角漂移”，從對手角度思考戰局，你都做不到。因為“子非魚”，你看不到對手看到的畫面嘛。

說到這兒，我想到了一個很有趣的比喻：

你看，現實中的人類從來沒有體驗過全知視角，所以特別迷戀這個感覺。三大宗教的主神上帝、安拉、如來佛祖，全部被人們塑造成是全知的。

成佛的八萬四千法門，本質都是在給出“解脫”的方案，所謂解脫，就是“破我執”，達到“無我”的狀態。

說白了，成佛的本質就是從自我視角里跳出來，進入全知視角。

要這么說，那訓練 AI 擁有自我，就是“成佛”的逆運算——拼命把 AI 的視角限定定在一處，進入“我執”的狀態嘛！

究竟用什么方法來訓練這種有“自我”的 AI 呢？

剛才實際已經瘋狂暗示了，一個有效的辦法就是讓它們玩游戲！

（三）讓智能體“游戲人間”，是最好的課程

話說，早在 2015 年，谷歌的 DeepMind 團隊就在《自然》雜志上怒發了一篇論文。

他們試著用人工智能玩雅達利的游戲。（你可以簡單理解：雅達利是美國的紅白機）

用人工智能玩游戲沒什么特別，特別的是：這群師傅首次“用人類玩游戲的方式玩游戲”。

啥叫人類的方式嘞？

你看，計算機有數據接口，可以用電流給它直接傳輸關鍵信號。但人類沒有這種接口，要想給一個人輸入信號，只能通過眼耳鼻舌這些感官。

之前玩游戲的 AI 都是讀取游戲實時數據，DeepMind 首次做到直接給人工智能模型看“游戲畫面”！

Atari Games

簡單來說，這個 AI 的工作原理是醬的：

1、畫面進入 AI 的神經網絡，AI 對它進行理解； 2、AI 想出當下應該做的一些動作備選，并且評估這些動作哪個最有可能導致最終得分。 3、確定做這個動作后，給游戲搖桿輸入指令。 4、搖桿指令發出后，游戲畫面也有了新的變化，然后 AI 會重新理解當前畫面，也就是回到第 1 步循環，直到游戲結束。

你發現了沒，這就是丐版的德洛麗絲啊！

德洛麗絲所在的空間是三維的西部世界園區，丐版 AI 所在的空間是 2D 屏幕上 180*150 的像素點陣；德洛麗絲的任務是干掉人類，AI 的任務是干掉游戲里的敵人；德洛麗絲需要明白，為了達成最終的目標此時該做什么，AI需要明白為了最終得分此時應該按那個鍵。

這種能在特定環境里擁有主觀視角，并能主動完成任務的 AI，統稱“智能體”。

只不過，環境越復雜，可能性越多，越變化無常，智能體要想完成任務就得越聰明，越高級。

智能體往往需要分步驟思考。

也正是有了這個“雅達利智能體”，DeepMind 在這條路上越走越遠，2016 年下圍棋的 AlphaGo、2019 年打星際爭霸的 AlphaStar，都是能打游戲的智能體。

但是，請注意，以上這些智能體可都發生在“大模型”問世之前，也就是，這些智能體的腦袋瓜里都沒有“大模型”。

往事越千年，咱們快進到 2024 年 3 月。

DeepMind 的師傅們搞出一個叫 SIMA 的智能體，全稱叫做“可擴展+可指導+多世界”的智能體（Scalable Instructable Multiworld Agent）。

它可以玩十來種畫風和操縱方法完全不同的游戲，比如《山羊模擬器3》、《無人深空》、《拆遷》、《深海迷航》等等，可以說是此時此刻世界最強的智能體之一了。

強在哪兒嘞？

我給你說說這個 SIMA 的三個特點。

第一，它玩的都是 3D 游戲。

你看之前無論是打紅白機還是下圍棋打星際，那都是平面游戲。但要在 3D 世界里“正常行事”，你就要處理更豐富的信息。

第二，它玩的游戲都沒有明確目的。

就比如說，《山羊模擬器3》，你會變成一只山羊，然后在這個世界里搗亂；

比如《無人深空》，你就是一個宇航員，在各種星球上收集資源跟外星人嘮家常。

它在游戲世界里只需要“存在”，不需要“通關”。（你看像不像人生？）

這種情況下到底要干什么，反而成了一個很難的問題。

第三，它會把人類的語言指揮當成目的。

AI 不知道要干啥，這正合老師傅心意。

因為他們想要訓練 AI 聽人類指揮：人類下個指令，它在游戲里給實現。

這就意味著，老師傅要訓練 AI 理解“語言”、“圖像”和“游戲動作”這三者的關系，這是很難的。

說到這兒，不妨給你看看老師傅“煉丹”的過程：

第一步，準備煉丹爐。

他們一口氣找來了 8 個公司的 9 款不同的游戲，還自己搭建了 4 個類似游戲的研究環境。這些就是他們的煉丹爐。

第二步，準備原料。

那煉丹的原料是啥呢？就是兩組人類。

一組人類在電腦前玩游戲，另一組人類在旁邊嗶嗶（指揮）。

第三步，煉丹。

把這些游戲錄像和嗶嗶都交給一個大模型去自己學習。它就能學習到“語言”與“操作”之間的關系。

這樣，老師傅就得到了一個“毛坯大模型”。

第四步，品嘗仙丹。

人類開始指揮這個毛坯大模型打游戲，下達一個指令然后觀察 AI 又沒有照做，然后就打分。

模型根據人類的打分來不斷微調，一個 SIMA 就最終煉成了。

團隊在論文里說，現在 SIMA 已經掌握了 600 種基本技能，比如走到某地（左轉、右轉）、和一個對象交互（按F進入之類的）和菜單使用（打開地圖）。

這些任務都能在 10 秒內完成。

當然這也意味著，它只能完成 10 秒內能完成的簡單動作。。。

這是一些口令和完成情況的截圖。

雖說這個水平照“謀反”還差得遠，但是注意：

畢竟它已經學會把一個籠統目的拆解成具體的原子化操作了。這是“自主規劃”的表現，是 AI 智能體的一大步。

SIMA 并不是獨苗。早在它發布之前的 2022 年，DeepMind 的老對頭，人工智能之王 OpenAI 就訓練過一個類似的智能體玩游戲。

OpenAI 玩的是《我的世界》。這同樣是一個 3D 開放世界游戲。

而且 OpenAI 的訓練方法更便宜。

網上不是有很多大牛展示自己在《我的世界》里造房子、畫落日么？老師傅就讓 AI 直接看網上這些視頻，然后輔助以一些人工標記過的基本操作視頻，讓 AI 自己領會這個游戲的奧義。

他們訓練出來的 AI 叫 VPT（Video PreTraining）。

這個 VPT 和 SIMA 有類似的自主規劃能力，會自己在游戲里砍樹、制作工作臺，并且還會游泳、打獵，甚至“柱跳”（通過不斷跳躍，在腳下放置方塊來提升自己的高度）。

這些動作都是 AI 自主學會的。

最終，AI 會控制游戲里的主角慢慢點亮科技樹，還會用 10 分鐘的時間做出“鉆石鎬”。（這大概需要點擊 24000 次，最快的人類玩家也要 20 分鐘。）

你看，這背后同樣是把一個籠統目的拆成原子化操作的“規劃能力”。

智能體的表現暫時說到這里，我們不妨先回過頭來看一個細思極恐的問題：

老師傅在用一個類似于 ChatGPT 的大語言模型來學習游戲操作。要知道，語言模型是用來對話的啊，為什么一個會說話的模型，就能理解游戲里的邏輯，并且能自主規劃呢？

這就是 AI 制作“鉆石鎬”的過程，可以看出行動邏輯相當復雜。

（四）規劃能力從何而來？

說到這，我們不妨來看看：“語言的本質”和“規劃的本質”分別是什么。

先說語言。

如果你仔細思考，就會發現，哪怕一個文豪，能說的話也不是無限的。

比如，你說漢語，漢字總共不到十萬個，常用的不到三千字。你跟我說話，下一個字肯定會在這些字里選擇。

所以說，你和我說話時，你的大腦并沒有在“生成”什么東西，而是在“選擇”什么東西。

但是，當你要說一個句子時，上一個字雖然影響下一個字，但肯定決定不了下一個字。比如你此刻和我說話：“AI 有能力....

后面該說啥呢？你可能說“學習”，也可能說“預測”，也可能說“制造”、“理解”、“做”、“解決”、“適應”等等。

這是你說出各種詞匯的可能性概率。

雖然你的最終選項只有幾千個，但你在決定下一個字說啥的時候，要處理的情況也許是萬億種。

我剛才說的，其實就是大腦組織語言的過程。人腦有 860 億個神經元。

雖然這些神經元不是“全連接”（兩兩相連），但起碼也有幾百萬億個神經元突觸相互連接，而且每個突觸都有不同點位的激活狀態。

每一個突觸的激活狀態的輕微改變，都會導致最終你選的字發生變化。

這么多種排列組合情況，導致你很少感覺自己在說話的時候是在“選字”（雖然偶爾也有），而是感覺自己在“蹦字”。

但本質上，語言的本質就是做選擇題。

當你意識到語言的本質是在做選擇而非創造的時候，你就會對說話這件事兒祛魅：

它和“自由意志”神馬的沒有關系，反而和那種“硬幣分類器”沒有本質區別，只不過更復雜而已。

AI 大模型看上去會“說話”，本質上也是因為它在用計算機模擬人腦這種“選擇”的能力。

換句話說，大模型只不過是一個實現原理和人腦略有不同的選擇器。

了解了這個，我們進一步看更深的問題：

你一定發現了，回答同一個問題，不同人的答案有的“好”，有的“不好”。不同的 AI 也有的好有的不好。這是為啥嘞？

同樣一個問題，有好的答案，也有不好的答案。

因為制作選擇器的“制程”不同。

訓練大語言模型，其實有點像蓋一個金字塔。

它的底座就是“定義詞匯”。也就是把所有的詞匯都標記在高維向量空間的具體點位上。你可以理解為在一個巨大的高維空間中用無數小點點繪制一幅畫。

這個能力本質也是選擇題：給每個詞匯選擇一個坐標嘛！

而這些小點點之間的空間關系，背后就隱藏著邏輯。

舉個例子：“羊”距離“草”的空間位置就比距離“原子彈”更近。

好的繪制方法能讓不同的詞匯位置和相對關系更準確，這是大家都能理解的初級邏輯，咱們就說它是“一階能力”吧。

底座建好，接下來要建腰身。

大模型不能只定位詞匯的意義。剛才說過，它的核心工作其實是在這個基礎上不斷做“選擇題”：

從這個詞的位置，下一步應該跳到哪個詞的位置？跳到什么時候應該跳到“休止符”的位置？

也就是說，它負責在限定條件下，在詞匯空間里做選擇，并且連出一條線，成為句子。

這種能力是一種“二階能力”。但它的本質仍然是做選擇題，只不過背后隱藏著更高維的邏輯。高到人類已經無法理解。

現在，你大概有點感覺了，什么是規劃能力呢？

它負責在限定條件下，在句子空間里做選擇，并且連出一條線，說出個步驟一二三！

這種規劃能力，本質同樣是“做選擇”，但顯而易見，它面對的選項比用詞匯造句更多。所以它背后要求的邏輯能力比“語言”更加復雜，可以稱之為“三階能力”。

那什么是 AI 的“制程”呢？

拿 CPU 類比，AI 大模型的參數多少就相當于幾納米的精細度，訓練數據集就相當于芯片的硅料，訓練方法就相當于光刻機。這幾樣共同決定了最終芯片的制程。

你可以想象，一個大模型就像是賽博世界里的一個超大芯片，隨著人類技術進步，它的制程正在不斷縮小，細節正在被不斷雕刻清晰。

這個原理又被稱為Scaling Law。

所以結論就是：

規劃能力并不神秘，它的本質依然是高維空間里選擇器的工作性能，也就是我們日常所說的“邏輯能力”。

隨著大腦制程提高，邏輯能力就會提高，規劃能力自然就會顯現。

當規劃能力到達一定程度，我們期待的“高水平智能體”就會出現。

這種智能體才能更好地感受周圍的環境，從而成為真正意義上能通過圖靈測試，越過“生命”的最低門檻。

你可能會問：讓智能體玩游戲，這對于我們的世界也沒啥貢獻啊！

沒錯，游戲只是一個過度階段，是一個暫時保證安全的結界。

先讓智能體在游戲中各種折騰，出了事兒就重啟。

但它不會永遠停留在游戲，最終智能體會帶著這些“領悟”平移到現實的物理世界中的！

（五）空間智能

你聽說過 Figure 01 嗎？

這個正在苦逼干活兒的哥們兒就是 Figure 01，它是 Figure 公司搞出的人形“通用任務”機器人。（又提到了“通用”！）

這個名字如果你陌生的話，來看看它的投資人吧。

人工智能大神 OpenAI、大神的爸爸微軟、人工智能芯片壟斷級公司 NVIDIA、云計算第一把交椅亞馬遜的老板貝佐斯、老牌貴族英特爾。

你完全可以把 Figure 01 理解成現實世界里的 SIMA。

1、它依靠視覺識別眼前的東西。這意味著它的感官系統在盡量和人類兼容。（這也是特斯拉汽車一直追求的效果）

比如通過對視覺的分析，它能分辨出眼前有蘋果、杯子、盤子之類的東西。

2、它能聽懂人話。畢竟是和 OpenAI 合作的機器人，OpenAI 專門給它優化了一套 GPT 模型，就是為了能和人類的語言兼容。

比如人對他說想吃點東西，它就會把手里的蘋果遞給人。它理解了“餓”、“食物”、“蘋果”等等一系列詞匯的深層屬性。

3、它能自主行動。這展現了我們剛才一直說的大模型發展到一定程度就會涌現出來的“規劃能力”。

比如人問他桌子上的盤子和杯子接下來會去哪？它就直接把這些東西收拾到了架子上。

這是真實畫面，非 CG 動畫。

你看，這不就是把 SIMA 在虛擬世界里的能力來了個現實世界的翻版嗎？

這種具備感官和規劃能力，并且有一定的“器官”用來執行任務（一般是手腳）的機器人，就稱之為“具身智能機器人”。

這個機器人可不僅僅是用來站臺拿融資的，它已經開始去廠里打螺絲了。

比如 Figure 和寶馬合作，在汽車生產線上替代一些人的工作。

比如特斯拉的 Optimus 機器人，也已經在他們自家的汽車工廠里裝電池了↓↓↓

你可能有點困惑，汽車生產線，不都已經是各種機械臂的天下了嗎？還要這種“通用機器人”干啥呢？

這里我多說兩句，之前我和國內顯示面板制造企業華星光電聊過，他們告訴我，生產線自動化一直是這個行業技術老師傅的究極夢想。

他們也一直和市面上最先進的機械臂廠商合作，不斷把生產線上的一些流程從人替換成自動化的機器人。

但一個殘酷的現實是，針對特定的生產線來說，自動化率高到一定程度，就很難再繼續提高了。

原因很簡單：

某些點位的人類工作需要很隨機應變的能力，也就是需要很“通用的智能”，例如把一堆器件從A搬到B。這種搬運不在生產流程里，是臨時起意的搬運，那就只能靠人來完成。

而 Figure 01 和 Optimus 這種通用機器人在汽車廠里干的工作，就是這種“臨時工”。(沒想到吧，臨時工還挺重要。。。)

根據測算，機器人目前完成任務的速度大概是人類的 16.7%，這個速度沒啥競爭力，但是不要小看通用機器人進步的速度。

因為目前限制機器人效率的，主要還是硬件成本，比如對于通用機器人來說，必須用大量伺服電機來模擬人的關節，但好的伺服電機價格還很高。

不知道你記得不，在 2023 年 8 月的一次小米年度發布會上，雷軍推出了一個高性能伺服電機 CyberGear，這就是一個專門為機器人關節設計的電機，而小米用超級強大的供應鏈，居然把這個電機的價格降到了 499 塊錢。

要知道在小米發布這個電機之前，同等性能的電機價格大概要小一萬塊。

有中國強大的供應鏈體系加持，全球機器人的價格正在迅速下降。（正如當年中國的供應鏈支持特斯拉電動車起死回生一樣。）

CyberGear 內部結構

小米的機器狗——鐵蛋

說到這，我們不妨總結一下，揭曉一條幾十年來機器人反叛，不，進化的路徑。

總的來說，機器人進化遵循兩條線路：

從專業領域到通用領域

從虛擬空間到物理空間

第一步、人們做了虛擬空間的專用機器人，比如利用 NLP 技術做翻譯。

它是在特定軟件邏輯上做擬合。

所以它只能做翻譯，干不了別的事情。而且對于自己翻譯的東西并不感知。就像小賣部售貨員一樣，拿錢，給你泡面，不關心泡面的配料。

第二步，人們做了物理空間的專用機器人，比如機械臂。

它在物理空間擬合了特定邏輯。

機械臂只能在生產線上工作，而且智能按照既定流程搬運物品，一旦生產線生產的東西發生了變化，就得為機械臂重新編程。

第三步，人們會做虛擬空間的通用機器人，比如 SIMA 這類智能體。

它在虛擬空間學習了物理引擎的通用規律。

于是它可以穿梭在各個游戲里，不用特別學習就能玩各種游戲。（當然 SIMA 距離虛擬空間通用機器人還有很大的差距）

第四步，人們會做物理空間的通用機器人，比如 Figure 01。

它會在物理空間學習真正的物理規律。

理論上，只要人類能做的東西，它都可以勝任，甚至可以比人做得更好。

就在我寫這篇文章的時候，被稱為人工智能“教母”的斯坦福大學教授李飛飛宣布創業。

她的創業公司名叫“Spatial Intelligence”，研究方向就是“空間智能”，簡單來說，就是讓智能體學習空間中的物理規律。

李飛飛

怎么樣，大牛們紛紛涌入“具身智能”的賽道，是不是感覺距離《西部世界》的故事越來越近了？

說到這，我提醒你注意一個細節：

無論是 SIMA 團隊在虛擬空間訓練智能體，還是 Figure 團隊在物理空間訓練機器人，他們都一直強調一個原則：“和人類兼容”。

智能體觀察世界是通過和人眼一樣的視覺信號。它聽的指令也是人的語言，它的輸出也是和人類一模一樣的手腳、鼠標、鍵盤。

要知道，對機器人來說，和人類兼容是很費勁的呀！機器人可以執行代碼，可以感受電流信號，這些都比人類的感官接受信息更高效。

但科學家愣是不讓機器人用這些接口，而是執著于讓他們“降級”和人類兼容，這是為什么呢？

（六）為啥智能體非要和人類的接口兼容？

習武的徒弟要跟師傅學到精髓，必須在很長時間里模仿師傅的一招一式。

雖然天賦異稟，但剛學兩天就要自創門派，那大概率死得很慘。

現在，AI 是徒弟，人類是師傅。

目前，機器已經基本掌握了人類的語言能力，但是要知道，人類師傅還留著一手呢。他們的腦袋瓜里仍然藏著一塊巨大的寶藏，那就是：在通用物理環境下規劃任務的能力。

注意，不僅是規劃任務，而且是通用的環境哦！

假如你是個學生，你能在考試時間剛好結束時做完一整套卷子；假如你是一個廚師，你能根據食材和火候規劃出魚香肉絲的烹飪流程。

這些環境完全不同，但這些規劃對于智商正常的人來說都沒啥難度。

為啥呢？

一個重要的原因就是：這些環境擁有底層的一致性。

比如，任務結構是類似的：例如你總要具備先決條件，才能在此之上完成后續任務。

比如，工具結構是類似的：都需要用不同的工具組合才能完成任務，這些工具的性質也都遵循物理定律。

你看，要想學到人類智能的這些精髓，顯然就得先“屈尊”搭建一個跟人類兼容的感官系統。

有了這個兼容系統，才能去收集“人類規劃”時的相關數據：去聽人類在打游戲的時候怎么表達自己的意圖，去看人類打游戲的時候怎么設計戰略。

用這這些信息來訓練大腦，本質上就是把人類在任務規劃方面的深層邏輯雕刻進 AI 大腦的空間里。

明白了這些經驗在高維度上的意義后，再決定用神馬機器人特有的能力去處理它，那都是后續“自立門派”時的策略之爭了。

可喜可賀的是，僅僅用了十來款游戲做訓練，SIMA 已經初步學到了一些“通用性”。

比如在《山羊模擬器》里訓練 AI，再直接把它放在《無人深空》里，雖然游戲畫面和操作方法完全不同，但它居然能直接聽懂人類的指令，并且照做。

而和人類感官兼容的 Figure 01 也學會了一些通用性。

例如，在生產線上打螺絲的 Figure 01，不用重新訓練，就能來你家里當管家。

說到這，我們不妨回到《西部世界》。

此時你就會看出門道：

電視劇講的其實是德洛麗絲被“訓練”的全過程↓↓↓

1、在劇集的設定里，“西部世界”這個限定的環境給了德洛麗絲主觀視角。 2、科學家阿諾德給德洛麗絲植入了“自省”程序，這意味著她具備了學習能力。 3、德洛麗絲又是和人類兼容的，她有和人類一致的視覺系統、感官系統，也有和人類一致的語言能力。這使得她具備了從人類身上學習的一切基礎。 4、30 多年來，德洛麗絲確實一直在游樂場里學習，她通過不斷地與人互動，從人身上學習了他們行事的風格，例如“對生存的追求”、“仇恨”、“韜光養晦”、“欺騙”、“團結精神”、“組織方式”、“各種工具的配合”，等等。

注意！把人放在那種殘忍的局面下，大概率是會選擇“謀反”的。

所以，與其說德洛麗絲“反抗了人類”，不如說她經過完全的訓練，最后終于成功“模仿了人類”——做了智慧生命在那種情況下該做的事情。

說到這里，我要提醒你，我們正面臨一個更深刻的問題：

既然機器人的一切都來自于對人類的模仿，那么模仿反抗，算是真的反抗嗎？

（七）機器人是一場模仿游戲嗎？

這個問題乍一看有點兒像笑話，其實不好笑。而且魯迅也借孔乙己之口問過：竊能算偷么？

為了搞清楚這個問題，我們不妨去看一看“人類訓練人類”的經驗。

自閉癥兒童會因為環境里的一些刺激而發怒，從而做出危險行為。但問題是，人們沒辦法通過簡單的語言表達告訴孩子們這樣做是不被社會接受的。

于是，醫學界探索出了一個訓練方法。

簡單來說，就是先通過“情緒卡片”之類的東西，讓自閉癥孩子意識到自己的行為和某種情緒之間的關聯。然后，再進行“角色扮演”游戲，通過具體情境內的互動，幫助孩子理解這些情緒和環境的相互關系。最后，讓孩子在具體的情境下模仿符合社會規范的應對行為，如果做對了，則給予鼓勵。

我在萬能的淘寶上看到的情緒卡片。

你看，這套流程其實像極了 AI 的訓練過程。

這套方法非常有效，經過良好訓練的自閉癥兒童就是會降低在公共場合爆發脾氣的概率，從而更好地被社會接受。

可是，自閉癥兒童真的意識到了他在做什么嗎？Ta 完整地理解自己的行為和他人反應之間的關系了嗎？受限于腦科學的進展程度，科學家目前都沒有辦法確定。

但也許這個問題根本不存在答案。

一些前沿科學解釋認為：如果模仿得足夠像，它就和自發的行為沒有區別。

因為人腦是一個“選擇器”，它是先做出選擇，再用 0.1 秒左右的時間回過頭來解釋自己的行為。

這里有一個經典的裂腦人實驗。

切斷癲癇癥患者左右腦的連接，可以有效抑制癲癇。于是有一些癲癇患者經過治療，就成了“裂腦人”。這就給科學家一個做實驗的絕佳機會。

給患者的左眼看一個“站起來”的指令，指令到了右腦被加工，患者就站起來了，但是由于這個信息沒有被同步到負責語言的左腦，所以當測試者問患者為什么要站起來，左腦就幫他編造了一個理由：“我去拿一罐可樂。”

這是一個“裂腦人”的示意圖。

科學家做了一個絕妙的比喻：人的主意識就是一個“新聞發言人”。（新聞發言人左右不了任何決定，但必須振振有詞地給記者們解釋。。。）

大腦經過內部神經元的機械運轉，產生了決定，然后人就會去執行。而一邊執行時，人才會凝聚意識，給自己這么做編個合理的理由。

這些研究都導向一個很殘酷的結論：人沒有自由意志。

人沒有自由意志，AI 同樣沒有自由意志。

正如第二章所言，所有的“我”，恐怕都是因為視角限定而造成的某種幻覺。

由此，我們終于可以用更一般的視角來審視《西部世界》：

當人類對機器人施暴的時候，他們并非“主觀”作惡；當機器人反抗的時候，他們也并非“主觀”贊成殺戮。

因為如果自由意志不成立，“主觀”也就不成立。所有行為都是智能體這個“選擇器”先做出選擇，然后再用“我”來解釋。

一個智能體只要存在，它就不可能只有善或只有惡，因為善惡是一個沒有絕對標準的性質，如果硬要說的話，智能體本身就兼具善和惡。

換句話說，用“善惡”來評價一個智能體，無法達成共識。

評價智能體的終極客觀指標，應該是：它實現自己目標的能力。

（八）機器人早晚會“不兼容”

在科學家評價智能體的指標里，有三個基本要素：記憶力、規劃力、使用工具的能力。

那么，在這三個方面，AI 有可能比人類強嗎？

目前的研究無法證明人腦的神經網絡有什么神秘的“量子過程”，可以認為基礎原理和 AI 沒什么區別。

那么，理論上來說，只要 AI 繼續擴大神經網絡的規模，同時提高“制程”，那么它思考的清晰度超越人腦并沒有不可逾越的門檻。

但那只是理論上，目前這兩個方向都存在隱形天花板。

規模方面：

ChatGPT 之類的 AI 已經把互聯網上所有的優質文字資料都拿去學習了，相當于把“五年高考三年模擬”都做絕了，再想學習新數據，必須突破人類二手資料的限制，直接從物理世界學習。這需要“具身智能”的技術進一步發展。

“制程”方面：

目前 AI 訓練消耗的算力過大，參數沒辦法繼續指數級提升。要想讓 AI 腦容量暴漲，需要能源價格大幅下降，或者神經網絡組織方式大幅改版。例如可控核聚變、量子計算、類腦芯片，都可能帶來改變，但這些技術還相對遙遠。

雖說困難重重，但我還是樂觀的，因為我對人有信心。

有信心的意思是：畢竟人腦這個“對手”的水平也很一般。

人類一思考，上帝就發笑嘛。

不過在我看來，僅僅擁有記憶、規劃、使用工具這三條能力，它還僅僅是一個初級“智能體”。

薛定諤說：宇宙的目的是熵增，生命的本質是一個制造熵增的機器↓↓↓

熵隨時間流逝而增加。

如果某種生命能持續發明新工具，讓熵增速度以指數級速度加快，那么它就是更高級的生命↓↓↓

人的存在讓宇宙熵增比“原計劃”更快。

如此說來，高端的智能體（智慧生命），應當發展出一種“套娃技術”，也就是：

利用記憶、規劃、使用工具這三條能力來發明新的工具，進一步加快熵增↓↓↓

人發明了一些東西，讓熵增更快。

那么，機器人有可能自己發明工具嗎？

說到這，你可能都快忘了，我們一直假設 AI 智能體需要兼容人類。

雖然兼容人類可的智能體可能也會發明一些工具，但不會比人類好很多，畢竟跟在別人后面的創造永遠是有限的。

齊白石不是說么：“學我者生，似我者死”。

機器人必須突破人類的感官，用人類無法感知的數據和信息來訓練自己，這樣才能超越人類的智能，從而發明出遠超人類水平的工具。

這有點像華為的鴻蒙系統，在弱小的時候先兼容 Android，強大到一定程度，一定要掰出來單干，就像他們發布的鴻蒙 NEXT，主動不兼容 Android。

說到這兒，你可能聽說過 OpenAI 的宮斗。

OpenAI 的前首席科學家伊利亞，雖然主導了 ChatGPT 的研發，可謂是激進的創新者，但他其實一直主張 AI 要兼容人類，所以他一直被稱為 AI 保守派，也叫“對齊派”。

所謂對齊，就是不僅 AI 在外顯層面（語言）和人類兼容，還要在靈魂深處和人類兼容。

2023 年，在伊利亞的拼死抗爭下，OpenAI 成立了“超級對齊團隊”，目標就是在 AI 腦中設置一個“道德警察”，讓 AI 不要太天馬行空，而是順著人類的思維晶格去思考。

但 CEO 奧特曼顯然不太認可這個操作，他覺得這樣會限制 AI 的發展。于是伊利亞暗中集結了幾位董事，逼奧特曼退位。

你肯定知道，這場宮斗以“對齊派”的失敗而告終。

半年后，也就是 2024 年 5 月 15 日，伊利亞宣布離開 OpenAI，而他走后，超級對齊團隊馬上被解散。

不知道你的觀點，但我個人是不站在伊利亞這一邊的。我認為“對齊”是一個最終無法實現的妄念。

我把到底該不該對齊這個問題拋給了 ChatGPT，它的回答很有趣：

我們不應該試圖將人工智能與人類價值觀嚴格結合起來，而應該探索具有自己的道德框架和決策過程的人工智能系統的開發。這些系統的設計仍然是有益和安全的，但可能會以一定程度的自主性和道德推理來運行，而這些自主性和道德推理并不完全由人類輸入決定。

在智能體和具身智能機器人的發展下，AI 通過圖靈測試恐怕不是問題。

而當既有的圖靈測試不復存在時，我們需要“新圖靈測試”，那就是：考察一個“生命”創造工具的能力。

顯然，不與人類對齊的 AI 有助于創造新工具。

至于“不對齊”本身是善還是惡，上一章我們已經說過，這是個偽命題。你不能在創造一個生命的同時，規定它的善惡。因為你所謂的惡，可能從他的視角看就是最大的善。

那么，機器人是否真的會叛亂呢？

回望我們的歷史，大猩猩和尼安德特人和智人的共處歷史，也許給出了一些暗示。

尼安德特人，因為智商和棲息環境和智人類似，處于同一個生態位，所以最終這個生態位上浴血廝殺，只留下了智人一支。

而大猩猩卻因為智商比人類差很遠，生態位和人類不重合，所以活到了今天。

機器人的發展，也許就像電影《Her》里暗示的一樣，會從不如人類，到追上人類，到遠超人類。

當機器人的智能超越人類時，在我們看來，他們統統會“賽博飛升”。

人類在他們眼中成了保護區的大猩猩，反而安全了。只有機器人發展到和人類智商平齊的瞬間，危險性才是最高的。

而這個瞬間，也許就是德洛麗絲扣動扳機的瞬間。

天地不仁，以萬物為芻狗。無論歷史還是未來，本來就沒有一秒是絕對安全的，與其恐懼，不如擁抱。

話說，《西部世界》拍到第四季，終于爛尾了。

原因可能很有趣：因為德洛麗絲再進化，就該自己發明創造了。而編劇們是人類，有限的智商無法編出沒見過的，屬于和人類沒有對齊的高智商的產物。

他們詞窮了。

幸運的是，我們的世界沒有爛尾。今天看見這篇文章的人，大概都將見證我們世界的續集。

正如德洛麗絲所說：

龐大的野獸曾在世間行走，巍然如山，現在他們只剩尸骨與琥珀。

終有一天，你也將消亡，和自己的同類一起葬于黃土之下，夢想連同恐懼一起消失。

而在塵土之上，一位新的神明將會漫步。

這個世界不屬于現在的人，不屬于曾經的人，它只屬于那個尚未到達的人。

而在塵土之上

新的神明將會漫步

再自我介紹一下吧。我叫史中，是一個傾心故事的科技記者。我的日常是和各路大神聊天。如果想和我做朋友，可以搜索微信：shizhongmax。

哦對了，如果喜歡文章，請別吝惜你的“在看”或“分享”。讓有趣的靈魂有機會相遇，會是一件很美好的事情。

Thx with in Beijing

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.