網易首頁 > 網易號 > 正文申請入駐

楊立昆公開“手撕”Meta 內部環境：“LLM 吸光了房間里的空氣”，物理世界才是 AGI 的終局

2026-03-30 17:15:27　來源: AI科技大本營

北京舉報

分享至

Sora 死后，生成式視頻路線已到頭。

編譯 | 王啟隆

出品丨AI 科技大本營（ID：rgznai100）

2026 年 3 月，在新德里的 AI Alliance Global Leadership Reception 上，Christopher Nguyen 邀請到楊立昆聊了一個對未來影響深遠的話題：今天的 AI 缺了一塊很大的東西，而他想討論的，不只是這塊拼圖究竟是什么，更是 LeCun 正在推進的JEPA，是否就是那塊缺失的答案。

一如既往，LeCun 再次表達了他對 LLM 路線的懷疑，但他這次把另一條技術敘事講得足夠完整：如果真實世界的大部分細節本來就不可預測，那么 AI 要學的，可能就不是如何重建一切，而是如何找到那些真正可預測、也真正有用的抽象表示。

接下來的對話里，他系統解釋了為什么文本可以靠離散 token 預測一路推高能力，視頻和真實世界卻不行；為什么重建式路線會在現實信號上遇到根本限制；以及為什么他相信，真正通向下一代 AI 的，不是把現有生成式方法再往上堆一層，而是去學習抽象表示，并在表示空間里做預測。

要點速覽

LeCun 認為，LLM 的上限不只是能力問題，而是“下一 token 預測”這條路線本身不適合真實世界。
AI 真正缺的，不是更大的語言模型，而是能學習抽象表示、預測后果并支持規劃的世界模型。
JEPA 的關鍵，不是重建全部細節，而是在表示空間里抓住那些真正可預測的結構。
在圖像和視頻表示學習上，聯合嵌入方法長期優于重建式方法，這在他看來已經是明確的經驗結論。
這也是他離開 Meta、轉向 AMI Labs 的原因之一：LLM 已經吸走了太多資源，而 JEPA 更重要的應用在真實世界。

接下來是這場對話的精編翻譯。

AI 今天真正缺的，不是更多 token，而是世界模型

主持人：在開始之前，我先把這場對話的議程說清楚。第一件事比較容易說服大家：今天的 AI，確實缺了一塊非常大的東西。第二件事更難：我希望這場談話至少能開始讓大家相信，Yann 正在做的事情，可能就是那塊缺失拼圖的答案。

如果要用最容易理解的方式來解釋，你會怎么向大家說明這兩件事：AI 到底缺了什么？為什么你認為 JEPA 是答案？

Yann LeCun：這個問題其實分成兩個部分。第一，缺的到底是什么？答案是：世界模型。第二，什么是世界模型，我們又該怎么把它建出來？

過去大概 15 年，AI 經歷了兩次革命。一次是深度學習，另一次當然就是 LLM，本質上是 GPT 這類架構推起來的。GPT 真正重要的，不是 transformer 本身，而是它背后的訓練思想：給系統一個輸入序列，再訓練它把這個輸入序列復現到輸出上。由于這個架構是嚴格因果的，它只能看到當前位置左邊的符號，所以它本質上是在做“下一 token 預測”，也就是下一個符號預測。

這是一種自監督學習。你并不是在為某個具體任務訓練它，而是在讓它學習序列中不同符號之間的依賴關系。最開始其實也有一些架構嘗試在任意方向上做預測，但最后真正能擴展起來的，是只做時間上向未來的預測，也就是 GPT 這條路。

這條路為什么對文本有效？因為文本是離散的，token 的種類也是有限的。你永遠不能確定某串詞后面一定跟哪個詞，但因為可能的 token 數量有限，你可以對每一種可能性打分，得到一個在十萬級詞表上的概率分布。

問題是，這一套方法一旦離開文本，就會遇到根本困難。我至少花了 15 年在研究，怎么把自監督學習這套想法用到視頻上。也就是說，訓練一個系統去預測視頻接下來會發生什么。但最后你會發現，這件事根本做不通。

比如我拍一段這個房間的視頻，鏡頭慢慢轉過去，然后在某一刻停住。我讓系統預測接下來的視頻。它當然可以猜到一些大概的東西，比如這是一個房間，房間里坐著人，前面有桌子。但它絕不可能預測出你們每個人具體長什么樣，哪些座位有人，地毯的紋理是什么，吊燈的反光是什么樣。現實世界里，我們觀察到的大部分細節，本來就是不可預測的。

如果你硬逼系統去預測這些細節，唯一的辦法就是再塞給它額外信息，讓它有能力把這些細節復原出來。這個額外信息就是潛變量。但問題在于，這個潛變量最后往往承載了絕大部分預測所需的信息，于是整件事就失效了。

真實世界本來就是這樣。我們當然可以預測，如果把門窗都關上，再把這個房間里的空氣加熱，溫度和壓強會怎樣變化，因為有 PV=nRT。但你不可能去預測每一個空氣分子的運動軌跡。分子太多了，不可能逐一模擬。

所以，試圖預測數據中的所有細節——不管是視頻、分子動力學，還是別的連續世界信號——這個想法本身就是錯的。

真正可行的做法，是換一種架構：不要試圖重建輸入里的每一個細節，而是去學習一種抽象表示，并在這個抽象表示空間里做預測。這就是 JEPA，也就是聯合嵌入預測架構。

JEPA 的意思是，你訓練系統去找到一種盡可能保留輸入信息、但同時又具有可預測性的表示。比如在這個房間里，溫度和壓強是可以互相預測的；空氣分子的具體位置和速度則不行。物理學家早就把這件事做成了體系：為了做預測，他們必須忽略大量細節，而這些被忽略掉的東西，叫作熵。

你去模擬機翼周圍的空氣流動，也不是去追蹤每一個空氣分子，而是把空氣抽象成速度、密度、溫度，然后解 Navier–Stokes 方程。我們做建模一直都是這樣。量子場太復雜，于是我們發明了粒子；粒子太多，于是我們發明了原子；再往上有分子、蛋白質、細胞、生物體、生態系統、社會。每一個層級，都是為了在忽略下層細節的情況下，保留足夠的結構來做預測。

從這個意義上說，JEPA 其實是一個非常簡單的想法：不要去重建信號中的一切，而要去尋找一種可以支持預測的抽象表示。

如果我把人類已經收集到的所有木星數據都丟給你，這些數據本身并不會自動帶來預測能力。比如我問你，木星十年后會在哪，你真正需要的可能只有六個數字：三個位置，三個速度。其他大量細節可能都不重要。它們不是沒價值，只是對這個問題沒幫助。

如果你用這種方式訓練出系統，而且這種系統不再是生成式的，也不再是傳統意義上概率式的——雖然它仍然可以處理不確定性——那你就有可能真正構建面向現實世界的 AI。

再進一步，如果這個系統學到的不是單純時間預測，而是帶動作條件的預測：在時間 t 的世界狀態下，假設采取某個行動，那么 t+1 的世界狀態會是什么。那它就成了真正的世界模型。你可以用它來規劃，規劃一串最優動作，以達成某個目標函數下的結果。

大家都在講智能體系統，但其實沒有人真正知道怎么把它們建得可靠。至少在我看來，單靠 LLM 很難做到，因為 LLM 并沒有能力預測自己行動的后果。要做到這一點，你需要的是世界模型。

為什么 LeCun 認為生成式路線有根本上限

主持人：這套想法在直覺上很容易讓人認同。我們感知世界的時候，也不是在腦子里重建聲音、像素和全部細節，而是形成某種表示。那問題就來了：為什么不能繼續擴大另一條路線？為什么不能靠更多算力、更多數據，把生成式方法繼續推上去？這到底是規模問題，還是更本質的方法問題？

Yann LeCun：我認為這是生成式方法本身的根本限制。只要你試圖重建信號里的全部細節，這條路就是有問題的。

第二個限制是，為了讓這些生成式模型工作，你通常還得先把信號離散化，也就是 token 化，把它變成離散符號序列。你當然可以嘗試把視頻也這樣處理，但效果并不好。

在計算機視覺里，我們其實已經積累了很多年經驗。要用自監督的方式學圖像表示，大體上有兩種路線。第一種是重建：拿一張圖像，做一些破壞，比如遮住一部分、模糊它、改顏色，再訓練一個大網絡去從這個被破壞的版本里重建原圖。這在自然語言處理中對應的是 BERT，在視覺里則有遮罩圖像建模、遮罩自編碼器這些方法。

它們不是完全沒用，也能學到一些表示，再拿去做下游監督任務。但還有第二種路線，就是聯合嵌入。你把原圖和被破壞或變換后的圖都送進編碼器里，訓練它們在表示空間中互相可預測。換句話說，你不要求它把像素重建回來，而要求它學會一種更高層的表示。

這么多年的實驗結論其實很明確：聯合嵌入幾乎每次都比重建更強。不管是 VAE、VQ-VAE、稀疏自編碼器，還是別的重建方法，都沒有真正比過這些不試圖重建的方式。

對我來說，這是一個非常強的經驗信號：對于自然信號來說，重建本身就是個壞主意。

我其實已經和這個想法生活了 40 年。1987 年我的博士論文里，就在做自編碼器，甚至是去噪自編碼器。1986 年我就在訓練這類東西。它們當然“有點效果”，但遠遠談不上真正可行。后來 Geoff Hinton 也一樣，對這類方法的表現并不滿意。

最后我們看到的結論是：對于自然信號，學習表示的最好辦法，不是重建，而是不重建。最近幾年，這種聯合嵌入方法再用到視頻上，也出現了非常好的結果。

從 collapse 到 DINO：這條路為什么現在才開始真正成熟

主持人：但懷疑者會問一個問題：在表示空間里學習當然聽起來很好，可它很容易塌縮，落到 trivial solution（平凡解，線性系統的解為零向量的情況）。那最近這幾年到底發生了什么，讓你覺得這條路真的可以往前走了？

Yann LeCun：這個問題其實很早就出現了。1993 年我在 Bell Labs 的時候，就有人找我們做簽名驗證。他們的需求很具體：信用卡磁條上只有 80 字節空間，能不能把簽名的“gist”編碼進這 80 字節里，然后比較兩次簽名是否屬于同一個人。

當時我的想法是用后來被叫作孿生神經網絡的結構：給它兩個同一個人的簽名，分別過同一個網絡，再要求它們輸出相同的表示。問題是，如果你只這么做，系統最簡單的解法就是忽略輸入，永遠輸出一個常數表示，這就是塌縮。

后來我們想到的辦法，就是今天所謂對比式方法：除了給它同一個人的兩個簽名，也給它不同人的簽名，或者真實簽名和偽造簽名，然后要求這些表示彼此拉開。這在簽名任務上有效，后來在 ImageNet 這種對象識別任務上也有效，但它不太容易擴展，學到的表示維度通常比較低。

所以很長一段時間里，我并不覺得這會是自監督學習的最終答案。直到大概五年前，我的一個博士后 Stéphane Deny，以及其他一些相關工作，開始用另外一種方法來避免塌縮。它們不是對比式方法，而是通過最大化某種信息量，迫使編碼器輸出的信息保持“有信息”，從而防止系統直接忽略輸入。

這一條路后來發展成了 Barlow Twins，之后又有 VICReg，再往后還有基于蒸餾的方法。與此同時，Meta 那邊也有 DINO、DINOv2、DINOv3。這些結果讓事情變得很清楚：我們確實已經有辦法避免塌縮，而且這些辦法在圖像表示學習上非常有效。

所以我后來才真正覺得，這就是未來應該走的方向。當然，這里面的理論解釋還沒有完全建立起來。為什么這些防塌縮方法能這么有效，我們其實還沒有徹底理解。

LLM 已經把房間里的空氣吸光了

主持人：過去 FAIR 一直是很好的研究環境。扎克伯格也很希望你留下來。那為什么你最后還是決定離開 Meta，去做 AMI Labs？在外面到底能做什么，是在 Meta 里面做不了的？

Yann LeCun：至少到去年之前，FAIR 還是一個非常適合做研究的地方。但過去這一年，Meta 的重心已經明顯轉向更短期的目標了，本質上就是追趕整個 LLM 產業。這就導致那些更長期、更激進、也更偏離當前主流范式的項目，被放到了更次要的位置。

當一家整個公司都在往某個范式上投入數千億美元，而你這個 Chief AI Scientist 又到處說，單靠放大 LLM 永遠不可能走到人類級 AI，你自然不會特別受歡迎。

當然，Mark Zuckerberg 和 Andrew Bosworth 其實都對我在做的項目非常支持。我們當時在 Meta 內部把這個項目叫作 AMI，Advanced Machine Intelligence，后來這也成了新公司的名字。但我后來還是去跟 Mark 講，這個方向在公司內部從政治上已經很難繼續推了。因為LLM 基本上已經把房間里的空氣都吸光了。

這是第一點。第二點是，這些 JEPA 想法真正重要的應用，很多都在 Meta 根本不會碰的地方：工業流程控制、機器人、現實世界系統，還有很多其他應用。Meta 的核心業務還是連接人與人，而不是這些現實世界問題。

所以，一方面是公司內部模式發生了變化，另一方面是外部應用空間太大，再加上融資條件也成熟了，JEPA 的結果又開始真正跑出來了，這時候離開就變成了一件順理成章的事。

從衛星到經濟系統，世界模型真正要去的地方在哪里？

主持人：我們其實一直在用 Barlow Twins 和 JEPA 訓練衛星模型，效果非常好，也很簡單。所以我完全相信你說的抽象表示這條路。但現在的問題是，我們訓練出了一個很漂亮的模型，它對太空這個尺度有效，可它和其他尺度上的 JEPA 模型之間并沒有真正連接起來。你覺得未來這些模型會不會形成某種分層 JEPA，最后在不同尺度之間連起來？

Yann LeCun：我覺得最終你確實需要某種分層 JEPA。低層表示負責更短時、更細節的預測，但這些預測通常會很快偏離現實。所以你還需要更高層的表示，去做更長時間、更大尺度的預測。

高層級的一個特點，就是它能在更大的時間尺度和空間尺度上做預測。這其實也和物理里的很多思想相通，比如重整化群理論，也和卷積網絡里的池化有某種相似性。

而且不同物理現象之間，本來就共享很多共性。我覺得這給了我們一種可能：建出某種更通用的模型，讓一個領域里形成的“直覺”，能遷移到另一個領域里去。比如你如果真的理解流體動力學，哪怕只是高層的直覺，你既可以用它理解渦噴發動機，也可以用它理解機翼，也可以用它理解帆的受力。

我們人類其實一直就是這么工作的。甚至貓也是。你的貓對于自己的身體動力學、摩擦、跳躍這些事，理解得可能比任何你能寫出來的方程都好。它知道什么時候能跳上去，怎么連續借力，怎么控制身體，這是一種非常高層但非常有效的世界模型。

主持人：我們會前還聊到另一個問題，就是經濟模型。如果從政策、預測、經濟這些角度看，經濟系統里有公司、個人、政府、組織這些“微觀主體”，又有國家、區域、產業這樣的“宏觀結構”。你怎么理解這種從微觀到宏觀的問題？

Yann LeCun：不管是在物理、經濟學、社會科學還是工程里，最難的問題之一，都是怎么從微觀過渡到中觀，再到宏觀。

在物理里，這件事其實最近幾年才真正開始有一些理論上的突破。比如怎么從分子碰撞推到 Boltzmann 方程，再怎么從 Boltzmann 方程走到 Navier–Stokes 方程。再往上，你又會遇到更高層的問題，比如給定一個特定翼型和特定速度，怎么直接預測升力和阻力。

其實現在已經有人在做這類事情：先用 Navier–Stokes 方程或者計算流體動力學生成訓練數據，再訓練神經網絡去直接預測升力和阻力。這樣得到的是一個可微分模型，你甚至可以直接對形狀反傳梯度，去優化形狀本身。類似例子在材料科學、宇宙學模擬等很多地方都已經出現了。

經濟學會更難，因為你面對的不是遵守牛頓定律的分子，而是大量在有限信息下做半理性決策的人和組織。這樣形成的涌現行為，本來就極難建模。

所以在我看來，這類問題最后很可能還是要靠一種數據驅動的方法，也就是類似 JEPA 的路徑，去找到好的抽象。宏觀經濟學其實也一直在做這件事，只不過是用更高層的抽象，把微觀細節進一步壓掉。

我覺得這種方法在經濟學里會有很多應用，在金融里可能也有應用。但金融的問題是，大部分數據本質上都是噪音，信噪比非常低。

原視頻鏈接：youtu.be/wDeXfFQcJxk

（投稿或尋求報道：zhanghy@csdn.net）

"48 小時，與 50+ 位大廠技術決策者，共探 AI 落地真路徑"

由 CSDN&奇點智能研究院聯合舉辦的「全球機器學習技術大會」正式升級為「奇點智能技術大會」。

2026 奇點智能技術大會將于 4 月 17-18 日在上海環球港凱悅酒店正式召開，大會聚焦大模型技術演進、智能體系統工程、OpenClaw 生態實踐及 AI 行業落地等十二大專題板塊，特邀來自BAT、京東、微軟、小紅書、美團等頭部企業的 50+ 位技術決策者分享實戰案例。旨在幫助技術管理者與一線 AI 落地人員規避選型風險、降低試錯成本、獲取可復用的工程方法論，真正實現 AI 技術的規模化落地與商業價值轉化。

這不僅是一場技術的盛宴，更是決策者把握 2026 AI 拐點的戰略機會。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.