无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

楊立昆公開“手撕”Meta 內部環境:“LLM 吸光了房間里的空氣”,物理世界才是 AGI 的終局

0
分享至

Sora 死后,生成式視頻路線已到頭。

編譯 | 王啟隆

出品丨AI 科技大本營(ID:rgznai100)

2026 年 3 月,在新德里的 AI Alliance Global Leadership Reception 上,Christopher Nguyen 邀請到楊立昆聊了一個對未來影響深遠的話題:今天的 AI 缺了一塊很大的東西,而他想討論的,不只是這塊拼圖究竟是什么,更是 LeCun 正在推進的JEPA,是否就是那塊缺失的答案。


一如既往,LeCun 再次表達了他對 LLM 路線的懷疑,但他這次把另一條技術敘事講得足夠完整:如果真實世界的大部分細節本來就不可預測,那么 AI 要學的,可能就不是如何重建一切,而是如何找到那些真正可預測、也真正有用的抽象表示。

接下來的對話里,他系統解釋了為什么文本可以靠離散 token 預測一路推高能力,視頻和真實世界卻不行;為什么重建式路線會在現實信號上遇到根本限制;以及為什么他相信,真正通向下一代 AI 的,不是把現有生成式方法再往上堆一層,而是去學習抽象表示,并在表示空間里做預測。

要點速覽

  • LeCun 認為,LLM 的上限不只是能力問題,而是“下一 token 預測”這條路線本身不適合真實世界。

  • AI 真正缺的,不是更大的語言模型,而是能學習抽象表示、預測后果并支持規劃的世界模型。

  • JEPA 的關鍵,不是重建全部細節,而是在表示空間里抓住那些真正可預測的結構。

  • 在圖像和視頻表示學習上,聯合嵌入方法長期優于重建式方法,這在他看來已經是明確的經驗結論。

  • 這也是他離開 Meta、轉向 AMI Labs 的原因之一:LLM 已經吸走了太多資源,而 JEPA 更重要的應用在真實世界。

接下來是這場對話的精編翻譯。


AI 今天真正缺的,不是更多 token,而是世界模型

主持人:在開始之前,我先把這場對話的議程說清楚。第一件事比較容易說服大家:今天的 AI,確實缺了一塊非常大的東西。第二件事更難:我希望這場談話至少能開始讓大家相信,Yann 正在做的事情,可能就是那塊缺失拼圖的答案。

如果要用最容易理解的方式來解釋,你會怎么向大家說明這兩件事:AI 到底缺了什么?為什么你認為 JEPA 是答案?

Yann LeCun:這個問題其實分成兩個部分。第一,缺的到底是什么?答案是:世界模型。第二,什么是世界模型,我們又該怎么把它建出來?

過去大概 15 年,AI 經歷了兩次革命。一次是深度學習,另一次當然就是 LLM,本質上是 GPT 這類架構推起來的。GPT 真正重要的,不是 transformer 本身,而是它背后的訓練思想:給系統一個輸入序列,再訓練它把這個輸入序列復現到輸出上。由于這個架構是嚴格因果的,它只能看到當前位置左邊的符號,所以它本質上是在做“下一 token 預測”,也就是下一個符號預測。

這是一種自監督學習。你并不是在為某個具體任務訓練它,而是在讓它學習序列中不同符號之間的依賴關系。最開始其實也有一些架構嘗試在任意方向上做預測,但最后真正能擴展起來的,是只做時間上向未來的預測,也就是 GPT 這條路。

這條路為什么對文本有效?因為文本是離散的,token 的種類也是有限的。你永遠不能確定某串詞后面一定跟哪個詞,但因為可能的 token 數量有限,你可以對每一種可能性打分,得到一個在十萬級詞表上的概率分布。

問題是,這一套方法一旦離開文本,就會遇到根本困難。我至少花了 15 年在研究,怎么把自監督學習這套想法用到視頻上。也就是說,訓練一個系統去預測視頻接下來會發生什么。但最后你會發現,這件事根本做不通。

比如我拍一段這個房間的視頻,鏡頭慢慢轉過去,然后在某一刻停住。我讓系統預測接下來的視頻。它當然可以猜到一些大概的東西,比如這是一個房間,房間里坐著人,前面有桌子。但它絕不可能預測出你們每個人具體長什么樣,哪些座位有人,地毯的紋理是什么,吊燈的反光是什么樣。現實世界里,我們觀察到的大部分細節,本來就是不可預測的。

如果你硬逼系統去預測這些細節,唯一的辦法就是再塞給它額外信息,讓它有能力把這些細節復原出來。這個額外信息就是潛變量。但問題在于,這個潛變量最后往往承載了絕大部分預測所需的信息,于是整件事就失效了。

真實世界本來就是這樣。我們當然可以預測,如果把門窗都關上,再把這個房間里的空氣加熱,溫度和壓強會怎樣變化,因為有 PV=nRT。但你不可能去預測每一個空氣分子的運動軌跡。分子太多了,不可能逐一模擬。

所以,試圖預測數據中的所有細節——不管是視頻、分子動力學,還是別的連續世界信號——這個想法本身就是錯的。

真正可行的做法,是換一種架構:不要試圖重建輸入里的每一個細節,而是去學習一種抽象表示,并在這個抽象表示空間里做預測。這就是 JEPA,也就是聯合嵌入預測架構。

JEPA 的意思是,你訓練系統去找到一種盡可能保留輸入信息、但同時又具有可預測性的表示。比如在這個房間里,溫度和壓強是可以互相預測的;空氣分子的具體位置和速度則不行。物理學家早就把這件事做成了體系:為了做預測,他們必須忽略大量細節,而這些被忽略掉的東西,叫作熵。

你去模擬機翼周圍的空氣流動,也不是去追蹤每一個空氣分子,而是把空氣抽象成速度、密度、溫度,然后解 Navier–Stokes 方程。我們做建模一直都是這樣。量子場太復雜,于是我們發明了粒子;粒子太多,于是我們發明了原子;再往上有分子、蛋白質、細胞、生物體、生態系統、社會。每一個層級,都是為了在忽略下層細節的情況下,保留足夠的結構來做預測。

從這個意義上說,JEPA 其實是一個非常簡單的想法:不要去重建信號中的一切,而要去尋找一種可以支持預測的抽象表示。

如果我把人類已經收集到的所有木星數據都丟給你,這些數據本身并不會自動帶來預測能力。比如我問你,木星十年后會在哪,你真正需要的可能只有六個數字:三個位置,三個速度。其他大量細節可能都不重要。它們不是沒價值,只是對這個問題沒幫助。

如果你用這種方式訓練出系統,而且這種系統不再是生成式的,也不再是傳統意義上概率式的——雖然它仍然可以處理不確定性——那你就有可能真正構建面向現實世界的 AI。

再進一步,如果這個系統學到的不是單純時間預測,而是帶動作條件的預測:在時間 t 的世界狀態下,假設采取某個行動,那么 t+1 的世界狀態會是什么。那它就成了真正的世界模型。你可以用它來規劃,規劃一串最優動作,以達成某個目標函數下的結果。

大家都在講智能體系統,但其實沒有人真正知道怎么把它們建得可靠。至少在我看來,單靠 LLM 很難做到,因為 LLM 并沒有能力預測自己行動的后果。要做到這一點,你需要的是世界模型。


為什么 LeCun 認為生成式路線有根本上限

主持人:這套想法在直覺上很容易讓人認同。我們感知世界的時候,也不是在腦子里重建聲音、像素和全部細節,而是形成某種表示。那問題就來了:為什么不能繼續擴大另一條路線?為什么不能靠更多算力、更多數據,把生成式方法繼續推上去?這到底是規模問題,還是更本質的方法問題?

Yann LeCun:我認為這是生成式方法本身的根本限制。只要你試圖重建信號里的全部細節,這條路就是有問題的。

第二個限制是,為了讓這些生成式模型工作,你通常還得先把信號離散化,也就是 token 化,把它變成離散符號序列。你當然可以嘗試把視頻也這樣處理,但效果并不好。

在計算機視覺里,我們其實已經積累了很多年經驗。要用自監督的方式學圖像表示,大體上有兩種路線。第一種是重建:拿一張圖像,做一些破壞,比如遮住一部分、模糊它、改顏色,再訓練一個大網絡去從這個被破壞的版本里重建原圖。這在自然語言處理中對應的是 BERT,在視覺里則有遮罩圖像建模、遮罩自編碼器這些方法。

它們不是完全沒用,也能學到一些表示,再拿去做下游監督任務。但還有第二種路線,就是聯合嵌入。你把原圖和被破壞或變換后的圖都送進編碼器里,訓練它們在表示空間中互相可預測。換句話說,你不要求它把像素重建回來,而要求它學會一種更高層的表示。

這么多年的實驗結論其實很明確:聯合嵌入幾乎每次都比重建更強。不管是 VAE、VQ-VAE、稀疏自編碼器,還是別的重建方法,都沒有真正比過這些不試圖重建的方式。

對我來說,這是一個非常強的經驗信號:對于自然信號來說,重建本身就是個壞主意。

我其實已經和這個想法生活了 40 年。1987 年我的博士論文里,就在做自編碼器,甚至是去噪自編碼器。1986 年我就在訓練這類東西。它們當然“有點效果”,但遠遠談不上真正可行。后來 Geoff Hinton 也一樣,對這類方法的表現并不滿意。

最后我們看到的結論是:對于自然信號,學習表示的最好辦法,不是重建,而是不重建。最近幾年,這種聯合嵌入方法再用到視頻上,也出現了非常好的結果。


從 collapse 到 DINO:這條路為什么現在才開始真正成熟

主持人:但懷疑者會問一個問題:在表示空間里學習當然聽起來很好,可它很容易塌縮,落到 trivial solution(平凡解,線性系統的解為零向量的情況)。那最近這幾年到底發生了什么,讓你覺得這條路真的可以往前走了?

Yann LeCun:這個問題其實很早就出現了。1993 年我在 Bell Labs 的時候,就有人找我們做簽名驗證。他們的需求很具體:信用卡磁條上只有 80 字節空間,能不能把簽名的“gist”編碼進這 80 字節里,然后比較兩次簽名是否屬于同一個人。

當時我的想法是用后來被叫作孿生神經網絡的結構:給它兩個同一個人的簽名,分別過同一個網絡,再要求它們輸出相同的表示。問題是,如果你只這么做,系統最簡單的解法就是忽略輸入,永遠輸出一個常數表示,這就是塌縮。

后來我們想到的辦法,就是今天所謂對比式方法:除了給它同一個人的兩個簽名,也給它不同人的簽名,或者真實簽名和偽造簽名,然后要求這些表示彼此拉開。這在簽名任務上有效,后來在 ImageNet 這種對象識別任務上也有效,但它不太容易擴展,學到的表示維度通常比較低。

所以很長一段時間里,我并不覺得這會是自監督學習的最終答案。直到大概五年前,我的一個博士后 Stéphane Deny,以及其他一些相關工作,開始用另外一種方法來避免塌縮。它們不是對比式方法,而是通過最大化某種信息量,迫使編碼器輸出的信息保持“有信息”,從而防止系統直接忽略輸入。

這一條路后來發展成了 Barlow Twins,之后又有 VICReg,再往后還有基于蒸餾的方法。與此同時,Meta 那邊也有 DINO、DINOv2、DINOv3。這些結果讓事情變得很清楚:我們確實已經有辦法避免塌縮,而且這些辦法在圖像表示學習上非常有效。

所以我后來才真正覺得,這就是未來應該走的方向。當然,這里面的理論解釋還沒有完全建立起來。為什么這些防塌縮方法能這么有效,我們其實還沒有徹底理解。


LLM 已經把房間里的空氣吸光了

主持人:過去 FAIR 一直是很好的研究環境。扎克伯格也很希望你留下來。那為什么你最后還是決定離開 Meta,去做 AMI Labs?在外面到底能做什么,是在 Meta 里面做不了的?

Yann LeCun:至少到去年之前,FAIR 還是一個非常適合做研究的地方。但過去這一年,Meta 的重心已經明顯轉向更短期的目標了,本質上就是追趕整個 LLM 產業。這就導致那些更長期、更激進、也更偏離當前主流范式的項目,被放到了更次要的位置。

當一家整個公司都在往某個范式上投入數千億美元,而你這個 Chief AI Scientist 又到處說,單靠放大 LLM 永遠不可能走到人類級 AI,你自然不會特別受歡迎。

當然,Mark Zuckerberg 和 Andrew Bosworth 其實都對我在做的項目非常支持。我們當時在 Meta 內部把這個項目叫作 AMI,Advanced Machine Intelligence,后來這也成了新公司的名字。但我后來還是去跟 Mark 講,這個方向在公司內部從政治上已經很難繼續推了。因為LLM 基本上已經把房間里的空氣都吸光了。

這是第一點。第二點是,這些 JEPA 想法真正重要的應用,很多都在 Meta 根本不會碰的地方:工業流程控制、機器人、現實世界系統,還有很多其他應用。Meta 的核心業務還是連接人與人,而不是這些現實世界問題。

所以,一方面是公司內部模式發生了變化,另一方面是外部應用空間太大,再加上融資條件也成熟了,JEPA 的結果又開始真正跑出來了,這時候離開就變成了一件順理成章的事。


從衛星到經濟系統,世界模型真正要去的地方在哪里?

主持人:我們其實一直在用 Barlow Twins 和 JEPA 訓練衛星模型,效果非常好,也很簡單。所以我完全相信你說的抽象表示這條路。但現在的問題是,我們訓練出了一個很漂亮的模型,它對太空這個尺度有效,可它和其他尺度上的 JEPA 模型之間并沒有真正連接起來。你覺得未來這些模型會不會形成某種分層 JEPA,最后在不同尺度之間連起來?

Yann LeCun:我覺得最終你確實需要某種分層 JEPA。低層表示負責更短時、更細節的預測,但這些預測通常會很快偏離現實。所以你還需要更高層的表示,去做更長時間、更大尺度的預測。

高層級的一個特點,就是它能在更大的時間尺度和空間尺度上做預測。這其實也和物理里的很多思想相通,比如重整化群理論,也和卷積網絡里的池化有某種相似性。

而且不同物理現象之間,本來就共享很多共性。我覺得這給了我們一種可能:建出某種更通用的模型,讓一個領域里形成的“直覺”,能遷移到另一個領域里去。比如你如果真的理解流體動力學,哪怕只是高層的直覺,你既可以用它理解渦噴發動機,也可以用它理解機翼,也可以用它理解帆的受力。

我們人類其實一直就是這么工作的。甚至貓也是。你的貓對于自己的身體動力學、摩擦、跳躍這些事,理解得可能比任何你能寫出來的方程都好。它知道什么時候能跳上去,怎么連續借力,怎么控制身體,這是一種非常高層但非常有效的世界模型。

主持人:我們會前還聊到另一個問題,就是經濟模型。如果從政策、預測、經濟這些角度看,經濟系統里有公司、個人、政府、組織這些“微觀主體”,又有國家、區域、產業這樣的“宏觀結構”。你怎么理解這種從微觀到宏觀的問題?

Yann LeCun:不管是在物理、經濟學、社會科學還是工程里,最難的問題之一,都是怎么從微觀過渡到中觀,再到宏觀。

在物理里,這件事其實最近幾年才真正開始有一些理論上的突破。比如怎么從分子碰撞推到 Boltzmann 方程,再怎么從 Boltzmann 方程走到 Navier–Stokes 方程。再往上,你又會遇到更高層的問題,比如給定一個特定翼型和特定速度,怎么直接預測升力和阻力。

其實現在已經有人在做這類事情:先用 Navier–Stokes 方程或者計算流體動力學生成訓練數據,再訓練神經網絡去直接預測升力和阻力。這樣得到的是一個可微分模型,你甚至可以直接對形狀反傳梯度,去優化形狀本身。類似例子在材料科學、宇宙學模擬等很多地方都已經出現了。

經濟學會更難,因為你面對的不是遵守牛頓定律的分子,而是大量在有限信息下做半理性決策的人和組織。這樣形成的涌現行為,本來就極難建模。

所以在我看來,這類問題最后很可能還是要靠一種數據驅動的方法,也就是類似 JEPA 的路徑,去找到好的抽象。宏觀經濟學其實也一直在做這件事,只不過是用更高層的抽象,把微觀細節進一步壓掉。

我覺得這種方法在經濟學里會有很多應用,在金融里可能也有應用。但金融的問題是,大部分數據本質上都是噪音,信噪比非常低。

原視頻鏈接:youtu.be/wDeXfFQcJxk

(投稿或尋求報道:zhanghy@csdn.net)



"48 小時,與 50+ 位大廠技術決策者,共探 AI 落地真路徑"

由 CSDN&奇點智能研究院聯合舉辦的「全球機器學習技術大會」正式升級為「奇點智能技術大會」。

2026 奇點智能技術大會將于 4 月 17-18 日在上海環球港凱悅酒店正式召開,大會聚焦大模型技術演進、智能體系統工程、OpenClaw 生態實踐及 AI 行業落地等十二大專題板塊,特邀來自BAT、京東、微軟、小紅書、美團等頭部企業的 50+ 位技術決策者分享實戰案例。旨在幫助技術管理者與一線 AI 落地人員規避選型風險、降低試錯成本、獲取可復用的工程方法論,真正實現 AI 技術的規模化落地與商業價值轉化。

這不僅是一場技術的盛宴,更是決策者把握 2026 AI 拐點的戰略機會。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
米蘭9.12倉庫縱火案宣判:指使的兩名中國人各30年,縱火的半黑21年

米蘭9.12倉庫縱火案宣判:指使的兩名中國人各30年,縱火的半黑21年

意大利華人網0039
2026-05-15 00:07:59
李小冉高情商回應與田亮女兒森碟撞臉 溫柔化解年齡話題獲贊無數

李小冉高情商回應與田亮女兒森碟撞臉 溫柔化解年齡話題獲贊無數

立真娛樂
2026-05-14 10:03:36
給美國7800億,中國通告全球,禁止臺灣參加,鄭麗文派人來京交底

給美國7800億,中國通告全球,禁止臺灣參加,鄭麗文派人來京交底

跳跳歷史
2026-05-15 03:51:28
5月14日,廣東隊傳來3大消息:徐杰表態 薩林杰想降薪 獎金正常發

5月14日,廣東隊傳來3大消息:徐杰表態 薩林杰想降薪 獎金正常發

鍋鍋愛歷史
2026-05-14 14:09:35
3000字長文!美國記者揭秘:波波維奇為馬刺注入生命力成秘密武器

3000字長文!美國記者揭秘:波波維奇為馬刺注入生命力成秘密武器

新殺豬的秀才
2026-05-14 22:32:00
天降橫財!男子入獄前,花120萬買股票,6年后出獄,變成4.9億!

天降橫財!男子入獄前,花120萬買股票,6年后出獄,變成4.9億!

川渝視覺
2026-05-13 22:09:30
美國歷代總統訪華都愛吃些啥?這幾道菜,讓他們放下刀叉拿筷子

美國歷代總統訪華都愛吃些啥?這幾道菜,讓他們放下刀叉拿筷子

青煙小先生
2026-05-14 19:26:33
20年代,林徽因與冰心郊游的唯一合影,這是他們的真實容顏

20年代,林徽因與冰心郊游的唯一合影,這是他們的真實容顏

以茶帶書
2026-04-25 19:22:44
英如鏑直播怒斥巴圖:改名宋驍,半年不回私信想當大伯?

英如鏑直播怒斥巴圖:改名宋驍,半年不回私信想當大伯?

陳意小可愛
2026-05-12 09:28:38
不能再等了!克里姆林宮宣布:普京即將訪華!

不能再等了!克里姆林宮宣布:普京即將訪華!

阿龍聊軍事
2026-05-15 05:40:10
1962年朱德來到江西,得知昔日的女紅軍是農民,怒斥:簡直瞎胡鬧

1962年朱德來到江西,得知昔日的女紅軍是農民,怒斥:簡直瞎胡鬧

云霄紀史觀
2026-05-15 01:42:57
陳寶國自曝:拍大宅門時,何賽飛不問青紅皂白,直接給我一嘴巴子

陳寶國自曝:拍大宅門時,何賽飛不問青紅皂白,直接給我一嘴巴子

她時尚丫
2026-05-12 23:32:24
廣西:干得漂亮!搜救隊伍經過4天的持續搜救,終于在一雜草叢里找回失聯患病老人!

廣西:干得漂亮!搜救隊伍經過4天的持續搜救,終于在一雜草叢里找回失聯患病老人!

廣西活動
2026-05-14 19:10:01
聲稱繁華與科技都是“精心偽裝的假象”,美媒華裔記者再次秀下限

聲稱繁華與科技都是“精心偽裝的假象”,美媒華裔記者再次秀下限

南宗歷史
2026-05-15 02:44:33
狂人回歸?羅馬諾確認:合同薪資談妥,穆帥二進宮皇馬,只差一步

狂人回歸?羅馬諾確認:合同薪資談妥,穆帥二進宮皇馬,只差一步

阿晞體育
2026-05-14 08:14:24
曼聯目標徹底反轉!卡里克棄 1 億安德森,8000 萬鎖定這位超新星

曼聯目標徹底反轉!卡里克棄 1 億安德森,8000 萬鎖定這位超新星

奶蓋熊本熊
2026-05-15 05:47:21
鹿晗純黑寸頭炸上熱搜!刷新出道最短紀錄,五哈路透帥出新高度

鹿晗純黑寸頭炸上熱搜!刷新出道最短紀錄,五哈路透帥出新高度

橙星文娛
2026-05-14 20:09:57
爛場雨來了:今年最大范圍降雨將來,河南山東等警惕下過頭

爛場雨來了:今年最大范圍降雨將來,河南山東等警惕下過頭

中國氣象愛好者
2026-05-14 23:02:03
“莫奈紫”變“摸奶子”,OPPO呼吸都是錯的

“莫奈紫”變“摸奶子”,OPPO呼吸都是錯的

梳子姐
2026-05-13 19:46:10
姆巴佩:阿韋洛亞說我是隊內第四前鋒

姆巴佩:阿韋洛亞說我是隊內第四前鋒

懂球帝
2026-05-15 06:00:41
2026-05-15 06:24:49
AI科技大本營 incentive-icons
AI科技大本營
連接AI技術的創造者和使用者
2691文章數 7683關注度
往期回顧 全部

科技要聞

馬斯克說會談很順利 黃仁勛點贊 庫克比耶

頭條要聞

馬斯克幼子裝扮“火”了 衣服包包都是中國造

頭條要聞

馬斯克幼子裝扮“火”了 衣服包包都是中國造

體育要聞

爭議抽象天王山,和季后賽最穩定中鋒

娛樂要聞

何九華官宣當爸!全程不提孩子媽

財經要聞

李強會見美國工商界代表

汽車要聞

雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

態度原創

房產
本地
旅游
手機
軍事航空

房產要聞

海南樓市新政要出!擬調公積金貸款額度,最高可貸168萬!

本地新聞

用蘇繡的方式,打開江西婺源

旅游要聞

開屏時光機|四百年西山行:徐霞客的登臨之路與“六萬人同耍西山”

手機要聞

比上代多賣了七成!華為Pura 90系列越賣越猛,蘋果該緊張了

軍事要聞

美以伊戰爭期間以總理密訪阿聯酋

無障礙瀏覽 進入關懷版