網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

從ChatGPT到世界模型：李飛飛一天三篇論文，AI下半場開始了

AI模型開始有“國界”了

2026-06-13 22:17:02　來源: 科學伙伴

北京舉報

分享至

No.0313

Science Partner

Bring you to the side of science

導讀

6月11日，李飛飛的World Labs在同一天悄悄上傳了三篇技術論文到arXiv。沒有發(fā)布會，沒有CEO直播，沒有吊足胃口的預熱推文。三篇論文、代碼鏈接、項目主頁、Demo全部附上。

熟悉AI圈節(jié)奏的人會意識到這意味著什么：這家公司要出那口憋了快兩年的氣。

三篇論文的主題分別是深度感知與圖像生成的統(tǒng)一、3D場景的可見域外幾何預測、以及人體動態(tài)的4D重建，覆蓋了空間智能這個賽道從底層表示到高層應用的三個關鍵環(huán)節(jié)。也讓我們管窺到世界模式是什么，也知道這件事有多難。

走，跟伙伴君來！

今日主筆 | 恒意

從ChatGPT到世界模型：李飛飛一天三篇論文，AI下半場開始了

01. 一場被很多人低估的路線之爭

要理解這三篇論文的意義，得先弄清楚一個問題：大語言模型（LLM）和世界模型（World Model），到底在爭什么？

過去三年，ChatGPT的成功讓“下一個詞預測”這件事變成了全球最熱門的投資主題。訓練數(shù)據(jù)更多、參數(shù)更大、算力更強，模型就越聰明。這套邏輯驅(qū)動了數(shù)千億美元的資本流向，也主導了整個AI行業(yè)的技術路線。

但“邪路”從2024年底就已經(jīng)出現(xiàn)了。

OpenAI的聯(lián)合創(chuàng)始人之一Ilya Sutskever在2024年12月的NeurIPS年會上領了一個“時間考驗獎”，上臺發(fā)言時說了一句被廣泛截圖的話“我們所知道的預訓練將會終結(jié)”。他把互聯(lián)網(wǎng)比作AI的石燃料，警告這種資源是有限的。這位親手參與建造大語言模型體系的人，給自己的路線判了一個有條件的死刑。

Yann LeCun比Ilya早說了好幾年，炮火也猛烈的多得多。這位2018年與Hinton、Bengio共享圖靈獎的得主（三人后來撕了），在Meta擔任首席AI科學家超過十二年，期間反復在公開場合宣稱：大語言模型永遠無法實現(xiàn)人類水平的推理，因為它們?nèi)鄙僖粋€對世界的內(nèi)在模型。2025年11月，他宣布離開Meta，2025年12月正式確認創(chuàng)立AMI Labs（Advanced Machine Intelligence），目標只有一個：訓練世界模型。

雖然方向相同，但李飛飛給出的是另一種表述。她在2026年6月3日那篇長文里寫道：大語言模型學的是文本的統(tǒng)計規(guī)律，而世界模型學的是時空的統(tǒng)計規(guī)律，光怎么照在物體上，東西受力后怎么運動，空間里的遮擋關系如何變化。一個從未見過物理世界的系統(tǒng)，對“蘋果從樹上掉下來”的理解，永遠只是一組詞與詞之間的條件概率。

說白了，這是一場關于AI的下一步到底是什么的根本性分歧。

02. 數(shù)據(jù)墻有多真實

批評LLM路線的人，最常拿出來說的論據(jù)是數(shù)據(jù)墻（Data Wall）。

這個概念的核心邏輯并不復雜：互聯(lián)網(wǎng)上的高質(zhì)量文本數(shù)據(jù)是有限的。Forbes在2026年3月的分析指出，某些研究機構(gòu)預測，可公開獲取的高質(zhì)量文本數(shù)據(jù)最早可能在2029年前耗盡，這一拐點正在加速逼近。AI公司的應對方案是合成數(shù)據(jù)，即用AI自己生成訓練數(shù)據(jù)再喂給自己。但Forbes的分析直白地說，這時候真正稀缺的是人類無法被合成替代的高信號數(shù)據(jù)：合成數(shù)據(jù)可以量產(chǎn)，但它無法復現(xiàn)人類思維中那些罕見、獨特、有創(chuàng)造性的邊緣樣本，模型反復在自我生成的數(shù)據(jù)上訓練，最終會退化成對均值的模糊近似。

世界模型這條路的回答是：繞開文本數(shù)據(jù)的瓶頸，從視覺、空間、物理交互中學習。三維世界的信息密度遠高于文字，而且不會枯竭。

現(xiàn)實世界永遠在產(chǎn)生新的數(shù)據(jù)。

TechCrunch在2026年5月的一篇報道里揭示了這條邏輯鏈的商業(yè)延伸：一家叫Origin Lab的初創(chuàng)公司剛剛完成800萬美元融資，專門幫電子游戲公司把游戲資產(chǎn)轉(zhuǎn)化成世界模型訓練數(shù)據(jù)，客戶直接鎖定的就是AMI Labs和World Labs。數(shù)據(jù)稀缺的問題，整個行業(yè)都感受到了。

03. 三篇文章看World Labs在賭什么

從外部能觀察到的動作來看，World Labs的打法相當激進。

這家公司2024年9月從隱身狀態(tài)現(xiàn)身，融了2.3億美元。2026年2月18日，它宣布完成10億美元融資，投資方包括NVIDIA、AMD、Autodesk，其中Autodesk單筆投入2億美元，并拿下了一個戰(zhàn)略顧問席位。彭博此前報道該輪估值約為50億美元。從隱身到估值50億美元，不到18個月。

2026年4月，World Labs入選Forbes年度AI 50榜單，被定位為空間智能賽道的奠基型公司。

這周的三篇論文，本質(zhì)上是在給World Labs的產(chǎn)品Marble補技術底座。Marble是2025年11月上線的第一款商業(yè)產(chǎn)品，核心是從文字、圖像或視頻生成可導航的三維世界，定價從免費到95美元/月四個檔位。咱們就看看，這三篇都說了啥：

第一篇：Modality Forcing

解決的是“如何用同一個模型同時學會看圖和估深度的問題，即把圖像和深度信息統(tǒng)一到一個Diffusion Transformer（DiT）里訓練，僅用稀疏的深度數(shù)據(jù)就讓模型學會幾何感知。關鍵數(shù)據(jù)：深度估計誤差（AbsRel指標）比現(xiàn)有同類方法降低57%；從3.7億參數(shù)擴展到33億參數(shù)時性能持續(xù)提升，說明這條路線有效的Scaling性質(zhì)。

第二篇：World Tracing

傳統(tǒng)的3D重建只能重建相機能看到的部分，如被遮擋的物體背面、桌子底下的地板，全是盲區(qū)。World Tracing為每一個輸入像素預測一個“有序3D點堆棧”，第一層是可見表面，后續(xù)層是被遮擋的幾何面，讓模型能夠“猜”出視野之外的世界結(jié)構(gòu)。這篇論文在arXiv上直接標注為World Labs Technical Report（技術公告）。

第三篇：Flex4DHuman

把一段普通的單目視頻里的人物，變成可以從任意角度觀看的4D高斯?jié)姙R（4D Gaussian Splats）。不需要骨骼數(shù)據(jù)、不需要深度圖，只需要相對相機位姿。怎么樣，這個能力對游戲、AR/VR、影視制作的意義不言而喻了吧。

04. LeCun和李飛飛的路線是兩回事

雖然都是做世界模型，大家也經(jīng)常將Yan LeCun和李飛飛并提，但其實，有一個細節(jié)容易被忽略：他們走的其實不是同一條路，甚至在某些技術假設上是對立的。

LeCun主推的是聯(lián)合嵌入預測架構(gòu)（Joint Embedding Predictive Architecture，JEPA）。2026年2月4日，他在蒙特利爾MILA研究院舉辦的世界建模研討會上做了一場主題演講，題目直接叫“為什么世界模型需要用JEPA，而不是生成式架構(gòu)”。JEPA的邏輯是：不生成原始圖像或視頻，只在壓縮的抽象表示空間里做預測，避開高維感官數(shù)據(jù)的噪聲問題。LeCun認為生成每一個像素是浪費，世界模型應該學的是抽象的因果結(jié)構(gòu)，而不是表象的視覺細節(jié)，感覺他讀了經(jīng)書有沒有，LoL。

2026年3月，AMI Labs宣布完成10.3億美元融資，估值35億美元，創(chuàng)下歐洲史上最大種子輪紀錄。機構(gòu)投資方包括Cathay Innovation、Greycroft等五家，天使投資人名單里有Tim Berners-Lee、Mark Cuban和Eric Schmidt。

World Labs走的則是生成式路線。這周三篇論文核心也都是生成。李飛飛在6月3日那篇分類文章里明確寫道，能夠生成符合物理規(guī)律的世界，是世界模型區(qū)別于其他AI系統(tǒng)的首要標志。

這兩條細分路線誰對誰錯，現(xiàn)在下結(jié)論還太早。但這個分歧本身很有意思：兩個都在批評LLM的人，但對于接下來該怎么做的答案，是相當不一樣的。

05. 這對真實世界意味著什么

如果用最簡單的話來說，大語言模型改變了我們和信息打交道的方式，世界模型要改變的是機器和物理世界打交道的方式。

這不是一個抽象的哲學問題。機器人、自動駕駛、工業(yè)自動化、AR/VR內(nèi)容生成，這些領域的瓶頸，幾乎無一例外是機器無法理解三維空間和物理規(guī)律，而不是機器不夠會說話。Forbes在2026年1月指出，AI的下一階段正在向“從自身感知和經(jīng)驗中學習的系統(tǒng)”傾斜，這描述的正是世界模型的基本工作邏輯。

World Labs這三篇論文，技術細節(jié)扎實，工程取向明確，沒有Anthropic和OpenAI那種顛覆一切的宏大敘事。但恰恰是這種低調(diào)，是不是反而成了判斷一個技術團隊是否真的在做事的正向信號？

當然，回到最開始”世界模型最終能不能打敗大語言模型“？其實這個問題本身就問錯了。更可能的結(jié)局是：LLM負責語言和推理，世界模型負責感知和空間，兩者協(xié)同，共同構(gòu)成下一代AI的骨架。

伙伴，你怎么看這個事兒？歡迎后臺私信留言～

本文僅作科普分享使用，歡迎小伙伴們點、收藏、關注，以備不時之需，當然更歡迎您把介紹給周邊可能需要的更多伙伴們呀。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.