No.0313
Science Partner
Bring you to the side of science
![]()
導 讀
6月11日,李飛飛的World Labs在同一天悄悄上傳了三篇技術論文到arXiv。沒有發(fā)布會,沒有CEO直播,沒有吊足胃口的預熱推文。三篇論文、代碼鏈接、項目主頁、Demo全部附上。
熟悉AI圈節(jié)奏的人會意識到這意味著什么:這家公司要出那口憋了快兩年的氣。
三篇論文的主題分別是深度感知與圖像生成的統(tǒng)一、3D場景的可見域外幾何預測、以及人體動態(tài)的4D重建,覆蓋了空間智能這個賽道從底層表示到高層應用的三個關鍵環(huán)節(jié)。也讓我們管窺到世界模式是什么,也知道這件事有多難。
走,跟伙伴君來!
今日主筆 | 恒意
從ChatGPT到世界模型:李飛飛一天三篇論文,AI下半場開始了
01. 一場被很多人低估的路線之爭
要理解這三篇論文的意義,得先弄清楚一個問題:大語言模型(LLM)和世界模型(World Model),到底在爭什么?
過去三年,ChatGPT的成功讓“下一個詞預測”這件事變成了全球最熱門的投資主題。訓練數(shù)據(jù)更多、參數(shù)更大、算力更強,模型就越聰明。這套邏輯驅(qū)動了數(shù)千億美元的資本流向,也主導了整個AI行業(yè)的技術路線。
但“邪路”從2024年底就已經(jīng)出現(xiàn)了。
OpenAI的聯(lián)合創(chuàng)始人之一Ilya Sutskever在2024年12月的NeurIPS年會上領了一個“時間考驗獎”,上臺發(fā)言時說了一句被廣泛截圖的話“我們所知道的預訓練將會終結(jié)”。他把互聯(lián)網(wǎng)比作AI的石燃料,警告這種資源是有限的。這位親手參與建造大語言模型體系的人,給自己的路線判了一個有條件的死刑。
Yann LeCun比Ilya早說了好幾年,炮火也猛烈的多得多。這位2018年與Hinton、Bengio共享圖靈獎的得主(三人后來撕了),在Meta擔任首席AI科學家超過十二年,期間反復在公開場合宣稱:大語言模型永遠無法實現(xiàn)人類水平的推理,因為它們?nèi)鄙僖粋€對世界的內(nèi)在模型。2025年11月,他宣布離開Meta,2025年12月正式確認創(chuàng)立AMI Labs(Advanced Machine Intelligence),目標只有一個:訓練世界模型。
雖然方向相同,但李飛飛給出的是另一種表述。她在2026年6月3日那篇長文里寫道:大語言模型學的是文本的統(tǒng)計規(guī)律,而世界模型學的是時空的統(tǒng)計規(guī)律,光怎么照在物體上,東西受力后怎么運動,空間里的遮擋關系如何變化。一個從未見過物理世界的系統(tǒng),對“蘋果從樹上掉下來”的理解,永遠只是一組詞與詞之間的條件概率。
說白了,這是一場關于AI的下一步到底是什么的根本性分歧。
02. 數(shù)據(jù)墻有多真實
批評LLM路線的人,最常拿出來說的論據(jù)是數(shù)據(jù)墻(Data Wall)。
這個概念的核心邏輯并不復雜:互聯(lián)網(wǎng)上的高質(zhì)量文本數(shù)據(jù)是有限的。Forbes在2026年3月的分析指出,某些研究機構(gòu)預測,可公開獲取的高質(zhì)量文本數(shù)據(jù)最早可能在2029年前耗盡,這一拐點正在加速逼近。AI公司的應對方案是合成數(shù)據(jù),即用AI自己生成訓練數(shù)據(jù)再喂給自己。但Forbes的分析直白地說,這時候真正稀缺的是人類無法被合成替代的高信號數(shù)據(jù):合成數(shù)據(jù)可以量產(chǎn),但它無法復現(xiàn)人類思維中那些罕見、獨特、有創(chuàng)造性的邊緣樣本,模型反復在自我生成的數(shù)據(jù)上訓練,最終會退化成對均值的模糊近似。
世界模型這條路的回答是:繞開文本數(shù)據(jù)的瓶頸,從視覺、空間、物理交互中學習。三維世界的信息密度遠高于文字,而且不會枯竭。
現(xiàn)實世界永遠在產(chǎn)生新的數(shù)據(jù)。
TechCrunch在2026年5月的一篇報道里揭示了這條邏輯鏈的商業(yè)延伸:一家叫Origin Lab的初創(chuàng)公司剛剛完成800萬美元融資,專門幫電子游戲公司把游戲資產(chǎn)轉(zhuǎn)化成世界模型訓練數(shù)據(jù),客戶直接鎖定的就是AMI Labs和World Labs。數(shù)據(jù)稀缺的問題,整個行業(yè)都感受到了。
03. 三篇文章看World Labs在賭什么
從外部能觀察到的動作來看,World Labs的打法相當激進。
這家公司2024年9月從隱身狀態(tài)現(xiàn)身,融了2.3億美元。2026年2月18日,它宣布完成10億美元融資,投資方包括NVIDIA、AMD、Autodesk,其中Autodesk單筆投入2億美元,并拿下了一個戰(zhàn)略顧問席位。彭博此前報道該輪估值約為50億美元。從隱身到估值50億美元,不到18個月。
2026年4月,World Labs入選Forbes年度AI 50榜單,被定位為空間智能賽道的奠基型公司。
這周的三篇論文,本質(zhì)上是在給World Labs的產(chǎn)品Marble補技術底座。Marble是2025年11月上線的第一款商業(yè)產(chǎn)品,核心是從文字、圖像或視頻生成可導航的三維世界,定價從免費到95美元/月四個檔位。咱們就看看,這三篇都說了啥:
第一篇:Modality Forcing
解決的是“如何用同一個模型同時學會看圖和估深度的問題,即把圖像和深度信息統(tǒng)一到一個Diffusion Transformer(DiT)里訓練,僅用稀疏的深度數(shù)據(jù)就讓模型學會幾何感知。關鍵數(shù)據(jù):深度估計誤差(AbsRel指標)比現(xiàn)有同類方法降低57%;從3.7億參數(shù)擴展到33億參數(shù)時性能持續(xù)提升,說明這條路線有效的Scaling性質(zhì)。
第二篇:World Tracing
傳統(tǒng)的3D重建只能重建相機能看到的部分,如被遮擋的物體背面、桌子底下的地板,全是盲區(qū)。World Tracing為每一個輸入像素預測一個“有序3D點堆棧”,第一層是可見表面,后續(xù)層是被遮擋的幾何面,讓模型能夠“猜”出視野之外的世界結(jié)構(gòu)。這篇論文在arXiv上直接標注為World Labs Technical Report(技術公告)。
第三篇:Flex4DHuman
把一段普通的單目視頻里的人物,變成可以從任意角度觀看的4D高斯?jié)姙R(4D Gaussian Splats)。不需要骨骼數(shù)據(jù)、不需要深度圖,只需要相對相機位姿。怎么樣,這個能力對游戲、AR/VR、影視制作的意義不言而喻了吧。
04. LeCun和李飛飛的路線是兩回事
雖然都是做世界模型,大家也經(jīng)常將Yan LeCun和李飛飛并提,但其實,有一個細節(jié)容易被忽略:他們走的其實不是同一條路,甚至在某些技術假設上是對立的。
LeCun主推的是聯(lián)合嵌入預測架構(gòu)(Joint Embedding Predictive Architecture,JEPA)。2026年2月4日,他在蒙特利爾MILA研究院舉辦的世界建模研討會上做了一場主題演講,題目直接叫“為什么世界模型需要用JEPA,而不是生成式架構(gòu)”。JEPA的邏輯是:不生成原始圖像或視頻,只在壓縮的抽象表示空間里做預測,避開高維感官數(shù)據(jù)的噪聲問題。LeCun認為生成每一個像素是浪費,世界模型應該學的是抽象的因果結(jié)構(gòu),而不是表象的視覺細節(jié),感覺他讀了經(jīng)書有沒有,LoL。
2026年3月,AMI Labs宣布完成10.3億美元融資,估值35億美元,創(chuàng)下歐洲史上最大種子輪紀錄。機構(gòu)投資方包括Cathay Innovation、Greycroft等五家,天使投資人名單里有Tim Berners-Lee、Mark Cuban和Eric Schmidt。
World Labs走的則是生成式路線。這周三篇論文核心也都是生成。李飛飛在6月3日那篇分類文章里明確寫道,能夠生成符合物理規(guī)律的世界,是世界模型區(qū)別于其他AI系統(tǒng)的首要標志。
這兩條細分路線誰對誰錯,現(xiàn)在下結(jié)論還太早。但這個分歧本身很有意思:兩個都在批評LLM的人,但對于接下來該怎么做的答案,是相當不一樣的。
05. 這對真實世界意味著什么
如果用最簡單的話來說,大語言模型改變了我們和信息打交道的方式,世界模型要改變的是機器和物理世界打交道的方式。
這不是一個抽象的哲學問題。機器人、自動駕駛、工業(yè)自動化、AR/VR內(nèi)容生成,這些領域的瓶頸,幾乎無一例外是機器無法理解三維空間和物理規(guī)律,而不是機器不夠會說話。Forbes在2026年1月指出,AI的下一階段正在向“從自身感知和經(jīng)驗中學習的系統(tǒng)”傾斜,這描述的正是世界模型的基本工作邏輯。
World Labs這三篇論文,技術細節(jié)扎實,工程取向明確,沒有Anthropic和OpenAI那種顛覆一切的宏大敘事。但恰恰是這種低調(diào),是不是反而成了判斷一個技術團隊是否真的在做事的正向信號?
當然,回到最開始”世界模型最終能不能打敗大語言模型“?其實這個問題本身就問錯了。更可能的結(jié)局是:LLM負責語言和推理,世界模型負責感知和空間,兩者協(xié)同,共同構(gòu)成下一代AI的骨架。
伙伴,你怎么看這個事兒?歡迎后臺私信留言~
![]()
本文僅作科普分享使用,歡迎小伙伴們點、收藏、關注,以備不時之需,當然更歡迎您把 介紹給周邊可能需要的更多伙伴們呀。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.