无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

李飛飛長文拆解世界模型實現路徑

0
分享至


來源:https://news.sciencenet.cn/htmlnews/2026/6/565996.shtm

世界模型是自去年以來人工智能領域的熱詞,不僅備受追捧,且存在多種技術路線。作為世界模型的領軍人物之一,AI科學家李飛飛6月4日與其創辦的World Labs團隊在美國內容發布與訂閱平臺substack上發表題為《世界模型的功能分類:渲染器、模擬器、規劃器,以及連接它們的循環》的長文,試圖厘清2025年以來“世界模型”這個概念在使用上的混亂。


李飛飛發表在Substack平臺上的內容。來源:Substack

李飛飛表示,大語言模型讓機器學會了遣詞造句和邏輯推理,但物理世界運行的底層邏輯完全不同。語言模型學的是文本的統計規律,而世界模型學的是時空的統計規律,比如光怎么照在物體上、東西受力后怎么運動。

正因為涉及物理世界,計算機視覺、機器人、強化學習、生成式AI等領域都在用“世界模型”這個詞。一個能生成火焰視頻的模型、一個能憑空生成可玩游戲的語言模型、一個能精確模擬燃燒過程的物理引擎,現在都被叫作世界模型,但它們實際在做三件完全不同的事:渲染、模擬和規劃。其中,模擬器得到的公眾關注最少,卻可能是讓AI真正理解物理世界的基礎。

以下內容來自李飛飛及World Labs團隊(略有刪減)

世界模型的三種功能

第一種世界模型是渲染器。渲染器的任務是把信息轉成人眼能看的像素,唯一標準是視覺上夠不夠逼真。不管是輸入一句話就能生成航拍鏡頭的視頻模型,還是谷歌的Genie 3、World Labs自研的RTFM這種能根據用戶操作實時生成畫面的交互式系統,都屬于渲染器。這也是目前商業化跑得最快的方向,谷歌的相關模型已經通過手機應用送到了數億用戶手里。

但它只管“看起來像”,不管“實際上對不對”。例如AI生成的航拍鏡頭,從天上看城市建筑群完美無瑕;但如果想開車在街道里穿行,建筑物的結構就會暴露出各種錯誤,瞬間崩塌。

因為這類模型根本不掌握三維空間結構,只還原觀看者會看到的畫面,而非事物本身的真實構造。這種輸出再精美,也沒法拿來做建筑設計,或者訓練一個需要在真實環境里精準操作的工業機器人。

第二種是模擬器,負責輸出精確的物理數據。模擬器輸出的不是畫面,而是幾何數據、材質參數、碰撞網格這類信息。它追求的不是“看起來像”,而是結構上的正確。因為幾何要經得起測量,運動要遵守牛頓定律,動力學行為要符合物理法則。

這類模型同時服務兩類用戶:一是建筑師、設計師、影視和游戲開發者,他們需要的是超越視覺效果的精確數據;二是強化學習智能體、機器人控制器、自動駕駛算法這類程序,它們需要在一個安全的環境里大規模訓練,復現那些現實中太危險、太貴或者根本沒法實測的場景。

模擬器的市場很大,僅英偉達的Omniverse仿真平臺,瞄準的工廠、倉庫、數字孿生、供應鏈等市場,潛在規模就超過萬億美元。機器人訓練、自動駕駛測試、建筑可視化、工程設計、藥物發現,這些領域都需要某種形態的模擬技術。

但模擬器也最難做,挑戰來自好幾個方面。首先是數據。訓練模擬器需要帶有精確幾何和物理標注的三維數據,這種數據比訓練渲染器用的互聯網視頻稀缺好幾個數量級。

其次是偏差。仿真環境里物體的運動規律跟真實世界之間一直存在差距,這就是業內常說的“仿真到現實的鴻溝”。生成式AI還給模擬帶來了新問題,AI生成的幾何體可能看起來沒問題,但暗藏著面重疊、尺寸不對等缺陷,一旦送進物理引擎計算,結果就會變得荒謬。

此外還有計算成本的問題。同時模擬剛體、柔體、流體和織物相互作用,計算成本比單一領域的模擬高出好幾個數量級。

World Labs的Marble是這個方向的第一步產品。它接受文字、圖片或草圖輸入,生成可以自由漫游的3D環境,同時輸出兩套數據:用于視覺呈現的高斯潑濺數據和用于物理計算的碰撞網格。

第三種是規劃器,決定下一步要做什么。規劃器要解決的問題很具體,即給定當前的觀測和一個目標,下一步該做什么動作。那些機器人演示視頻,比如機械手抓取物品、機器狗越障,背后用的就是視覺-語言-動作模型等規劃器技術。

幾乎所有演示都局限于嚴格受控的實驗室環境,物體種類有限,任務周期很短。還沒有一個在真實部署所要求的復雜度、多樣性和長周期中被驗證過。從一段精彩的演示視頻,到能在廚房連續工作幾小時、在倉庫處理幾萬種不同貨品、在手術室穩定配合醫生的機器人,中間還有很長的路要走。

不過,資本已經在大量投入。一大波資金充裕的初創團隊在競相研發通用規劃系統,頭部科技公司也在把規劃能力架設在仿真底座上。邏輯便是能自主規劃動作的機器人,才是真正能落地干活的機器人。

三種技術正在走向融合

從功能邏輯上來看,渲染器與規劃器互為逆運算。渲染器輸入動作、輸出觀測畫面,規劃器輸入觀測、輸出動作,補齊感知與行動的閉環。而渲染器、模擬器和規劃器之間的關系,可以從一只杯子放在桌上的場景出發去理解。

一個模型如果真正理解了杯子的幾何形狀、材質、受力之后會怎么滑動或翻倒,那么從道理上講,它就應該能從任何角度渲染這只杯子,能模擬杯子被推倒的完整物理過程,也能規劃一只機械手去拿起來。三種能力共享的是同一套對物理世界的底層理解。

反過來則不成立:一個只會渲染畫面的模型,未必能推斷杯子被推倒后的運動軌跡;一個只會規劃動作的模型,也未必能還原杯子表面的光影變化。而模擬器所處理的幾何、物理和動力學這層,恰好就是三者共享的那個底層。

正因如此,模擬器被認為是連接渲染和規劃的樞紐。掌握了模擬,往上可以生成給人看的像素,往下可以生成給機器人執行的動作。

眼下這三條線已經開始合流。渲染器不再只是被動輸出畫面,開始能接收動作指令并做出實時反饋;模擬器生成的世界變得更可控、可編輯;規劃器也在從簡單的應激反應,轉向能夠審慎推理的主動決策。

這三條路線各自已經撐起百億美元級別的產業,現在正從獨立發展走向融合。邏輯上的終點是一個統一的世界基礎模型,能在“生成逼真畫面、產出物理上準確的場景、規劃行動序列”這三種模式之間靈活切換。

這背后是一個范式上的轉變。過去近十年,AI的核心敘事是預測下一個詞。但語言的邊界不是世界的邊界。空間智能學習的是光如何落在物體表面、物體如何遵守物理定律,這是完全不同的底層邏輯。

三者之間的邊界一旦消融,將共同重塑一個更宏大的命題:機器智能與它所棲居的物理世界之間的關系,這正是空間智能的漫長征程。

閱讀最新前沿科技趨勢報告,請訪問21世紀關鍵技術研究院的“未來知識庫”


未來知識庫是 “21世紀關鍵技術研究院”建 立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告

(加入未來知識庫,全部資料免費閱讀和下載)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中足聯官宣重磅罰單!52歲于根偉禁賽5場罰5萬 辱罵+率隊圍堵裁判

中足聯官宣重磅罰單!52歲于根偉禁賽5場罰5萬 辱罵+率隊圍堵裁判

我愛英超
2026-07-02 22:05:30
早上7點 世界杯14億大戰!C羅深陷20年魔咒 必有1巨星出局

早上7點 世界杯14億大戰!C羅深陷20年魔咒 必有1巨星出局

葉青足球世界
2026-07-02 17:12:02
一路走好!1天時間4位名人被曝去世,最大78歲,最小才30歲

一路走好!1天時間4位名人被曝去世,最大78歲,最小才30歲

借你一生
2026-07-02 10:26:03
成田機場的一張廣告牌,讓日本攝影師恍惚:“瞬間以為回到了中國”

成田機場的一張廣告牌,讓日本攝影師恍惚:“瞬間以為回到了中國”

東京在線
2026-07-02 16:57:07
里子面子都丟了!管不住下半身的任素汐,一場演唱會撕下她的體面

里子面子都丟了!管不住下半身的任素汐,一場演唱會撕下她的體面

往史過眼云煙
2026-07-02 09:55:26
首都保衛戰打響后,普京發表全國講話,俄羅斯對美西方發出通牒

首都保衛戰打響后,普京發表全國講話,俄羅斯對美西方發出通牒

策前論
2026-07-02 17:21:49
“一個月600塊你要餓死他?”大學男生吃飯被偷拍,看的人心疼!

“一個月600塊你要餓死他?”大學男生吃飯被偷拍,看的人心疼!

林林先生
2026-07-01 12:30:03
從699分到愛心接力:少年向上 社會向善丨中聽

從699分到愛心接力:少年向上 社會向善丨中聽

大象新聞
2026-07-01 16:30:12
六代機,就這么明晃晃的官宣了!

六代機,就這么明晃晃的官宣了!

新動察
2026-07-02 08:25:58
韓紅一句“走個面兒”引全網聲討,這屆觀眾不伺候了

韓紅一句“走個面兒”引全網聲討,這屆觀眾不伺候了

可達鴨面面觀
2026-07-02 19:44:03
曝38歲德國主帥下課 足協開會3小時要求他辭職 愿付700萬歐補償金

曝38歲德國主帥下課 足協開會3小時要求他辭職 愿付700萬歐補償金

我愛英超
2026-07-02 21:40:07
80%變0!里奇·保羅曝光詹姆斯離湖心路

80%變0!里奇·保羅曝光詹姆斯離湖心路

籃壇第一線
2026-07-02 00:47:17
地鐵吐血女孩半月內多次收到病危通知單,當事人:自己的生命已經進入倒計時,但還是希望能夠有人關注到自己手里仍在運行的公益項目

地鐵吐血女孩半月內多次收到病危通知單,當事人:自己的生命已經進入倒計時,但還是希望能夠有人關注到自己手里仍在運行的公益項目

瀟湘晨報
2026-07-02 16:32:20
賈玲直言自己又活過來了,大方承認體重反彈了,坦言不再逼自己極端自律,活得太通透了

賈玲直言自己又活過來了,大方承認體重反彈了,坦言不再逼自己極端自律,活得太通透了

背包旅行
2026-07-02 11:45:23
西安賽格墜樓熱搜刷屏:我看到謀生的嚴總,走上絕路時的無助

西安賽格墜樓熱搜刷屏:我看到謀生的嚴總,走上絕路時的無助

李晚書
2026-07-02 18:44:26
故意剝奪伊朗隊勝利!伊朗裔美國專家起訴國際足聯,索賠10億美元

故意剝奪伊朗隊勝利!伊朗裔美國專家起訴國際足聯,索賠10億美元

全景體育V
2026-07-02 21:38:20
成都一女子不洗手抱孫子,兒媳怒斥不衛生,兒子一拳打面中,母親揚言要兒子坐牢,兒子卻說:她活該!6年后現狀曝光...

成都一女子不洗手抱孫子,兒媳怒斥不衛生,兒子一拳打面中,母親揚言要兒子坐牢,兒子卻說:她活該!6年后現狀曝光...

背包旅行
2026-07-02 14:33:11
中國臺灣演員陳昊森承認與湖北女演員蘭西雅相戀,目前已交往超過半年,兩人曾合作電影

中國臺灣演員陳昊森承認與湖北女演員蘭西雅相戀,目前已交往超過半年,兩人曾合作電影

極目新聞
2026-07-02 22:47:55
加息,突變!美國重磅數據出爐!美股、黃金、比特幣全線拉升

加息,突變!美國重磅數據出爐!美股、黃金、比特幣全線拉升

證券時報
2026-07-02 21:53:03
扎哈羅娃:馮德萊恩是個“出色的騙子”

扎哈羅娃:馮德萊恩是個“出色的騙子”

參考消息
2026-07-02 14:14:08
2026-07-03 02:28:49
人工智能學家 incentive-icons
人工智能學家
人工智能領域權威媒體
4864文章數 37483關注度
往期回顧 全部

科技要聞

馬斯克不承認,但SpaceX就該造AI手機

頭條要聞

商戶在西安賽格商場墜亡 好友:他曾變賣門店發工資

頭條要聞

商戶在西安賽格商場墜亡 好友:他曾變賣門店發工資

體育要聞

韓國人,為什么恨透了洪明甫?

娛樂要聞

眾星祝福祖國,曾沛慈原形畢露?

財經要聞

千億茶市場無贏家:瀾滄巨虧 八馬停"蹄"

汽車要聞

有純電有增程 還有二代VLA支持 小鵬MONA L03預售價14.38萬起

態度原創

教育
數碼
旅游
時尚
家居

教育要聞

初二期末只在校內第120名、第125名,四年后在全省站到了狀元榜眼

數碼要聞

卓威同步發布XQ2766X顯示器:27" QHD 360Hz TN

旅游要聞

135公里鐵絲網圍泰山,論證過必要性了嗎

這個夏天,你一定吃過她們的瓜

家居要聞

傳奇筑 日常詩

無障礙瀏覽 進入關懷版