![]()
新智元報道
![]()
【新智元導讀】大模型靠預測下一個詞讀懂語言,世界模型靠預測下一幀讀懂世界。最近,一家中國公司剛過港交所聆訊,物理AI的「GPT時刻」要來了。
物理AI過臨界點了!
6月1日,NVIDIA開源Cosmos 3。
6月13日,Tesla推送FSD V14.3.4。
6月18日,一家估值超千億的中國公司通過了港交所聆訊。中國跑城區領航輔助駕駛的車,65%用的是它的方案。量產車超90萬輛,全球前十大車企九家是客戶。
大語言模型靠預測下一個詞理解了語言,由此開啟了數字AI的萬億美元市場。
這家公司也在用世界模型做著同樣的事:靠預測下一幀理解世界,重寫自動駕駛的底座。只不過這一次,AI要理解的不是語言,是整個物理世界。
自動駕駛的世界模型時刻
過去十年,自動駕駛的主流做法叫模仿學習:錄人類老司機怎么開車,讓AI照著學。數據越多,學得越好。
但模仿學習有天花板,而且天花板很低——就是人類本身。
它只能學到「做了什么」,學不到「為什么這么做」。
人在路口減速,不是執行了一條規則,是對物理世界有直覺。兩噸重的鐵在濕路面上剎不住意味著什么,低頭看手機的行人下一步往哪走。
模仿學習學的是動作,不是因果。
但AI有個規律,一旦接近人類水平,就會在很短時間內大幅超越。AlphaGo如此,人臉識別如此。前提是,方法得對。
自動駕駛的方法,就是世界模型。
![]()
2026年,世界模型突然成了全球AI最熱的賽道。
楊立昆離開Meta創辦AMI Labs,3月拿下10.3億美元種子輪押注JEPA架構,公開喊話「大語言模型是死胡同」。
李飛飛的World Labs 2月融資10億美元,估值50億,NVIDIA和AMD都投了。
谷歌在I/O大會上發布Gemini Omni,第一次把世界模型做進了Gemini體系。
路線不同,共識一致:大語言模型不夠了,AI必須理解物理世界。
![]()
往大了說,世界模型在物理AI里的位置,相當于大語言模型在數字AI里的位置。一個靠預測下一個詞壓縮語言常識,一個靠預測下一幀壓縮物理規律。
數字AI的底座已經催生了萬億美元市場,物理AI的底座剛剛開始。而自動駕駛是這個基座最先落地的場景。
但研究是一回事,量產是另一回事。
楊立昆自己說AMI Labs可能需要五年才出產品。李飛飛的World Labs剛發布首款商用產品Marble,切入3D世界生成.
Tesla的FSD V14在端到端上走得最快,但它是封閉系統,只服務自家車型,技術不向行業開放。
開放陣營里,粗略分兩層:底層是NVIDIA這樣的訓練基礎設施,上層是量產級的車端部署方案。
真正把世界模型做到量產上車的公司中,就有這樣一家中國公司Momenta。
今年4月,他們正式交付了最新的R7世界模型。
![]()
具體來說,R7的架構可以分為三層:
第一層,預訓練。
乘用車量產車隊積累的90萬輛、超100億公里實車里程,提煉1億段黃金數據,學物理世界的底層規律。物體有質量有慣性,前車急剎后車追尾,行人加速闖入車道。
第二層,仿真。
真實道路上極端場景太稀疏,十萬公里才遇一次鬼探頭。
世界模型理解物理規律之后能自己「想象」——用真實數據生成虛擬世界,拿實車和仿真的一致性做校準,直接縮小仿真與真實之間的差距。效率比實車路測高出上萬倍。
第三層,強化學習。
在仿真出的極端場景里反復試錯,獎懲驅動自主進化。不再模仿人的動作,而是在物理約束下找最優解。
![]()
一套模型,吃下千億賽道
不過,如果世界模型只是「讓輔助駕駛更好用」,故事到這里就講完了。
但過去幾年,自動駕駛行業學到了一個殘酷的教訓:單一場景燒不出未來。
Argo AI被福特和大眾聯手放棄,Cruise大幅縮減運營。純做Robotaxi的公司,數據靠自有小車隊采集,成本高、規模小、商業化遙遙無期。
行業開始意識到,能活下來的公司必須同時解決兩個問題:數據從哪來,錢從哪來。
而世界模型打開了一條新路。
它學的不是某種車型的駕駛習慣,是慣性、運動、因果這些通用規律。轎車里學到的物理常識,放到卡車上成立,物流車也一樣。
Momenta的All-in-One平臺就建在這個邏輯上:一套底座,四個場景——乘用車L2++、Robotaxi、Robovan、Robotruck。
![]()
核心技術能復用,意味著場景越多,數據交叉越密。
乘用車的日常里程喂給Robotaxi的世界模型,Robotaxi遇到的極端場景反過來提升乘用車的安全性。
量產車隊每天產生真實駕駛數據,灌進世界模型做預訓練;模型進化了,再通過OTA推回車端。
更好的產品拉來更多OEM客戶,更多客戶帶來更大的車隊,更大的車隊又反哺數據。
現在,Momenta已經把這個循環轉了起來——不僅許可收入三年翻了42倍,甚至七家互為競爭對手的車企都同時做了它的股東。
![]()
這背后是一個正在發生的行業轉向:智駕研發成本太高、迭代太快,多數OEM已經從自研轉向外采,問題只剩下選誰。
據CIC灼識咨詢,量產智駕加上Robotaxi、Robovan、Robotruck,2030年全球總盤子超5000億美元。
物理世界的Anthropic?
5000億美元的市場,飛輪一旦轉起來,后來者連門都進不了。最終大概率只剩3到4家贏家。
Momenta要占哪個位置,取決于它像誰。
數字AI的格局花了三年定型。OpenAI、Anthropic、谷歌各據一方。
在這之中,Anthropic不是最早做大模型的,參數量也不是最大的。但它做對了一件事:找到編程這個價值密度最高、反饋最快的場景,All-in。
Claude Code上線不到一年,ARR突破25億美元,Anthropic整體ARR從不到10億飆到超300億。站穩之后,再切金融、醫療、企業服務。
![]()
為什么是編程?因為代碼有明確的對錯標準,反饋循環最快,付費意愿最強。
自動駕駛在物理AI里扮演的角色幾乎一樣。明確的安全指標做驗證標準,海量實時數據做反饋循環,OEM量產做商業閉環。
Momenta的路徑幾乎是Anthropic的鏡像——先在自動駕駛站穩,再把能力復制到更廣闊的物理世界。
技術底層:一個有Claude基座模型理解語言邏輯,一個有R7世界模型理解物理因果。
商業驗證:Anthropic靠編程場景率先跑通現金流,Momenta靠量產率先跑通數據閉環。
泛化路徑:Anthropic從代碼切入金融、醫療、法律,Momenta從乘用車延伸到無人出租、物流、干線。
終局形態:都不是垂直供應商,是平臺。
不同的是壁壘。
Anthropic是純軟件公司,Momenta的模型從第一天就長在硬件上——量產車是數據入口,OEM關系是護城河,OTA是迭代通道。軟硬一體,比純API更厚。
當然,自動駕駛的安全驗證沒有代碼的「單元測試」那么絕對。
但正因如此,數據規模的意義更加關鍵:只有足夠多的真實里程,才能讓概率收斂。
Momenta的90萬輛車,正是在做這件事。
![]()
如今,數字AI已經卷成紅海,物理AI才剛剛開場。
而物理世界,很可能是比數字世界大得多的那一半。
當世界模型成為基座,當Momenta帶著R7敲響港交所的鐘聲,物理AI大規模量產的序幕,真正的「GPT時刻」或許不再遙遠。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.