文|王毓嬋
編輯|張雨忻
2026 年以來,一級市場對世界模型的搶籌進入白熱化階段。資金不再像早期那樣“廣撒網”,而是高度向頭部玩家集中。這其中,逆矩陣科技(Physis)就接連完成了多輪融資。
36氪智能涌現獨家據悉,世界模型公司逆矩陣科技已完成超億美元種子++輪融資;此前的 3 月,剛完成了超千萬美元首輪融資。本輪由經緯創投、五源資本、光合創投等機構共同參與,并獲螞蟻集團戰略投資,老股東高瓴創投、燕緣創投持續加注。
在本輪融資落定前后,逆矩陣發布了通用世界基座模型Physis-v0.1,并將其概括為“One For All”的通用物理世界應用。該模型主打物理正確、長程一致、動作因果、通用泛化四項能力,一次預訓練即可服務具身智能、工業仿真、游戲物理、科學預測等多類場景。
逆矩陣計劃于 2026 年底發布旗艦模型,過程中將放出開源切片和技術報告。本輪資金將主要用于通用世界基座模型的預訓練研發、規模化訓練體系建設。
團隊由北大青年學者陳博遠、吉嘉銘聯合創立,一半是青年學者(含奧賽金牌、省市狀元與多位頂會論文作者),一半是來自一線科技企業的資深工程人才。他們組成了一個 AI-native 的扁平化團隊,沒有層級匯報與季度指標,靠技術判斷而非行政命令對齊方向;信奉自由探索、第一性原理與長期主義。
智能涌現在新一輪融資敲定之際,獨家采訪了陳博遠。他回答了關于組織架構、融資節奏、技術路線、行業判斷和場景落地等多個問題。
“行業內目前的共識是,18~24個月內,世界基座模型能力會出現標志性的階躍,36個月內,能在多個真實場景完成實際應用落地。”陳博遠說。“這與語言模型從 GPT-3 到 ChatGPT 的路徑高度吻合。”
以下是智能涌現與陳博遠的對話實錄:
通用世界基座模型的窗口期正在從三年壓縮到十八個月
Q1:恭喜逆矩陣完成新一輪超億美元量級的融資。距離上一輪融資僅僅過去不到兩個月,為什么能保持這么快的融資節奏?
陳博遠:這背后反映了投資人對 AI 發展第三次范式躍遷的押注。
過去十年,AI 經歷了語言模型(預測下一個詞)和視覺生成模型(預測下一幀)兩次躍遷,分別催生了平臺級公司。現在的第三次躍遷是由 AI 從虛擬世界走向物理世界帶來的,核心是面向物理空間“預測下一個物理狀態”。
這套“給定當前狀態與動作,預測世界如何演化”的范式,曾在 AlphaGo、機器人控制等子問題中出現過,如今正在收斂為同一套解法框架。但物理世界與虛擬世界的根本區別在于,物理世界是“部分可觀測”的,模型不能只停留在“看到什么做什么”,必須理解底層的物理約束。
投資人愿意快速跟進并追加投資,主要基于兩點判斷:
一是“底層統一建模物理規律,上層按需適配不同場景”的基座模型路徑正在成為行業共識;
二是通用世界基座模型的窗口期正在從三年壓縮到十八個月,做通用預訓練的團隊會擁有更大的空間。一個領先的通用基座具有數據scaling和算法有效性,會構成難以被追趕的壁壘。
Q2:在融資過程中,投資人問得最多的問題是什么?大家對技術走向落地的時間周期有怎樣的共識?
陳博遠:問得最密集的是:“憑什么相信通用世界基座模型能做成?”以及“團隊是否在堅定地做基座模型?”
在我們看來,能不能稱之為基座模型,關鍵在于是否真正從物理預測這個目標出發去構建。于是我們從零開始解決物理預測目標,自研底層架構,并在訓練分布外看到了合理的物理推演曙光。
逆矩陣的內部實驗表明,隨著數據和參數規模增加,狀態預測誤差持續下降,呈現出類似大語言模型的指數級 Scaling 潛力,而未出現垂類模型的飽和拐點。
關于落地周期,共識是 18~24個月內基座模型能力會出現標志性的階躍,并在真實需求上取得高分;36個月內能在多個真實場景完成實際應用落地。這與語言模型從 GPT-3 到 ChatGPT 的路徑高度吻合。屆時,各個垂類場景將直接成為基座模型 API 的調用者,形成類似 AWS 與 SaaS 的關系。
Q3:為什么沒有在當下引入產業基金投資?
陳博遠:現階段我們最需要的是把"彈藥"集中到一個方向,去攻克通用世界基座模型的研發與算力門檻。這是一件需要長期、專注投入的事。
我們現在不急于做商業化,這是我們在這個階段做出的價值判斷。對一家做通用基座的公司來說,過早把模型綁定到某個垂直場景去變現,看上去摘到了眼前的果實,實際上是給自己畫了一道邊界:一旦圍繞單一場景去采數據、調模型、做交付,就會逐漸退化成"一個場景、一套模型"。
我們相信物理規律的通用解是存在的,重力、碰撞、摩擦等等在任何場景里都是同一套規律。基座的價值在于跨場景復用。所以我們不急于變現,并不意味著不重視商業化。我們看重商業化,但現階段更愿意先把基座的物理理解能力打扎實;商業化的節奏,會隨著技術成熟和真實產業需求自然展開。
能力先于商業動作,組織風格保持克制。投資人最終愿意為可重復、可擴張的能力買單,而把這個能力打扎實,是我們當下唯一該做的事。
Q4:你也是智源行為世界模型創新中心的負責人,逆矩陣和智源研究院之間有關聯嗎?
陳博遠:智源研究院一直定位在 AI 領域從 0 到 1 的原始創新,逆矩陣本身更加聚焦于通用世界基座模型的底層探索和商業技術開發。兩者都在逼近同一個目標——讓人工智能真正理解物理規律。
最關鍵的分水嶺:真正具備基座模型潛力
Q5:世界模型會有自己的 Scaling Law 嗎?
陳博遠:物理世界一定有自己的 Scaling Law,但絕不能沿用語言模型或視頻生成的 Scaling Law。 直接復制存在三個失效原因:
數據受限:物理交互數據無法像互聯網文本那樣無限爬取,采集與篩選成本極高。
像素不等于物理:視頻中 90% 的信息,如紋理、光照、運動模糊等,是與物理規律無關的視覺冗余。
相關性不等于因果性:純觀察只能學到統計上的相關性,而物理的核心是因果性,必須有“動作”的介入才能區分規律與巧合。 因此,我們必須在“物理隱空間”而非像素空間進行 Scale up。這包含四個關鍵技術判斷:
壓縮:將世界編碼為包含力、速度等抽象表征的高效物理隱空間,剝離視覺冗余。
因果性:在隱空間原生引入動作干預,讓模型理解動作導致的物理狀態轉移。
驗證:純生成式的路徑只有生成能力、缺少驗證能力,容易出現穿透、失重這類“物理幻覺”。為此我們引入強化學習,如 RLVR 可驗證信號獎勵,通過明確的物理約束構建閉環對齊信號。
通用:最終的隱空間必須能服務于不同場景(One for All),因為物理規律在不同場景中是同一的。
Q6:在模型訓練中,具體是怎么設計機制讓模型從“主動干預”中學習的?為了防止模型在面對未見環境時發生物理推演崩潰,引入的具體獎懲機制又是怎樣的?
陳博遠:物理世界規律產生于交互,而非被動感知。
因此,我們從零設計了模型架構,在底層物理隱空間原生引入動作。這不像傳統的視頻生成模型通過嫁接引擎來響應控制,就好比不能在沒有方向盤的車上焊一個方向盤,然后宣稱它是可操控的。
我們將動作,無論是關節運動量,還是移動殘差向量,作為條件信號注入,去調制下一個物理狀態的預測過程。這樣,每一條數據的密度都翻倍了,模型學到的不再是“世界長什么樣”,而是“采取何種動作,導致了什么轉移”,從而實現從相關性到因果性的躍遷。
物理天然是可驗證的。例如,物體不會憑空消失,賽車不能穿墻,流體不能像冰塊一樣倒出。因此,我們在強化學習中構建了自動化的物理驗證沙盒。
![]()
世界模型的 W0–W5 能力分級 逆矩陣制圖
Q7:逆矩陣提到的“W0-W5世界模型能力分級”中,你們目前處于哪一層?當“一個機器人能順利打雞蛋”時,模型屬于第幾層?
陳博遠:這分類對標了自動駕駛的 L0-L5。當前大部分模型處于 W0-W1,能響應動作并生成流暢視頻,
逆矩陣正在攻克 W1 到 W2 的躍遷,這是最關鍵的分水嶺。 W2 代表模型真正具備基座模型潛力,解決了“物理真實性”問題,理解了因果關系。 如果僅僅為了讓機器人“打雞蛋”,垂類訓練也能做到極好的控制,但它可能只懂打雞蛋的局部場景,不懂通用物理。
衡量基座模型是否足夠好的核心在于“動作跟隨性(Action Following)”和泛化能力。就像基座模型不僅會打雞蛋,換到柔性材料場景也能玩溜溜球。大模型通過強化學習實現了通用數學代碼推理的躍遷,世界模型也需要在明確的物理驗證信號下學習,突破為通用的指數級躍遷。
Q8:在這個模型攀登過程中,最核心的瓶頸是算力、數據還是算法?
陳博遠:我覺得都非常重要。但是如果只能選一個的話,我認為是在數據和算法背后反映的“范式”。因為他們三者其實是統一于底層范式的變革。
數據層面:我們構建了數據金字塔。第一層是強物理交互的真實視頻(學習世界狀態);第二層是第一人稱(Ego-centric)視頻與游戲引擎數據(學習動作導致的轉移);第三層則是極其稀缺的關鍵物理突變數據(如玻璃破碎、流體斷裂),我們通過自建數據生產閉環來生產這部分高價值數據。
算力層面:關鍵在于算力效率。在物理隱空間進行 Scaling,確保相同算力下學習到的都是有效物理信號,而非視覺噪音。
算法層面:強化學習提供了無限供給的物理教師,將自動化驗證引入模型。
Q9:面對目前 GPU 昂貴且資源緊缺,同時真實物理交互數據又極度稀缺且昂貴的現實困境,逆矩陣是如何解決的?
陳博遠:主要通過數據合作與重構數據獲取范式兩個方面來解決。
第一,在數據合作層面,我們與一些公司建立了上下游合作關系,這為模型訓練提供了大量真機數據支持,構成了很好的基石。
第二,相比于單純的數據量,更關鍵的是“我們要學習什么樣的數據”。互聯網每天產生海量的視頻,YouTube 每天就能產生數十萬小時內容,但其中可能只有5%包含真實的物理交互。對于學習物理來說,我們需要的不是那95%的視覺冗余,而是強物理動態屬性的稀缺數據。 因此,我們構建了數據金字塔:
L1層:通過篩選高質量的真實世界視頻學習物理狀態。
L2層:通過第一人稱視角(Ego-centric)視頻與仿真引擎數據,學習動作導致的狀態轉移。
L3層:通過自建數據生產閉環,在仿真環境中構建極端邊緣狀態,例如處于倒塌邊緣的杯子,并主動篩選強物理突變的數據,如玻璃破碎、汽車爆炸等。這部分稀疏且突變的規律數據對于模型真正掌握真實物理規律具有極高的性價比,是邁向物理正確的最關鍵一環。
場景落地:先通用再適配
Q10:今年底你們計劃發布的旗艦模型,會首先切入具身智能、工業仿真還是游戲物理等垂直場景?
陳博遠:我們的定位是“先通用再適配”。底層同一個基座,通過拼接不同的可插拔解碼器,就能服務于各個場景,比如視頻解碼器用于游戲渲染,運動解碼器用于工業孿生,動作解碼器用于具身智能控制。
我們在一年之內,并不著急去做世界模型 for 具身/for 工業場景/for 游戲,因為在真實物理世界里面,它們其實是共通的,過早聚焦垂類容易導致過擬合。
旗艦模型成熟后,我們會優先在具身智能、工業仿真等場景做驗證與落地。年底發布的模型,重點是向全球開發者展示其在未見過的物理場景中的預測能力,成為物理世界基礎設施的提供者。
Q11:在 W2 和 W3 階段,世界模型相比 Unity、Unreal 等傳統引擎,能帶來多大提升?是顛覆者還是互補者?
陳博遠:短期是互補,長期是顛覆。 傳統引擎依賴手寫規則,對剛體預測較準,但在柔性物體(流體斷裂、形變)等復雜交互上是盲區。 世界模型通過交互學習真實的物理因果性,具有三大優勢:
天然支持復雜物理交互,不依賴手寫規則;
極強的泛化性,傳統引擎換場景需重新調參,而基座模型一句話即可生成千萬級具有真實物理屬性的場景;
極高的效率,狀態預測是秒級的。當模型邁向 W3,機器將從“執行規則”變為“理解規律、自主推演”。
Q12:您自己平時玩游戲嗎?有哪些游戲在物理交互上做得讓您印象深刻?像《塞爾達》中玩家利用風扇和瀑布涌現出的水霧效果,未來是否可以不由程序員手寫代碼,而是由大模型自主推演完成?
陳博遠:像《荒野大鏢客》、《黑神話:悟空》這類開放世界與動作游戲,它們的視覺渲染與底層物理交互都做得非常逼真。
但這背后的代價是極高的,逼真效果高度依賴于大量手寫的物理規則和材質變化的響應代碼。這恰恰反映了世界模型的顛覆性價值。 如果引入了真正理解物理規律的通用基座模型,像《塞爾達》里這種復雜元素的疊加交互效果將能夠自然涌現,不再需要程序員預先逐條編寫規則。
基座模型代替手寫代碼實現機器自主推演,再結合三維渲染達到視覺效果,在底層上能實現對現有物理引擎的巨大互補甚至顛覆。
在前沿探索性極強的領域,不能再套用傳統的公司組織架構
Q13:公司為什么選擇搭建一個沒有層級匯報和季度指標、高度扁平化的 AI-native 團隊?這種 Neo lab 的研究氛圍,在拿了高額融資之后,如何確保團隊的執行力和交付效率?
陳博遠:這可以從三個遞進的層面來回答:AI-Native、扁平化與高效機制。
首先,AI-Native 意味著我們真正在用 AI 重塑工作流。 我們的每一位員工,都配備了代碼智能體(Agent)。新員工入職的第一件事就是學會使用 AI 提效工具。現在一個工程師配合幾個 Agent 就能完成以往一個基礎技術團隊的工作量。更重要的是,同事之間可以互相訪問對方的 Agent 來了解工作進展,降低了信息同步和共享的溝通摩擦。
其次,關于無 KPI 與高度扁平化。 通用世界基座模型是一個前沿探索性極強的領域,最重要的技術突破往往來自意想不到的方向。我們非常欣賞早期的 DeepMind 和 OpenAI,那種真正的底層創新往往只來自于兩三個人的核心靈感,隨后再將其擴展。在這種階段,強加的 KPI 和部門墻反而會成為創新的沉重負擔。
我們依靠這三點保持高效:方向上大家高度對齊,每個人都清楚公司在做什么、為什么做,不用誰來催;信息幾乎沒有衰減,想找個不同背景的同事 challenge 一下想法,隨時就能聊起來;最后是認結果,誰做了什么貢獻都擺在明面上,用驗證結果說話。
Q14:一個由青年天才與資深工程人才組成的團隊,是什么樣的工作氛圍?在直覺和經驗不同時,大家是如何達成平衡的?
陳博遠:我們團隊就像一艘探索無人區的“快艇”,極高的人才密度和跨界背景是我們最核心的特征。 團隊里既有做視覺生成、強化學習、3D仿真的,也有來自大廠的核心底層架構(Infra)專家,以及年輕的的 IOI/ICPC 奧賽金牌得主。
過往的經驗是我們的墊腳石,但我們要防止它成為技術突破的絆腳石。
Q15:拿完融資之后,目前這種“精英小團隊”組織形態會改變嗎?AI人才現在極其搶手,逆矩陣如何面對大廠的競爭并留住這些頂尖人才?
陳博遠:面對大廠在資金、算力上的競爭,我們的定位和他們不在同一層——大廠更多是在應用層針對特定本體做優化,而我們做的是底層通用基礎設施。大廠就像一艘遠洋貨輪,體量極大但很難輕易轉向;而我們是一艘快艇,能更快地跑出從 0 到 1 的原始探索,這本身就需要初創的精英團隊形態和極高的人才密度。 關于留住頂尖人才,其實不太靠“說服”,更多是互相吸引。一是這里足夠自由;二是大家有共同的理想;三是從前沿研究到產業落地的鏈路在這里是完整的,研究能直接變成模型表現,最終推動真實的產業變化,而不只是停在論文上。
Q16:過去一年,您個人最深刻的認知重塑是什么?
陳博遠:最大的認知重塑有兩點: 第一,“物理的通用性”從我做學術時的一個抽象命題,真正在我們的工程實驗中變成了可驗證的事實。當我們看到模型規模擴大后涌現的泛化能力時,我確信這條路徑走通了。
第二,真正的底層創新不能只靠個人的技術直覺,需要一群有技術品味的人相互碰撞、修偏糾錯。我們不能被短期的商業焦慮驅動,把底層技術做透,生態和開花結果自然水到渠成。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.