![]()
2021 年,陳天潤還在浙江大學讀本科。那一年 ChatGPT 不存在,大語言模型遠沒有破圈。“世界模型”這個概念剛剛冒頭,David Ha 和 Jürgen Schmidhuber 三年前發表的那篇《World Models》還只是讓 AI 學會在賽車游戲里“做夢”,李飛飛要再等三年才會創辦 World Labs。整個領域離商業化還很遙遠。但陳天潤做了一個當時看起來相當激進的決定:成立一家公司,做 3D 和 AI。
他很早就在寫代碼。高中學編程,大學期間參與了大量 3D 建模和 3D 重建方面的研究,也發了一些成果。最初的想法很樸素:自己做的是偏應用的學科,如果能通過商業化的方式把一些待落地的新技術推到更多人面前,是一件值得試試的事。與此同時,他對市場有一個判斷:一定會有更強的人工智能冒出來,而那會帶來很大的機會。
這個判斷后來被驗證了,而且速度比想象中更快。
魔芯科技從成立起就專注在 AI 與三維技術的交叉地帶,早期圍繞 AI 驅動的 3D 內容生成做產品和商業化,逐步積累了大量三維數據資產和工程經驗。
到了 2024 年底,陳天潤做了一個更大的決定:把公司資源的重心全面轉向 3D 場景建模和世界模型。他認為,從單個物體擴展到整個場景之后,能夠打開的應用空間和市場規模遠不是同一個量級。一個物體是一個物體,一個場景里可以裝下整個世界。
他的導師潘云鶴院士對這條路徑產生了非常直接的影響。
潘云鶴是中國計算機圖形學和人工智能領域最早的開拓者之一,曾任浙江大學校長、中國工程院常務副院長,1997 年當選中國工程院院士。他在智能 CAD、計算機美術、虛擬現實等方向深耕了數十年,見證了中國在 CAD 建模領域二十多年的演進。陳天潤在浙大計算機學院讀直博,師從潘云鶴。
潘院士給陳天潤提過兩個核心建議。第一,要用新技術做新的事;第二,要充分利用視覺知識,把數據轉化為知識,讓 AI 去學。
“把數據變成視覺知識,讓 AI 去學,”陳天潤說,“這是一種比較特別的學習范式。”這個思路后來深刻地影響了魔芯的技術選擇。
第三條路
要理解魔芯科技在做什么,需要先理解“世界模型”這個概念。
用我們已經非常熟悉的大語言模型來做類比,大模型的本質是預測下一個詞:你輸入一段文本的上文,它幫你補出下文。給它小說的前半段,它能把后半段續出來,因為它見過類似的東西。世界模型做的是類似的事情,只是它預測的對象不是文字,而是三維空間中的物理狀態。你給它當前的場景和某種擾動條件,它能推演出下一個時刻這個世界會變成什么樣。
從預測語言的下一個 token,到預測世界的下一個狀態。這是 2026 年 AI 領域最重要的范式遷移之一。
這條賽道上,全球目前最受關注的有幾股力量。李飛飛的 World Labs 在 2026 年 2 月完成了 10 億美元融資,投資方包括英偉達、AMD 和 Autodesk。他們的產品 Marble 已經可以從圖片和文字生成高保真 3D 世界,走的是基于 3D 高斯(Gaussian splatting)的技術路線,用這種中間表示來重建和生成場景。
楊立昆離開 Meta 后創辦的 AMI Labs 探索的則是 JEPA 架構,一條更偏理論前沿的路徑,目前仍處于研究階段,尚未發布可公開評估的產品。Google DeepMind 則推出了實時交互世界模型 Genie 3。
魔芯走的是和他們都不一樣的第三條路。
陳天潤和團隊選擇了純隱式(implicit)的方法來實現世界模型的擴展。他們既沒有像 World Labs 那樣用 3D 高斯作為中間表示和學習目標,也沒有借助顯式的幾何重建,而是用純數據驅動的方式,靠規模堆疊模型能力。這意味著模型的表現主要取決于數據的質和量,而不是手工設計的先驗規則。
![]()
圖丨隱式結構路線與其他方案對比(來源:魔芯科技)
這條路線對數據的要求極高,而這恰恰是魔芯從 2021 年就開始布局的東西。他們從成立之初就雇傭設計師和美術藝術家制作三維內容,逐步積累了覆蓋復雜物理場景、動態自然環境的 PB 級 3D 模型和場景資產。3D 數據在整個 AI 領域始終是稀缺資源,不像文本和圖片那樣可以從互聯網上大規模抓取,需要靠時間慢慢積累。
“我們不光有數據,我們還打磨了一套讓人畫得更快的工具,”陳天潤說。“這套工具本身也是壁壘。如果相信世界模型是一個靠數據 scaling 的范式,那誰能更快更高效地產生數據,誰就有優勢。”
在具體的模型設計上,KOKONI-World 采用了 14B 參數規模,比部分同行公開宣稱使用的 1.5B 模型大了將近十倍。更大的網絡尺寸意味著更強的信息承載能力,但推理速度和成本也會成為問題。為此團隊設計了一套級聯式知識蒸餾方案:不是把大模型壓縮成小模型,而是把多步推理過程蒸餾為少步推理,模型尺寸不變,但推理迭代次數大幅減少。
另一個關鍵設計是相機感知記憶結構。KOKONI-World 生成的場景背后存儲著 3D 的空間信息。用戶在場景中移動視角、探索不同位置之后再回頭看,場景的幾何結構和視覺細節不會坍塌。它不是一幀一幀地往外吐畫面,而是一個場景一個場景地構建記憶。
![]()
(來源:魔芯科技)
這兩項技術疊加之后,KOKONI-World 跑出了一組相當亮眼的數據:2000 幀的場景記憶時長,對應大約兩分鐘的連續動態預測;1080P 全高清的實時交互輸出;以及 6 自由度的精確相機控制。
魔芯參與的一項前饋式 4D 基座模型研究也為這個選擇提供了直接的實驗依據。實驗表明,當訓練數據擴展到百萬量級以上、模型參數超過 10B 時,重建誤差顯著且持續地下降,模型開始具備長時一致的空間建模能力。這條 scaling 曲線和大語言模型早期觀察到的規律高度相似,說明 3D 和 4D 場景建模確實具備 Scaling Law。
![]()
(誤差降低)
年輕團隊的牌面
做出這些東西的,是一支平均年齡不到 30 歲的全博士團隊,核心成員來自浙大、中科大、同濟等高校,幾位研發骨干從博士階段就在研究多模態大模型驅動的 3D 重建與視頻生成,發表過數十篇頂會論文。
陳天潤把這種團隊構成看作一種優勢:“我們不是計算機視覺老兵,也不是自動駕駛老兵在干這個事情。我們是搞大模型的人在做世界模型。”他認為,做基礎模型應該用數據驅動的方式來做,而他們這批人對這種范式有天然的信心和經驗。
作為 00 后 CEO,陳天潤承認在 2021、2022 年創業早期確實遇到過年齡帶來的質疑。但到了 2023 年之后,ChatGPT 的成功讓全世界都看到了一個事實:很多最前沿的 AI 創業公司,就是由一群非常年輕的從業者搞出來的。年輕、人少、沒有歷史包袱,在 AI 時代反而變成了優勢。
“國際上創新就是這么發生的,”他說。
而這群年輕人確實拿出了不一樣的東西。魔芯的模型有一個區別于多數同行的能力:它既能輸出人類可理解的顯式結果,比如視頻、3D 點云、3D 高斯等場景表示,也能輸出純隱式的 token 和向量。后者對機器人、自動駕駛等下游應用更有價值,因為機器需要的不是一段漂亮的視頻,而是能直接用于決策的空間表征。這種“兩頭都能交付”的能力,讓魔芯在面對不同類型的客戶時有更多靈活性。
建立在這個能力之上,魔芯是目前世界模型賽道上少數已經產生收入的團隊。他們在 2025 年就交付了第一版模型,3D 重建服務對外售賣,支持 API 調用和定制化開發。在影視娛樂、數字孿生、自動駕駛、具身智能等方向上,他們已經在和產業方做實際的對接和交付。部分 PB 級 3D 數據資產也在以開放合作的方式提供給其他 AI 研究團隊。
從 BERT 到 ChatGPT
2026 年開春,魔芯科技的節奏在明顯加快。
公司近期完成了浙創投等國資機構及多家產業資本投資的 Pre-A++ 輪融資,新一輪 A 輪融資也即將落地。陳天潤有意識地選擇引入產業方而非純財務投資人。“行業還處于早期,需要大家共建生態,不是一家能搞定所有事的。”
另一個即將落地的節點是下一代模型的發布。魔芯即將推出參數規模約為現有版本兩倍的新模型,核心改進在于更高的輸入分辨率。此前用戶只能輸入較低分辨率的圖片,模型能重建的信息量受限。新版本將能處理更大尺寸的圖像輸入,對應更豐富的重建細節。陳天潤說,這個版本在 3D 建模的準確度和泛化能力上,預計將超過目前市面上的同類模型,并會同步對外提供服務和發表學術論文。
當然,陳天潤對當前的階段有清醒的認知。世界模型作為一個新范式,整個行業都還處于能力爬坡期,模型的泛化性和場景覆蓋度仍在持續迭代。他把現在比作大語言模型在 ChatGPT 之前的 BERT 時代:基礎能力已經涌現,但距離真正的產品化爆發,可能還需要一到兩年的打磨。
從 BERT 到 ChatGPT,中間經歷了 GPT-2、GPT-3、GPT-3.5 的迭代。世界模型的演化大概率也需要類似的過程。
問他五年后希望別人提起魔芯科技時想到什么,陳天潤告訴我們:“3D 的 ChatGPT 時刻。”
這個目標很大。ChatGPT 之所以是 ChatGPT,不只是因為模型能力夠強,更因為它讓普通人第一次直觀感受到了 AI 的可能性。3D 的 ChatGPT 時刻意味著世界模型不再是論文里的概念,而是真正部署到上億臺設備上、讓 AI 理解物理世界并做出可靠判斷的基礎能力。陳天潤估算,這個方向最終面向的是萬億級別的市場。
不過眼下最緊迫的事情,是把新模型交付出去。
“我們希望做能 work 的東西,”陳天潤強調,“而不是發在公眾號上的東西。”
運營/排版:何晨龍
注:封面/首圖由 AI 輔助生成
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.