无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

跨維智能賈奎:下一個十年是物理世界的 AGI

0
分享至

2016 年,賈奎結束海外學業回國,投身計算機視覺研究。彼時大量人才涌入人臉識別與圖像理解賽道,他卻轉身選擇了一條幾乎無人涉足的方向。

接下來的五年里,他反復追問兩個看似簡單的問題:3D 數據的本質是什么?Physical AGI 的定義又是什么?在他看來,這些圍繞三維世界展開的探索才是核心命題。

選擇冷門方向也意味著要付出長期「坐冷板凳」的代價。

在那些等待的日子里,他一遍遍推演模型、反復驗證假設,也不斷重構自己對世界的理解,但幾乎從未動搖過。「如果你做的就是你喜歡的事情,那為什么要換呢?」這是他判斷一個人是否幸運的標準,簡單得近乎樸素。

他對世界模型的理解同樣帶著一種近乎直覺的準確。

他認為 Physical AGI 之所以被稱為物理通用人工智能,關鍵在于它必須真正進入物理世界,并最終落到一個具體的智能終端上。

人從不同的視角觀察世界,看到的往往只是現實的一個個鏡像。當無數片面、零散的信息疊加在一起,世界便顯得極為復雜。但在賈奎眼里,物理世界是簡潔的。如果能觸達其中的真實機理,它會像愛因斯坦的 E=mc2 一樣輕盈。只有找到這種本質規律,才可能構建出真正科學的世界模型。

2025 年底,跨維智能開源了核心技術 EmbodiChain——一條在線數據流與模型生產線,實現了完全基于 100% 生成式合成數據訓練的虛擬物理模型。在這個世界里,讓 AI 去學習物理世界的本質規律,環境、對象、機器人本體都可以持續演進。

通往終點的路徑不止一條。跨維選擇的是一條更長遠的路:先創造「世界」,再讓 AI 深入物理世界的每一個角落,最終構建出通往 Physical AGI 的可持續之路。


通往 Physical AGI

Q:請先介紹下自己以及跨維現在在做的事。

賈奎:從 2021 年創立至今,跨維智能一直致力于解決 AI 與三維物理世界的交互問題。

2001 年,我就開始研究計算機視覺。從 2016 年起,我開始探索如何利用 AI 進行 3D 建模與生成,以及如何通過合成數據訓練模型,驅動機器人完成靈巧作業。

一個重要的技術節點是在 2019 年,我們發表了一個端到端模型,它能夠完全依靠混合數據訓練,實現對未知物體的精準抓取。這些技術積淀為我們 2020 年籌備創立公司打下了基礎,當時真格也作為天使投資方加入。

這幾年,隨著 Physical AI 的興起和大模型的加持,跨維智能的底層技術、產品與業務也經歷了一個從穩健到加速發展的周期。如今,我們逐步形成了一套多維協同的產品矩陣:以 DexVerse? 引擎為技術底座,配合 KINGFISHER 視覺傳感器、Dexforce W1 人形機器人本體,以及 PickWiz 機器人大腦軟件。

回到跨維智能的核心信仰:Develop a sustainable road towards Physical AGI(構建一條通往 Physical AGI 的可持續道路)。我們希望走出一條可持續的路徑,以持續的原創技術推動 AI 深入物理世界的每一個角落,在不同行業中創造真正的價值。

Q:你目前怎么理解 Physical AI?在創業過程中有什么變化?

賈奎:我始終認為 Physical AI 是一件需要在實踐中推進的事情。只有不斷做技術、做產品,才能真正走近它。人是一個典型的高級生物智能體。人的認知智能與身體形態的關系正對應著今天大語言模型與 Physical AGI 的關系。

從技術來看,目前我們仍遵循由海量數據、大模型和強算力支撐的 AI 范式。這種范式受惠于 90 年代以來互聯網所累積的文本、圖像和視頻,因此大語言模型和多模態在 2022-25 年間實現了快速積累。

但 Physical AGI 是下一個十年,甚至更長周期的命題。它對數據的要求不僅是數量的增加,更是數據產生范式的一次根本性變化。

實現 Physical AGI 的基本數據要素可能來自于真實機器人的數據采集,也可能借由視頻生成,或者是我們團隊非常擅長的 3D 生成式技術以及生成式仿真(Generative Simulation)等前沿范式。

另一方面,Physical AI 必須落地在實際的智能體上,在家庭、工廠等真實應用場景中運行。這又對終端智能體的功能提出了不同訴求。

無論是從技術還是應用角度,Physical AGI 都比目前大家看到的大模型和 AI Agent 應用更難。但它的天花板更高,想象空間更大,對整個社會經濟和人類行為的牽引作用也更大。


正在洗牌的跨維機器人

Q:你在設計跨維智能人形機器人的本體構型時有哪些考量?

賈奎:Physical AGI 之所以被稱為物理通用人工智能,核心在于它必須進入物理世界,并最終落到一個具體的智能終端上。

這個終端的形態則取決于它應用場景的第一性原理。如果是應用在工廠里的機器人,它不一定非要具備人形,它的核心訴求是能否穩定、高精度地完成既定作業任務。

在一些商業服務場景,機器人的演進路徑會變得更像人類。在社會生活或商業服務中,人是在打造自己的 IP 和人設,因為你賣的不僅僅是功能,還有品牌價值。如果我們將眼光跳出數字人,去觀察物理世界真實存在的人,就會發現營造機器人 IP,讓它本身產生衍生價值,是一件非常重要的事情。

至于家庭場景,大家對機器人有多維度的訴求。首先是解決實際的家務問題,比如我們希望在下班后,它能把鞋柜整理好;或者在家里有小朋友的情況下,能把散落一地的玩具收拾妥當。這是對它工具屬性的需求。

但如果機器人具備了人形形態,人們會有更高的陪伴訴求。這種陪伴涵蓋了語言的交流、情感的互通,甚至包括外形是否可愛、是否有溫度。這就是為什么目前有人專門研究「有溫度」的機器人,或者在外觀設計上追求極致美感。

如果你想要打造一個既能解決實際問題,又能與人產生良性互動的深度產品,兼顧外形設計與交互邏輯至關重要。


實現世界模型

Q:你怎么看現在幾種不同的數據采集方式?

賈奎:行業普遍期待,大語言模型中觀察到的 Scaling Law 也能在 Physical AI 上出現。但這里有一個前提:如果沒有足夠量級的數據支撐,單純增加模型規模或算力意義不大。

因此,具身智能當下面臨的首要問題,是如何提升數據產生的效率。

在 2024-25 年間,行業逐漸形成了一種共識:通過搭建數采場、利用真機遙操來獲取訓練數據。但這種方式的效率依然有限。后來也出現了像 UMI(Universal Manipulation Interface,通用操作接口)這樣更高效的本體采集方案,不過這種路徑究竟能訓練出多強的模型還有待驗證。

另一條被寄予厚望的路徑是視頻生成。像 Sora 這樣的模型在內容創作領域已經展現出強大的能力,但視頻生成的本質是二維結果。從技術范式來看,基于擴散模型的視頻生成本質還是在 RGB 像素空間中建模,缺乏明確的物理因果結構。這意味著它在精度、穩定性和物理一致性上,很難達到嚴格的工程標準。

我們的目標是一方面充分利用模型與算力帶來的生成效率,另一方面又保證生成內容具備嚴格的三維物理真實性。圍繞這一點,我們也做了嚴謹的原理性驗證。結果證明,完全基于 100% 生成式合成數據訓練出來的模型,在真實應用中確實可以跑通。

我們真正應該關注的不是某一種數據獲取方式本身的優劣,而是哪一種數據范式,能夠讓 AI 大模型的 Scaling Law 真正運轉起來。

Q:當時 Sora 發布的時候,你有什么感受?

賈奎:Sora 發布時一個很重要的傳播理念就是世界模型。

但世界模型這一概念早在 2018 年就在強化學習領域被提出了。它的核心邏輯是,如果要進行高效的強化學習,系統必須具備一個內在的模型來模擬世界,從而學習并產生優秀的策略。盡管這一理念在學術界早已存在,但此前一直沒有大眾化。

Sora 的驚艷之處在于它生成的視頻在外觀、動態和場景表現力上遠超以往,但它依然是在 RGB 像素空間內進行擴散模型的學習。OpenAI 試圖說明,如果我們的模型不是世界模型的話,為何能產生如此逼真的視頻結果?

Physical AI 所需模型的服務對象不是人類的眼睛,而是具體的任務執行,比如機器人要如何精準地拿起一杯咖啡并遞到你手上。

這與單純的二維視覺觀感完全不同。具備基礎機器學習或工程知識的人都明白,二維圖像只是三維世界在特定視角下的投影,這意味著信息在投影過程中必然發生缺失。生成的視頻看起來很精美,但一旦切換視角,往往會暴露出大量的失真。

目前的視頻生成視覺模型從根本上無法解決生成結果在 3D 形狀準確性、物理準確性以及動態因果準確性上的問題。

Q:目前世界模型處在一個怎樣的進程?

賈奎:這是一個大家都想要實現的目標。但究竟該如何實現,我認為首先要把問題想清楚。目前業界對于「什么是世界模型」依然缺乏一個公認且精確的定義。

在定義尚未統一時,人們只能用結果來評價一個模型是否真正具備世界模型的能力。如果你的模型是世界模型,它在無人駕駛場景中就應該始終能夠準確避障、規劃路徑;在機器人作業中,也應該精準且穩定地完成抓取與操作。

Q:跨維實現世界模型的優勢是什么?

賈奎:我們的世界模型從 AI 架構建模方式的底層邏輯上就確保了絕對的三維穩定性。如果從統計學或數學的角度來看,這個物理世界非常簡潔。

為什么大家卻覺得它復雜?因為我們在通過不同的視角觀察世界,包括人的眼睛和各種感知傳感器,而這些觀測結果都只是真實世界的鏡像。這些鏡像提供的往往是片面的信息,當無數片面且瑣碎的信息交織在一起時,就會讓人產生世界極其復雜的錯覺。

但實際上,如果你能觸達世界內蘊的真實機理,它就像愛因斯坦的 E=mc^2 一樣簡潔明了。只有找到了這種真正正確、簡潔的本質規律,你才能構建出真正科學的世界觀。

我們的核心邏輯正是通過 AI 去學習這種本質規律,而不是粗暴地利用海量視頻進行堆砌訓練。因為大量的視頻本質上只是不同視角下的景象疊加,學習效率低下,也無法從根本上保障三維物理的準確性。

其實別的團隊也不是不能做,行業內幾乎所有的團隊都會強調三維物理的重要性,也都在嘗試往這個方向努力。而我們團隊的優勢在于,在神經三維建模(Neural 3D Modeling)和神經三維生成(Neural 3D Generation)領域,即利用 AI 進行三維物理建模與生成的技術路線上,我們始終處于行業領先地位。

Q:您能簡單地講一下跨維最近的開源工作嗎?

賈奎:我們開源的 EmbodiChain 數據生成管線正面回應了為什么數據產生效率如此重要。

在《GS-World》中,我們開篇提出了效率定律(Efficiency Law),它是規模定律(Scaling Law)的前提。只有當數據產生效率滿足特定條件時,模型性能才方能持續提升。

它接著講如何用生成式的方式,嚴謹地構建出一個符合物理規律的三維虛擬世界。在這個世界里,我們可以高效地生成環境、操作對象乃至機器人本體。機器人可以在這個可控的虛擬空間中通過作業產生數據,進而形成模型,甚至實現本體的進化。

這不僅是一項具體的學術成果,也是我們的一份技術路線圖。


EmbodiChain 示意圖

基于此,我們設計了一套能夠實現效率定律的架構。這首先是一個從模擬到現實的過程。無論是通過真機遙操、UMI 這種方式,還是直接記錄人類操作的視頻,我們都能從中提取出三維邏輯動作,并將其投射到虛擬世界。隨后,我們在虛擬世界中進行高效的數據擴增和強化學習。這種范式既能生成精準的三維物理模型,也能生成動作策略。

我們也在開源的 Motion 數據集上進行了嚴格的對比測試。結果顯示,這種范式在效率和成功率上明顯優于英偉達的 GR00T、RDT 等主流模型。正如我們所發布的,跨維智能確實實現了完全使用 100% 生成的合成數據訓練出的 VLA 模型。這在全球范圍內都是絕無僅有的。

我們認為正確的邏輯是你必須首先送進去一個有價值的機器人,讓它運行起來服務客戶、產生價值。

我們效仿無人駕駛領域開啟「影子模式」,讓數據回流。在這種模式下回流的是高質量、帶標注、剔除異常數據、能直接提升模型性能的數據。此時,機器人已經在真實環境中工作并產生了收益,獲取數據只是順道完成的過程。這才是產品和服務高效演進的數據飛輪范式。


經歷「冷板凳時期」

Q:當時是什么契機開始關注到世界模型?

賈奎:當時關注到這個領域,是因為我關注的是 AI 信號的本質。

回看 2015 年,當時太多的人涌入人臉識別和圖像理解領域,但我會去思考 3D 數據的本質是什么?信號的本質又是什么?作為一個做創新研究的人,最基本的要素就是絕對不能跟風。如果一件事情已經有很多人在做了,那么它就不應該是你的首選。研究者必須遵從第一性原理,而不是人云亦云。

在那個沒有人涉足的階段,這些關于 3D 維度的探索才是 AI 領域中更本質、更重要的問題,是我認為真正有價值的創新。這種獨立研究的能力,其實是每一個成熟的博士在職業訓練階段就應該具備的基本要素。

當然,這種堅持是有代價的。研究的源頭固然可以基于好奇心,但在好奇心之上,還需要帶一點「功利」的思考,這種好奇心最終能否產生價值?無論是短線、中期還是長線的價值,你必須去推演它。

選擇非熱門方向的代價就是你可能需要長期「坐冷板凳」。我們觀察 AI 的發展史,從 1950 年代至今經歷了幾輪波峰波谷,即便像 AI 教父辛頓(Geoffrey Hinton)也經歷過極長周期的冷板凳時期。

人要有自己的堅持。

Q:你什么時候有過這種「坐冷板凳」的感覺?

賈奎:在 2016 年到 2021 年這段時間里,坦白說,我獲得的成就感遠比那些做圖像理解的人要少得多。

在學術界,你的論文引用量很大程度上取決于研究該問題的基數。如果全球范圍內關注某個 3D 任務的人只有 1000 個,而研究圖像理解的有 100 萬人,那么無論研究做得多好,在絕對影響力指標上也無法與熱門方向相比。在長達五年的時間里,這種差距是客觀存在的。

但即便是在那段時間里,我也沒有想過要更換方向。我覺得判斷一個人是否幸運的標準在于,他是不是在做自己真正喜歡的事情。如果你做的就是你喜歡的事情,那為什么要換呢?

在當時,我依然堅信自己所做的研究具有更大的價值,這與我如今對 Physical AGI 的判斷邏輯是一致的。

從企業成長和創業邏輯來看,Physical AGI 的天花板比現在的大模型廠商的天花板還要高。

Q:科研和創業有什么不同?

賈奎:科研創新與創業是不同形式的價值創造與實現。從科研創新的角度來看,你潛心鉆研,期待邏輯上成立的研究最終會產生價值,但成果還是往往停留在紙面上,這種互動相對內斂且間接。

相比之下,創業則是實打實地從商業價值出發進行反向推導。為了實現真正的價值,我們需要什么樣的產品或服務?哪些技術需要突破且具備條件?突破的周期是多久?在這種邏輯下,我們還需要思考團隊的核心優勢、差異化特色以及能否在目標商業場景中真正產生價值。

這種思維方式的轉變,能讓我們在創新的過程中擺脫一些科研慣性。我們不會為了發表論文而去做事,也不會去做那些看似有價值、實則無法在商業上產生實際貢獻的研究。

當你的產品在真實的場景中被使用起來,那種成就感與單純追求論文引用量是完全不同的。這種價值創造更加直接,能夠真實地在社會的各個層面反映出來,無論影響是大是小。


回歸勞動力本質

Q:有沒有什么具體的合作案例可以分享?

賈奎:我們在工業、物流等相對半結構化的場景中已經積累了大量經驗,部分項目的運行時間已超過兩年。我們不是單純在推廣跨維這個機器人品牌,而是要將機器人深度嵌入加盟店、品牌方和購物中心的業務流程里。

讓別人生意做得更好才是這臺人形機器人真正的價值。

一個案例是我們和「維小飯」的合作。維小飯是一家在深圳和香港的健康飲食品牌,每份盒飯都會標注卡路里。我們的機器人部署在維小飯的門店內,承擔售賣引導等工作。這種「健康飲食 + 前沿科技」的組合既是一個極具吸引力的商業噱頭,也是機器人在真實商業環境中去創造價值的實踐。


跨維在「維小飯」門店部署的機器人

Q:跨維產品的差異化特色在哪里?

賈奎:核心不在于單純的技術高低,而在于誰能真正跑通技術到細分商業場景的閉環。就像人臉識別技術,現在幾乎任何一家公司都能擁有成功率足夠高的技術,但最終勝出的是那些已經形成了品牌認知、并占據了市場的企業。當然,如果未來機器人的需求量變得極大,它的功能性價值和附加價值的主次地位可能會發生變化。

Q:跨維的下一步會是什么?

賈奎:我們的商業理念可以用一句話概括:DexBot Inside。

這個詞借用了當年英特爾著名的「Intel Inside」廣告語。作為一個人形機器人,即便在商業服務場景中具備引流作用和 IP 屬性,它最終也必須回歸到勞動力本質。

人與人之間交往,最初的新鮮感都可能在兩周內消退,機器人更是如此。如果機器人不能產生真正的勞動價值,它的 IP 和可愛外形就無法支撐其長久的商業存在。在門店等實際場景中,它最終會從一個新鮮事退化到一個勞動者的本質。


文|Nuohan

編輯|Cindy



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中甲最新積分榜:長春亞泰2-1逆襲,廣州豹登頂,南京城市被逆轉

中甲最新積分榜:長春亞泰2-1逆襲,廣州豹登頂,南京城市被逆轉

足球狗說
2026-06-13 21:58:49
偷雞不成蝕把米!以為能“毀掉”董路,沒成想自己先被扒個底朝天

偷雞不成蝕把米!以為能“毀掉”董路,沒成想自己先被扒個底朝天

社會日日鮮
2026-06-13 09:38:13
你信嗎?有些事被迫終止,其實是老天在救你!網友:想想都后怕

你信嗎?有些事被迫終止,其實是老天在救你!網友:想想都后怕

另子維愛讀史
2026-06-12 19:50:24
高考后手機店被擠爆:孩子你要明白,分數不是你和父母之間的交易

高考后手機店被擠爆:孩子你要明白,分數不是你和父母之間的交易

洞見
2026-06-12 21:22:37
中國斷供稀土5個多月,日本工廠無一停產,是真擺脫了還是在硬撐

中國斷供稀土5個多月,日本工廠無一停產,是真擺脫了還是在硬撐

次元君情感
2026-06-01 14:27:53
比賽還剩4天開打 阿根廷隊卻先迎致命壞消息 取勝阿爾及利亞懸了

比賽還剩4天開打 阿根廷隊卻先迎致命壞消息 取勝阿爾及利亞懸了

零度眼看球
2026-06-13 11:06:19
韓國隊贏球,戳破中國足球借口!東亞人不行,那為何日韓能贏?

韓國隊贏球,戳破中國足球借口!東亞人不行,那為何日韓能贏?

傲傲講歷史
2026-06-14 04:57:33
大量蘋果“無頭騎士”流入閑魚!頂配32G+1TB組合,二手賣半價

大量蘋果“無頭騎士”流入閑魚!頂配32G+1TB組合,二手賣半價

閑搞機
2026-06-13 11:07:02
加拿大世界杯首秀,多倫多體育場外紅白海洋

加拿大世界杯首秀,多倫多體育場外紅白海洋

溫柔且自由
2026-06-13 01:10:57
浪姐萬千惠終于發賣老頭了!網友:三百多分沒白挨

浪姐萬千惠終于發賣老頭了!網友:三百多分沒白挨

TVB的四小花
2026-06-13 02:06:49
韓國芯片專家:最快到2030年,將會出現“中國版ASML”!

韓國芯片專家:最快到2030年,將會出現“中國版ASML”!

步論天下事
2026-06-13 18:57:37
外媒:沙特王儲“婉拒”馬克龍邀其出席G7峰會,并就因事先已有安排而無法出席表示歉意

外媒:沙特王儲“婉拒”馬克龍邀其出席G7峰會,并就因事先已有安排而無法出席表示歉意

環球網資訊
2026-06-13 19:00:21
導演王晶回應與周星馳不和:很難跟他做朋友,他也不出來社交,鬧翻后在公共場合比較少見面,但周星馳的戲首映會請自己去

導演王晶回應與周星馳不和:很難跟他做朋友,他也不出來社交,鬧翻后在公共場合比較少見面,但周星馳的戲首映會請自己去

極目新聞
2026-06-12 08:41:26
美專家曾說:若中國武統,西方可凍結3.2萬億中國資產!

美專家曾說:若中國武統,西方可凍結3.2萬億中國資產!

果媽聊娛樂
2026-05-28 18:57:51
活塞2026選秀應避開三名球員

活塞2026選秀應避開三名球員

體壇周報
2026-06-14 05:17:18
南美球隊1-4首敗!14日賽程:巴西VS摩洛哥+亞洲2隊出戰 央視直播

南美球隊1-4首敗!14日賽程:巴西VS摩洛哥+亞洲2隊出戰 央視直播

何老師呀
2026-06-13 14:32:32
世界杯觀感:沒吹牛!上半場的美國能奪冠,下半場的美國只能出線

世界杯觀感:沒吹牛!上半場的美國能奪冠,下半場的美國只能出線

濤哥侃球
2026-06-13 15:33:45
全球最深鯨類大墓地被發現:超1000萬頭鯨長眠 最早可追溯到530萬年前

全球最深鯨類大墓地被發現:超1000萬頭鯨長眠 最早可追溯到530萬年前

快科技
2026-06-12 07:57:04
穿瑜伽褲跑步,不尷尬嗎?

穿瑜伽褲跑步,不尷尬嗎?

馬拉松跑步健身
2026-06-13 21:32:16
A股:股民做好準備,信號很強烈,下周6.15將迎更大的暴風雨?

A股:股民做好準備,信號很強烈,下周6.15將迎更大的暴風雨?

夜深愛雜談
2026-06-13 21:18:02
2026-06-14 05:43:00
真格基金 incentive-icons
真格基金
創業,來真格的。
1558文章數 3678關注度
往期回顧 全部

科技要聞

SpaceX上市首日破2萬億美元,馬斯克再封神

頭條要聞

特朗普:美伊協議計劃周日簽署 如不順利還有終極手段

頭條要聞

特朗普:美伊協議計劃周日簽署 如不順利還有終極手段

體育要聞

美國4比1巴拉圭:這統治力真是美國隊?!

娛樂要聞

鄧超曬孫儷親手織的帽子,笑瘋全網!

財經要聞

梁文鋒向左,楊植麟向右

汽車要聞

深藍S07華為乾崑激光版增程車型上市 限時15.49萬元起

態度原創

房產
教育
本地
游戲
公開課

房產要聞

海南最賺錢行業曝光!最快4年半,海口全款買三房!

教育要聞

干脆把爹媽也換了!女兒高考完讓家長崩潰,不讓人喘口氣嗎嘛

本地新聞

AK劉彰邂逅河北南大港濕地

LPL淘汰賽:就差一點,今天無奇跡!BLG五局戰勝WE,決賽見

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版