“杭州六小龍”第一股、空間智能與AI的下一步：對話群核科技創(chuàng)始人黃曉煌

2026-04-17 13:43:38　來源: 硅谷101

上海舉報(bào)

分享至

4月17日，群核科技登陸港股，成為“杭州六小龍”首家完成IPO的企業(yè)。在我們硅谷101的專訪中，創(chuàng)始人黃曉煌說，將押注空間智能的未來。

2026年，AI的新風(fēng)向似乎已經(jīng)越來越清晰了，那就是——世界模型。而在當(dāng)前世界模型的所有技術(shù)分支中，很多的研究者都把空間智能（Spatial Intelligence）視為了那個(gè)真正的“關(guān)鍵拼圖”。

什么是空間智能？它跟世界模型、具身智能之間究竟是什么樣的關(guān)系？它的應(yīng)用前景在哪里，現(xiàn)在還存在著什么樣的問題？這篇文章，我們就和黃曉煌一起來聊聊這個(gè)話題。

群核科技的定位是做空間智能服務(wù)的提供商，他們目前已經(jīng)建立起從“空間編輯工具”到“空間數(shù)據(jù)”再到“空間大模型”的一套完整的業(yè)務(wù)。所以這一次，除了關(guān)于空間智能的基礎(chǔ)研究之外，黃曉煌也從空間智能的商業(yè)應(yīng)用，以及他從英偉達(dá)辭職之后的回國創(chuàng)業(yè)歷程和幾次帶領(lǐng)公司轉(zhuǎn)型的經(jīng)歷，為我們提供了更多的技術(shù)和行業(yè)視角。

（本文為視頻改寫，歡迎大家收看以下視頻）

概念解析

空間智能、世界模型與具身智能

跟世界模型一樣，空間智能這個(gè)概念也是起源于認(rèn)知科學(xué)。

1983年，教育心理學(xué)家霍華德·加德納在著作《心智框架》中提出了多元智能理論，將空間智能列為人類七種核心智能之一。在他的理論框架里，空間智能并非簡單的“方向感”，而是人類理解物理世界、建立空間認(rèn)知、進(jìn)行抽象視覺思維的底層能力。

而在計(jì)算機(jī)科學(xué)領(lǐng)域，空間智能的技術(shù)起點(diǎn)則是源于計(jì)算機(jī)視覺對三維空間的感知與理解研究。2009年，ImageNet的出現(xiàn)為AI視覺識別奠定了基礎(chǔ)，但這一階段的能力本質(zhì)上仍停留在二維層面，機(jī)器并不真正理解物體所處的空間關(guān)系。

隨后研究進(jìn)入了“從二維到三維”的階段。以SLAM（Simultaneous Localization and Mapping，同步定位與地圖構(gòu)建）為代表的一系列技術(shù)，讓機(jī)器在移動(dòng)過程中同時(shí)完成定位與建圖，逐漸具備對空間結(jié)構(gòu)的理解能力。AI不僅知道“看到了什么”，還開始知道“它在哪里”，從而可以構(gòu)建出一個(gè)可被導(dǎo)航和操作的三維世界。

而最近幾年，隨著NeRF等3D表示方法，以及生成式模型和世界模型的發(fā)展，研究重點(diǎn)開始從“重建世界”，走向“理解和預(yù)測世界”。研究者不僅希望AI能夠還原空間，還想讓AI能像人一樣去理解物體相對位置、重建空間結(jié)構(gòu)，預(yù)測甚至自主規(guī)劃路徑。

也正是在這一階段，來自計(jì)算機(jī)視覺、機(jī)器人和生成模型的多條技術(shù)路徑開始匯合，形成了今天我們所說的“空間智能”。從模塊上來說，它主要包含了空間的感知、表征、推理、預(yù)測和行動(dòng)五大部分。

黃曉煌群核科技聯(lián)合創(chuàng)始人兼董事長人類的智能有好幾方面，大語言模型代表了語言，還有我們的視覺、觸覺以及我們跟物理世界的交互，其中很重要一點(diǎn)就是空間智能。你在這個(gè)空間里你看一圈，你大腦會(huì)對這個(gè)空間有個(gè)快速的概念，你可以理解成是一個(gè)空間重建的過程。然后你就可以判斷某個(gè)物體距離你多遠(yuǎn)、你能不能穿得過、這個(gè)空間的每一塊物體的相對位置、這是什么東西，在你腦海里會(huì)快速的形成一個(gè)印象，你接下來不管是做各種決策，比如說你要往哪里走，以及你要不要去喝水、水杯在哪里？你看一眼，腦海里馬上就能夠反應(yīng)出來，所以這就是我們定義的空間智能。

不過，這個(gè)概念聽起來好像跟世界模型、具身智能都有很多的聯(lián)系和相似之處，它們?nèi)咧g的關(guān)系究竟是什么樣的呢？在采訪中，黃曉煌也給我們舉了一個(gè)比較通俗易懂的例子。

黃曉煌群核科技聯(lián)合創(chuàng)始人兼董事長拿開門這個(gè)事情舉例：家里小孩他第一次開門不知道怎么開，他得去知道這門把手是往上移還是往下移？要用多大力氣？還有肢體怎么去支配，怎么去開這個(gè)門，所以需要訓(xùn)練，光這個(gè)過程他就要有好多次的練習(xí)，才能夠?qū)W會(huì)開門這個(gè)動(dòng)作。空間智能是你在這個(gè)環(huán)境里看一眼，知道這里是門、一定有一個(gè)門把手，要開門的話，就要去打開這個(gè)門把手。具身智能用的就是算法，計(jì)算運(yùn)行到門前面一定的距離，然后把門把手打開、把門推開、再進(jìn)去。世界模型做的是，在這空間里走的運(yùn)動(dòng)時(shí)，有人或者有其他物體在運(yùn)動(dòng)，世界模型要做預(yù)測，不要撞上它，然后避開它再去開這個(gè)門。

總結(jié)一下，世界模型就像是“大腦”，它能在“腦中”構(gòu)建一個(gè)關(guān)于世界運(yùn)行的“內(nèi)部地圖”，去理解事件之間的因果關(guān)系，去預(yù)測接下來會(huì)發(fā)生什么，甚至在沒有真實(shí)發(fā)生的情況下，先在內(nèi)部去“跑一遍”。

之后，空間智能就負(fù)責(zé)把世界模型的抽象理解落到三維物理空間里。讓AI知道物體在哪里、如何分布、彼此之間如何作用。它連接了視覺感知、物理規(guī)律和動(dòng)作決策，是AI從“認(rèn)知”走向“行動(dòng)”的關(guān)鍵一環(huán)。

當(dāng)這兩種能力進(jìn)一步落到現(xiàn)實(shí)世界中，就形成了具身智能。當(dāng)AI真正擁有“身體”，比如機(jī)器人、自動(dòng)駕駛汽車，它需要把感知、推理、規(guī)劃、控制整合成一個(gè)完整的閉環(huán)。這時(shí)AI面對的不再是數(shù)據(jù)，而是一個(gè)充滿不確定性的真實(shí)世界。在這個(gè)過程中，世界模型負(fù)責(zé)訓(xùn)練階段的內(nèi)部模擬與決策推理，空間智能則在現(xiàn)實(shí)部署時(shí)承擔(dān)感知與場景理解。

所以說，這三者之間，其實(shí)是一條非常清晰的路徑：從在“腦海中”理解和預(yù)測世界（世界模型），到在空間中對世界進(jìn)行三維建模（空間智能），再到讓AI真正進(jìn)入并作用于這個(gè)世界（具身智能）。

技術(shù)路線拆解

空間生成 VS 潛空間預(yù)測

要真正實(shí)現(xiàn)具身智能，是無法跳過空間智能的。現(xiàn)在關(guān)于空間智能，業(yè)界主要有“空間生成”和“潛空間預(yù)測”兩種路線。

首先，很多研究者認(rèn)為，要實(shí)現(xiàn)空間智能，還是得先去“生成空間”。AI必須先擁有一個(gè)足夠真實(shí)、可交互的3D世界，才能在其中反復(fù)試錯(cuò)、學(xué)習(xí)物理規(guī)律，并最終遷移到現(xiàn)實(shí)。這種路線最具代表性的就是李飛飛的World Labs，也包括群核科技、Meshy AI等等。

但空間究竟如何被生成呢？從生成方式上來看，目前主要有重建式、推斷式、生成式三種路徑。

重建式就是要通過激光掃描儀、深度相機(jī)、無人機(jī)攝影測量等從現(xiàn)實(shí)世界采集數(shù)據(jù)，再還原出三維結(jié)構(gòu)。它的上限是輸入數(shù)據(jù)的質(zhì)量，現(xiàn)實(shí)采集得越完整，重建結(jié)果就越準(zhǔn)確。

推斷式是指當(dāng)輸入信息不足以完整還原場景時(shí)，比如只有一張照片，或者只有稀疏的幾個(gè)視角，AI需要根據(jù)已有線索，去推理補(bǔ)全那些“看不見”的部分。隨著大模型能力的提升這種路線獲得了更大空間，是當(dāng)前最活躍的方向之一。

生成式則是比推斷式更進(jìn)一步，它通過借助擴(kuò)散模型、大型重建模型（LRM）等技術(shù)，讓AI直接從海量數(shù)據(jù)中學(xué)習(xí)三維世界的規(guī)律，用戶能夠通過輸入文字、圖片、草圖等就可以生成3D資產(chǎn)和場景。

但在實(shí)際的發(fā)展中，越來越多的前沿嘗試正在把“重建、推斷、生成”融合在一起使用。

以World Labs為例，雖然外界常把它歸類為生成式路線，但它的目標(biāo)并不只是生成3D內(nèi)容，而是構(gòu)建具備空間理解能力的世界模型。在這個(gè)過程中，它既借鑒重建式從真實(shí)數(shù)據(jù)中學(xué)習(xí)結(jié)構(gòu)，也依賴推斷能力補(bǔ)全不可見部分，再結(jié)合生成模型去構(gòu)建新的空間。因此模型不僅要具備生成能力，還要同時(shí)處理深度估計(jì)、視角一致性以及幾何約束等問題，從而讓生成結(jié)果不僅“看起來像”，而且在空間結(jié)構(gòu)上是成立的。

但無論是哪種生成的方式，空間都需要最終被表示出來。

傳統(tǒng)的路徑，是用點(diǎn)云、Mesh這樣的方式來描述三維世界。點(diǎn)云是離散的點(diǎn)集，Mesh則在此基礎(chǔ)上加入了面與邊的連接，兩者雖然形式不同，但核心思路是一致的，那就是通過在三維空間里打滿坐標(biāo)，把世界固定和搭建出來。這條路線直觀、成熟，Mesh的編輯和修改尤其方便，因此在游戲、建模、數(shù)字孿生等領(lǐng)域被廣泛使用。但現(xiàn)實(shí)世界的細(xì)節(jié)近乎無限，高精度往往意味著數(shù)據(jù)量的指數(shù)級增長，從采集、存儲(chǔ)到實(shí)時(shí)渲染都面臨巨大壓力。

另一條路徑，是近年來興起的神經(jīng)表示方法。以NeRF為代表，它不再把世界顯式地“搭建”出來，而是訓(xùn)練一個(gè)針對特定場景的神經(jīng)網(wǎng)絡(luò)，讓它隱式地記住這個(gè)場景的幾何與外觀信息。訓(xùn)練完成后，只要給定一個(gè)視角，它就能直接渲染出對應(yīng)的畫面。但NeRF的代價(jià)是速度慢，且每個(gè)場景都需要單獨(dú)訓(xùn)練，不具備跨場景的泛化能力。

后來出現(xiàn)的高斯?jié)姙R（3D Gaussian Splatting）則走了一條折中的路，用顯式的高斯橢球體來表示場景，同時(shí)結(jié)合神經(jīng)渲染的思路，在保留畫面質(zhì)量的前提下大幅提升了速度，讓這一方向開始變得更加實(shí)用。不過，這兩種方法目前對動(dòng)態(tài)場景和大規(guī)模環(huán)境的處理能力仍在持續(xù)探索之中。

黃曉煌告訴我們，現(xiàn)在在實(shí)際的落地應(yīng)用中，很多時(shí)候也是會(huì)把兩種表征方式結(jié)合起來使用。

黃曉煌群核科技聯(lián)合創(chuàng)始人兼董事長首先點(diǎn)云我們試過，但點(diǎn)云實(shí)際上能夠表征的信息太少了，NeRF性能太慢了。至于Mesh，我們最早用過，但后面發(fā)現(xiàn)Mesh用來表示物理世界還是欠缺了太多的信息，因?yàn)镸esh是我們?nèi)S世界的一個(gè)抽象，它并不是真實(shí)的。而后來出現(xiàn)的3D高斯，雖然能夠完美的表示我們物理世界的視覺效果，但是它在交互方面是有缺陷的。所以我們現(xiàn)在是用Mesh加3D高斯混合的方式來表達(dá)我們的物理世界。

除了空間生成之外，也有一些研究者認(rèn)為，很多需要空間智能的場景其實(shí)并不一定需要去做精致的3D重建，直接在潛空間里壓縮感知、輸出動(dòng)作就夠了。這種思路在學(xué)界通常被稱為潛空間預(yù)測模型（Latent Predictive Models）。

這些研究者們認(rèn)為，空間本質(zhì)上是一組復(fù)雜的數(shù)學(xué)關(guān)系，AI并不需要還原視覺上的每一個(gè)像素，而應(yīng)將復(fù)雜的環(huán)境信息壓縮進(jìn)高維的潛空間中。在這個(gè)空間里，AI學(xué)習(xí)的，是環(huán)境動(dòng)態(tài)的統(tǒng)計(jì)規(guī)律——物體之間的距離、方位與因果聯(lián)系。它有點(diǎn)像人類的“直覺”感知，即便沒有精致的三維模型，依然能做出準(zhǔn)確判斷，從而實(shí)現(xiàn)更低延遲、更強(qiáng)泛化性的實(shí)時(shí)交互。這一路線代表包括Yann LeCun的JEPA架構(gòu)、以及DeepMind的Dreamer系列等等。

但由于它不生成人類可見的圖像或三維結(jié)構(gòu)，相較于顯式重建方法，它缺乏幾何層面的可解釋性，比如預(yù)測出錯(cuò)時(shí)，很難從空間角度定位問題所在，也難以進(jìn)行人工干預(yù)和調(diào)試。此外，在處理跨越長時(shí)空、需要精細(xì)空間記憶的任務(wù)時(shí)，潛空間表示也容易丟失關(guān)鍵細(xì)節(jié)。

中美商業(yè)路徑分野

“物理世界” VS “虛擬世界”

所以從商業(yè)落地的層面來說，空間生成路線成為了當(dāng)下更為穩(wěn)健的選擇。它能夠讓空間智能在自動(dòng)化設(shè)計(jì)、高精度機(jī)器人仿真、智能家居、游戲、電商等領(lǐng)域，都能夠以最直觀的方式完成從虛擬到現(xiàn)實(shí)的商業(yè)閉環(huán)。

比如World Labs最近的商業(yè)化速度非常快，通過其核心模型Marble和全新的World API，已經(jīng)跟波士頓動(dòng)力、Figure等頂尖機(jī)器人廠商達(dá)成合作，為它們提供海量的具備物理一致性的訓(xùn)練環(huán)境，也通過跟Autodesk合作將空間生成能力植入建筑與工業(yè)設(shè)計(jì)工作流，并且還將World API深度接入了NVIDIA的Isaac Sim機(jī)器人仿真平臺(tái)，成為具身智能產(chǎn)業(yè)鏈中不可或缺的數(shù)據(jù)工廠。此外在影視、游戲等領(lǐng)域也在不斷探索落地。

圖片來源：NVIDIA

從商業(yè)化的路線上來說，World Labs更多的是“學(xué)術(shù)+前沿”驅(qū)動(dòng)，更偏向于從基礎(chǔ)模型建立空間智的基座，最終去打造一個(gè)通用的3D世界。而目前很多企業(yè)也瞄準(zhǔn)了一些更為垂直的應(yīng)用場景去做切入。比如黃曉煌告訴我們，群核在做空間智能戰(zhàn)略的時(shí)候，更多的就是以“工程+產(chǎn)業(yè)”驅(qū)動(dòng)，瞄準(zhǔn)不同的應(yīng)用場景去做產(chǎn)品創(chuàng)新。

黃曉煌群核科技聯(lián)合創(chuàng)始人兼董事長我們跟World Labs一個(gè)很大區(qū)別是，我們所有訓(xùn)練的模型以及工具都緊貼著物理世界在做，我們要求出來的場景內(nèi)容都是跟物理世界盡可能地接近，甚至我們希望它只做真實(shí)的照片或者視頻去生成內(nèi)容。游戲那種漫畫效果之類的，我們不打算做，雖然它可能也能生成，但是肯定不是我們關(guān)注的點(diǎn)。李飛飛她們的模型就啥都能做，特別在游戲行業(yè)的效果是特別好的，但那一塊我們就完全不去介入。

我們開源了一個(gè)叫SpatialGen的算法，它跟World Labs是比較像的。但我們創(chuàng)業(yè)初期，實(shí)際上是想用云端的GPU集群去顛覆，類似于Autodesk這類產(chǎn)品的。但是現(xiàn)在因?yàn)檫M(jìn)入AI時(shí)代后，好像感覺這類傳統(tǒng)的軟件也不升級，我們也不可能照它們的操作模式去開發(fā)產(chǎn)品。所以我們還是希望用全新的理念來做這些東西，我們現(xiàn)在也在探索類似于vibe design（氛圍設(shè)計(jì)）的方式來取代原來類似于Autodesk的操作方式。現(xiàn)在各種影視制作、電商制作、建筑設(shè)計(jì)等行業(yè)也都在探索。

陳茜硅谷101聯(lián)合創(chuàng)始人你覺得中國跟美國在空間智能上面的發(fā)展有什么樣的不一樣的路線區(qū)別嗎？

黃曉煌群核科技聯(lián)合創(chuàng)始人兼董事長我覺得美國更貼近于虛擬世界，中國更貼近于物理世界。可能中國的制造力比較強(qiáng)，所以中國的機(jī)器人本體公司多，比如機(jī)器人采集物理信息的設(shè)備公司多，所以我們戰(zhàn)略也是圍繞著貼近物理世界在做。美國比較強(qiáng)的是大模型公司，所以做了很多虛擬世界的、跟真實(shí)世界比較不一樣的東西，這類公司和純大模型的公司會(huì)比較多一些。

因?yàn)槿汉丝萍际且钥臻g設(shè)計(jì)軟件酷家樂起家，所以他們的特點(diǎn)和相對優(yōu)勢就在于他們積累了海量的CAD/BIM數(shù)據(jù)，也就是那些真實(shí)的戶型和房屋結(jié)構(gòu)信息等，這些數(shù)據(jù)也讓他們能夠訓(xùn)練出更加貼近真實(shí)和“物理正確”的空間模型。

比如目前群核已經(jīng)開放了兩款空間大模型，包括用于空間理解的空間語言模型SpatialLM和空間生成模型SpatialGen。其中SpatialLM作為市面少有的空間語言模型，補(bǔ)充了大語言模型對3維空間的理解空白，2025年3月推出便登上了全球AI開源社區(qū)HuggingFace模型榜單前三。

而基于這套數(shù)據(jù)與技術(shù)底座，他們在酷家樂的智能化改造基礎(chǔ)上先后推出了服務(wù)于不同行業(yè)的空間智能產(chǎn)品。比如面向具身智能與數(shù)字孿生的SpatialVerse空間智能訓(xùn)練平臺(tái)，能夠提供高保真空間仿真與合成數(shù)據(jù)，用來支持機(jī)器人訓(xùn)練、AR/VR內(nèi)容與工業(yè)數(shù)字孿生；面向視頻創(chuàng)作的LuxReal，依托群核自研的空間生成模型與物理真實(shí)渲染，可以產(chǎn)出時(shí)空一致的AI視頻與數(shù)字內(nèi)容，服務(wù)于影視短劇、廣告、電商等場景；面向所有人的Aholo開放平臺(tái)，具有開放空間重建、生成、編輯、理解四大能力，用以降低行業(yè)接入3D空間智能的門檻。整體上形成了從設(shè)計(jì)工具到產(chǎn)業(yè)底座、再到開放生態(tài)的完整空間智能產(chǎn)品矩陣。

如果去看群核科技的發(fā)展歷程，就會(huì)發(fā)現(xiàn)他們似乎很會(huì)做“預(yù)判”。

2012年，當(dāng)英偉達(dá)GPU還只是“小眾硬件”的時(shí)候，他們就開始基于GPU來創(chuàng)業(yè)，接著踩中了房地產(chǎn)的上行周期，迅速占領(lǐng)了空間渲染和設(shè)計(jì)領(lǐng)域的市場，幾年內(nèi)就將營收做到數(shù)億規(guī)模。

2018年左右，當(dāng)時(shí)空間智能幾乎處于無人問津狀態(tài)的時(shí)候，他們便基于空間數(shù)據(jù)開始轉(zhuǎn)向研究空間智能，接著快速推出了一系列服務(wù)于世界模型、具身智能的空間智能模型、工具和平臺(tái)。

黃曉煌告訴我們，這背后是因?yàn)樗麄円恢倍际悄弥板N子”在找“釘子”。而在采訪中，他也跟我們聊了群核是如何一步步找到商業(yè)落地切入點(diǎn)并且轉(zhuǎn)向空間智能的經(jīng)歷。

黃曉煌博士畢業(yè)后就在英偉達(dá)從事CUDA的研究，那時(shí)候的GPU只能用來做一些基礎(chǔ)的數(shù)學(xué)計(jì)算，很少有人會(huì)把它和“未來的計(jì)算平臺(tái)”聯(lián)系在一起。但他當(dāng)時(shí)就覺察到，相比CPU，GPU這種Manycore多核架構(gòu)才是下一代計(jì)算的方向，這也是后來群核科技名字的由來。

不過在當(dāng)時(shí)，英偉達(dá)的經(jīng)歷并沒有給他的創(chuàng)業(yè)加分，反而還一度成為了他融資的阻礙。而群核是如何從第一筆融資就幾乎失敗，到“杭州六小龍”的聲名鵲起，再到如今成為六小龍中第一家沖擊上市的公司呢？以下就是我和黃曉煌的采訪片段。

對話黃曉煌

幾經(jīng)周期起伏的AI天平

陳茜：你當(dāng)時(shí)在英偉達(dá)的時(shí)候看到了什么樣的事情？你回國的時(shí)候想要去押注一個(gè)什么樣的賽道呢？

黃曉煌：我當(dāng)時(shí)在英偉達(dá)工作的時(shí)候，正好是英偉達(dá)最艱難的時(shí)候，當(dāng)時(shí)游戲產(chǎn)業(yè)差不多在萎縮，所以臺(tái)式機(jī)的顯卡肯定也在萎縮。但是老黃提了一個(gè)理念，摩爾定律在CPU上已經(jīng)走到了盡頭，GPU因?yàn)樗腗anycore的架構(gòu)能夠讓算力持續(xù)地、更快地提升，所以以后它的速度和CPU比會(huì)越來越快。順便一提，Manycore也是我們公司的名字。

我不知道別人相信不相信，我當(dāng)時(shí)是非常堅(jiān)信這一點(diǎn)的，因?yàn)槲冶緛碜xPhD的時(shí)候就在研究這個(gè)。但是當(dāng)時(shí)沒多少人用，我費(fèi)盡心思去推銷給各個(gè)科研機(jī)構(gòu)讓他們?nèi)ビ肅UDA，但是很費(fèi)勁。后面我想那還不如我自己用，因?yàn)槲矣袝r(shí)候都得把demo寫出來，證明給他們看效果很好。

后面我想太費(fèi)勁了，還不如自己創(chuàng)業(yè)，因?yàn)槲矣X得這東西的底層邏輯、第一性原理是絕對靠譜的，所以我當(dāng)時(shí)就自己實(shí)現(xiàn)了一個(gè)物理正確的渲染。因?yàn)楫?dāng)時(shí)非常慢，要大概一個(gè)小時(shí)出一張圖，然后我就用GPU集群給它加速到10秒鐘。當(dāng)demo做出來之后，我就拿著這個(gè)技術(shù)2011年底回國，2012年就正式開做了。

陳茜：你那時(shí)候?yàn)槭裁床辉诿绹鴦?chuàng)業(yè)？要回國創(chuàng)業(yè)。

黃曉煌：我的原型和第一個(gè)產(chǎn)品就在美國做的，也在美國融過資。但是當(dāng)時(shí)美國正好遇到金融危機(jī)，再加上我們發(fā)現(xiàn)這個(gè)技術(shù)第一波最適合用的場景可能是建筑和裝修設(shè)計(jì)，當(dāng)時(shí)國內(nèi)如日中天。

陳茜：所以雖然你走的是非常技術(shù)的路線，但是你把落地從一開始就想好了的。

黃曉煌：對，因?yàn)槲覀兊膭?chuàng)業(yè)其實(shí)不是那么的一帆風(fēng)順的，第一筆融資非常困難。我記得有一個(gè)很著名的基金跟我說，我跟我合伙人工作履歷不太好。

陳茜：你跟你的合伙人工作履歷不太好？

黃曉煌：你回到10多年前看，確實(shí)工作履歷不太好。

陳茜：是因?yàn)樗麄儾徽J(rèn)可英偉達(dá)，覺得英偉達(dá)不是一個(gè)很了不起的公司？

黃曉煌：（覺得英偉達(dá)）馬上要倒閉了。當(dāng)然我們畢業(yè)學(xué)校不錯(cuò)，當(dāng)時(shí)最流行的實(shí)際上不是技術(shù)公司，是O2O公司。你做任何東西之前，都需要在行業(yè)里混過、有行業(yè)經(jīng)驗(yàn)的人。因?yàn)槲覀兊谝还P錢融的很困難。所以從第一天開始，我們做的任何產(chǎn)品都希望它能夠想好落地應(yīng)用，以及把行業(yè)的應(yīng)用場景想清楚之后再去做。

因?yàn)槲?012年一年基本沒融到資，后面就把整個(gè)團(tuán)隊(duì)打造成落地跟技術(shù)兩手抓，而不只是抓技術(shù)。所以我其實(shí)挺羨慕這幾年硅谷這些公司的，可以融了資以科研為主。

陳茜：你最開始給投資人講的一個(gè)愿景或者故事是什么樣子的？因?yàn)槟莻€(gè)時(shí)候你跟他們講空間智能，他們可能還get不到。

黃曉煌：我們當(dāng)時(shí)最開始還不是講空間智能，我們講的是把GPU做到云端去，做快速的、物理正確的渲染，但一分錢都融不到。后來有投資人朋友教我，反正技術(shù)你想做啥還是做啥，但你包裝成家裝O2O的故事，然后很快就融到錢了。

陳茜：所以你們第一輪融了多少？

黃曉煌：第一輪最早是我原來有個(gè)浙大校友王淮給了50萬人民幣，然后后面IDG投了200萬美金。再之后我們第一個(gè)產(chǎn)品酷家樂出來，很快就爆了。原來你做一套圖要花一星期，我們通過GPU集群實(shí)現(xiàn)了早期的這種自動(dòng)設(shè)計(jì)，把整個(gè)過程盡可能的自動(dòng)化，基本上幾個(gè)小時(shí)就可以做完。一開始講的故事是先吸引業(yè)主自己來設(shè)計(jì)，然后賣貨，后面留下來的其實(shí)都是設(shè)計(jì)師用戶。

圖片來源：酷家樂

陳茜：所以最開始就是一個(gè)非常ToC的商業(yè)。

黃曉煌：最早是做ToC，一開始用戶漲得很快，很驚喜，之后內(nèi)部就開始很糾結(jié)，到底是你要做一個(gè)技術(shù)公司，還是去賣家具。糾結(jié)了很長時(shí)間，內(nèi)部有兩波意見，有些做運(yùn)營的同事確實(shí)想直接去賣貨。但因?yàn)槲覀內(nèi)齻€(gè)聯(lián)合創(chuàng)始人都做技術(shù)的，覺得這行非常不擅長，后面還是專注在提供技術(shù)為主，雖然收費(fèi)收不了太多，但是反正我們覺得這是我們能夠把握住的機(jī)會(huì)。

陳茜：后來你們第二波是什么時(shí)候？那個(gè)時(shí)候你們開始盈利了嗎？

黃曉煌：第二波是2018年。我們其實(shí)2017年現(xiàn)金流就正的，是躺著賺錢的感覺。到2018年，我們就在想下一步的拓展方向，當(dāng)時(shí)AI比較火，我們就開始投入做一些空間智能的前身。

陳茜：但是那個(gè)時(shí)候的AI跟現(xiàn)在我們說的AI還不是一回事吧？

黃曉煌：還不是一回事，那時(shí)候是小模型，只能做視覺識別，還談不上智能。我們當(dāng)時(shí)就開始用這些數(shù)據(jù)來做模型訓(xùn)練，但一開始訓(xùn)練了半天也不知道干什么用，就只能識別出來墻、地板等等。

我們后面還開源了一套數(shù)據(jù)集叫InteriorNet，有點(diǎn)模仿李飛飛的ImageNet，后來也開源了出來，找了很多教授來實(shí)驗(yàn)、探索，之后還確實(shí)發(fā)了不少CVPR這類頂級的論文，把空間智能的前身研究出來了。可以快速地通過一系列的圖像把空間結(jié)構(gòu)化抽取出來，有結(jié)構(gòu)化信息之后，你就能理解它。所以那時(shí)候我們就開始往就空間智能的方向去轉(zhuǎn)，當(dāng)然中間有一些插曲，比如轉(zhuǎn)了一半發(fā)現(xiàn)2020年房地產(chǎn)又大爆發(fā)了。

陳茜：當(dāng)時(shí)怎么辦呢？要回去做嗎？還是繼續(xù)往前走？

黃曉煌：我當(dāng)時(shí)往AI這方面轉(zhuǎn)了大概一兩年，但收入起來沒那么快，總的收入還不如房地產(chǎn)行業(yè)一單。因?yàn)槲矣∠笾泻苌羁淌牵?strong>當(dāng)時(shí)有客戶過來，啥也不說，先往你賬上打了1000萬，然后咱們再來談合作。我說沒談成，我可以退給你的。他說沒談成，我不要了。我當(dāng)時(shí)基本上眼珠都快掉出來了。

陳茜：哇塞，什么樣的金主爸爸這么豪橫？

黃曉煌：那個(gè)年代的房地產(chǎn)公司。回來之后我們CFO把我噴了一頓，說你這公司戰(zhàn)略不能看今日頭條來設(shè)計(jì)，這明顯如日中天的行業(yè)，你苦哈哈地搞什么AI，你干了兩三年還不如人家見面禮呢。

陳茜：所以你們當(dāng)時(shí)AI的一些客戶是誰？他們主要是用你們的服務(wù)做啥呢？

黃曉煌：當(dāng)時(shí)找的都是硅谷的這些大廠，他們也是用來科研，當(dāng)時(shí)還落不了地，應(yīng)該都是大模型的前身，在做各種嘗試，給他們的實(shí)驗(yàn)室用。像transformer等等各種的來實(shí)驗(yàn)，看看能訓(xùn)練出啥。2020年、2021年，原來老的賽道回光返照了一下，2022年就開始大調(diào)整。后面大模型出來了之后，我們2023年就把整個(gè)戰(zhàn)略的重心調(diào)整到空間智能。因?yàn)樗材軌蚍?wù)我們老的業(yè)務(wù)，也能夠讓我們產(chǎn)品線更豐富。

陳茜：所以AI這條線你其實(shí)一直沒有放，就一直抓著。

黃曉煌：它底層的引擎是借著AI這一波在升級，所以這肯定是要做的，只不過你投入多少資源做，比如說要采購多少GPU？花多少錢訓(xùn)練模型？預(yù)算怎么分配？

陳茜：怎么分配呢？你們在內(nèi)部有一個(gè)非常明晰的分配邏輯嗎？

黃曉煌：就吵架唄，我們幾個(gè)創(chuàng)始人，還有一些高管、CFO之類的，主要看你對未來的預(yù)期。

陳茜：怎么樣才算吵贏了呢？

黃曉煌：最終判斷還是在我這邊，但是我不是那種很會(huì)吵架的人。我會(huì)比較開放，聽大家的意見。確實(shí)有的時(shí)候，在那個(gè)時(shí)代里面你其實(shí)挺難判斷的。你是選擇多投入一些在基礎(chǔ)研究上，還是多投入一些在業(yè)務(wù)開發(fā)上？這是個(gè)很難的問題，沒有絕對的對錯(cuò)。有的時(shí)候客戶需求追得很緊，那你就得招很多人去做他的行業(yè)很細(xì)的需求，這時(shí)候你的資源就會(huì)在基礎(chǔ)研究上減少。基礎(chǔ)研究你覺得這個(gè)愿景很牛，但是什么時(shí)候能做出來還真不知道，做出來之后能不能變現(xiàn)也不知道，所以對于業(yè)務(wù)口子或者財(cái)務(wù)口子就覺得壓力很大，你不能創(chuàng)業(yè)不考慮大家死活。所以得在兩者之間找一個(gè)平衡。

陳茜：不光是創(chuàng)業(yè)公司，在大企業(yè)里面也是大家都是要去搶卡、搶錢、搶人才、搶資源。你有沒有一個(gè)自己的哲學(xué)，怎么去平衡這兩邊呢？

黃曉煌：我實(shí)際上是非常站在這個(gè)搶人才、搶卡這一邊，積極地創(chuàng)新、探索。

陳茜：所以你還是非常工程師、非常科研思維導(dǎo)向的這樣的一個(gè)模式。

黃曉煌：是的。當(dāng)然我也知道，按照我這思路做下去，可能錢沒賺到就掛了，所以我們公司有一波主管是管業(yè)務(wù)的，他們就會(huì)以客戶導(dǎo)向。但是客戶肯定只關(guān)心眼前的需求，純客戶導(dǎo)向也就不會(huì)去想得出變革式的東西。

我們定位還是一家商業(yè)化公司，也不是一個(gè)科研機(jī)構(gòu)。我們在做模型的同時(shí)，雖然目標(biāo)設(shè)得比較遠(yuǎn)大，希望空間智能最終還是能夠跟人類一樣去理解我們的空間，去做推理，但是這個(gè)過程是很漫長的。你看自動(dòng)駕駛做了十多年才完成了一個(gè)事情，所以在這段過程中，我們也不太希望像自動(dòng)駕駛公司一樣長期靠資本養(yǎng)著，我們還是希望能夠養(yǎng)活自己，所以我們很快就轉(zhuǎn)向空間智能，去年也盈利了。

我們會(huì)把它過程的能力想辦法用在各行各業(yè)，除了我們老的行業(yè)，我們希望能夠用空間智能技術(shù)去生成場景。比如說我這邊拍張照片，把整個(gè)場景生成出來，我就可以做重新地改造跟設(shè)計(jì)。雖然它不是直接用在機(jī)器人里面，但是底層的算法是一模一樣的，我們也把同樣的方式用在類似于短劇的制作、電商的制作。

我們內(nèi)部天天也在頭腦風(fēng)暴，以我們目前的能力，能應(yīng)用在哪些地方？而不是只有達(dá)到100分了，才去商業(yè)化落地。最終肯定是瞄準(zhǔn)了機(jī)器人普及之后，我們給機(jī)器人去使用，它在我們環(huán)境里面工作，它得快速地把空間重建出來，在里面行動(dòng)。但在這個(gè)過程中沒達(dá)到這程度的時(shí)候，我們拿可以拿它干什么？我們花了很多心思在研究。所以我覺得公司經(jīng)營久了，就得在兩者之間取一個(gè)平衡。

陳茜：你剛剛說到2022年你們開始大調(diào)整，發(fā)生了什么？

黃曉煌：2022年我覺得是讓人非常難忘的一年，包括國家政策調(diào)整，年底大模型出來，像印象很深的ChatGPT、Midjourney，每天都是信息爆炸的感覺。

圖片來源：OpenAI

陳茜：ChatGPT剛剛上線那段時(shí)間對你來說震撼嗎？

黃曉煌：對我來說還是非常震撼的，相關(guān)的技術(shù)我2020年就有在看了，但是當(dāng)時(shí)看到這論文就瞄一眼，也沒認(rèn)真看，覺得這好像沒什么。但是出來之后，這種類似人類的智慧，能夠通過更多的數(shù)據(jù)、更長時(shí)間、更大規(guī)模的訓(xùn)練而產(chǎn)生，這還是有點(diǎn)顛覆我當(dāng)時(shí)認(rèn)知的。那段時(shí)間，因?yàn)橐咔橐策€沒結(jié)束，所以我天天也在看論文，自己在做實(shí)驗(yàn)，感覺我們原來老的那一套發(fā)展路徑得徹底轉(zhuǎn)方向了。原來的理念是做一個(gè)簡單的工具，提高人的效率，但現(xiàn)在就變成直接把人給替代掉了。所以肯定整個(gè)工具鏈的做法、體系的做法已經(jīng)完全不一樣了。當(dāng)然也很焦慮，它會(huì)變成什么樣子，你完全不知道。所以當(dāng)時(shí)就一直關(guān)在家里面，一邊看文章，一邊自己寫代碼、做實(shí)驗(yàn)，也在想未來怎么辦。那段時(shí)間我覺得一是有點(diǎn)恐懼、有點(diǎn)焦慮，二是也很興奮。

陳茜：所以是大語言模型、ChatGPT出來對你的震撼更大，還是diffusion（擴(kuò)散模型）那一波對你出來的影響更大？

黃曉煌：我覺得對我影響更大的是，我們過去信仰的都是通過更聰明的人寫算法、做實(shí)驗(yàn)，這算法寫得很精妙，就非常聰明、能力很強(qiáng)。但不管是ChatGPT還是Midjourney，給我的感受都是，數(shù)據(jù)量越多，它就越智能、越聰明，這完全改變了我原來對于算法的認(rèn)知，所以對我的沖擊是非常大的。

陳茜：那之后你在公司里邊做了什么樣的調(diào)整呢？

黃曉煌：公司里基本上2023年開始，我們方向就調(diào)整成這種智能的方式，現(xiàn)在叫空間智能。原來很多靠人工在做的、在開發(fā)的東西，我們都希望通過模型跟算法來實(shí)現(xiàn)。原來的產(chǎn)品形態(tài)從輔助性的工具，我們也逐步希望它能夠代替人來完成任務(wù)。

陳茜：那就是產(chǎn)品方向的調(diào)整，你們整個(gè)的路線也會(huì)發(fā)生變化，以及服務(wù)的客戶其實(shí)也會(huì)發(fā)生變化，對嗎？

黃曉煌：對，這里面一個(gè)巨大的變化。過去2022年之前，我們認(rèn)為公司的增長核心是產(chǎn)品。2022年之后，2023年左右，我們突然意識到公司的增長核心是算法、是模型，就是它躲在產(chǎn)品下面的底層能力，實(shí)際上才是公司的真正的壁壘跟驅(qū)動(dòng)力。所以資源就開始要快速地調(diào)整，我們在這種模型訓(xùn)練的實(shí)驗(yàn)室就加了很多人。

陳茜：OpenClaw給你帶來什么樣的啟示嗎？

黃曉煌：我一直在思考，我們內(nèi)部也在推出一些針對OpenClaw的skill。但我主觀的感覺是以后用工具的人、用軟件的人會(huì)變少，他會(huì)硬件接著模型直接用。所以你的收費(fèi)模式肯定不能是按SaaS的收費(fèi)模式，而是按token、按量付費(fèi)的收費(fèi)模式。還有就是硬件很重要，因?yàn)槟銜?huì)發(fā)現(xiàn)這一波隨著AI自動(dòng)能夠?qū)懘a，我們操作硬件會(huì)越來越簡單。

未來是一個(gè)多硬件終端的世界，你的眼鏡、你的機(jī)械臂、你的各種攝像頭等等的都擁有智能，都能夠干一些活。可能未來你報(bào)警只要對著監(jiān)控?cái)z像頭打一個(gè)手勢，就可以報(bào)警了，你不需要鍵盤，不需要電話。所以所有的物理設(shè)備都是輸入，就不再像過去只有手機(jī)跟電腦，那這時(shí)候你得把能連接的物理硬件全部銜接了。

因?yàn)槲覀円步?jīng)歷過激烈的競爭，我們當(dāng)時(shí)做家居產(chǎn)品的時(shí)候，做工業(yè)4.0，我們連接了所有的硬件設(shè)備。當(dāng)遇到激烈競爭以及大模型的沖擊之后，我們發(fā)現(xiàn)：如何連接所有的硬件設(shè)備，如何去準(zhǔn)確地操作硬件設(shè)備，這一塊是大模型幾乎涉及不到的。它沒有辦法離開物理世界，自己在一個(gè)電腦上跑，這波AI我覺得反而是受益方。但是你如果能夠鎖定在一個(gè)電腦里自我完成閉環(huán)的東西，我覺得就很危險(xiǎn)。所以我們戰(zhàn)略也在調(diào)整，我們把連接所有的物理設(shè)備，連接物理世界作為我們核心戰(zhàn)略，然后把工具這塊就弱化了。

陳茜：整個(gè)3D生成還有渲染還是需要非常多算力去支持的，你覺得在卡或者是整個(gè)的數(shù)據(jù)中心之上，有沒有什么樣的技術(shù)手段去優(yōu)化整個(gè)的算力需求量？

黃曉煌：目前空間智能或者說具身智能這個(gè)板塊，它所用到的算力實(shí)際上遠(yuǎn)不如大語言模型。因?yàn)樗臄?shù)據(jù)量并沒有那么豐富，困擾大家的還處于數(shù)據(jù)這個(gè)階段。目前卡是夠的，是數(shù)據(jù)不夠。未來當(dāng)你解決了數(shù)據(jù)量的問題之后，那卡肯定是不夠的。當(dāng)然對于任何公司來說，比如我們，卡永遠(yuǎn)都不夠。我來出差前還在協(xié)調(diào)同事訓(xùn)練排隊(duì)的問題，是你先訓(xùn)練還是我先訓(xùn)練？為什么你先？

陳茜：公司內(nèi)部會(huì)搶卡？

黃曉煌：那必然的，我也不可能無限給卡。比如說你卡多的話，你可以同時(shí)做好幾個(gè)實(shí)驗(yàn)，那其他人就有意見了。你做了四五個(gè)實(shí)驗(yàn)，我還要等你訓(xùn)練完我才能訓(xùn)練，那就讓你停掉一個(gè)，就會(huì)各種吵來吵去的。所以我覺得卡是永遠(yuǎn)不夠的，這就看你要怎么算這個(gè)經(jīng)濟(jì)賬。比如說競爭很激烈，你不比別人快一點(diǎn)，你就要死了。那就沒有什么經(jīng)濟(jì)賬可言，你能買到就拼命買卡。但是如果你算好ROI，你是要做一個(gè)健康的商業(yè)模型，那你訓(xùn)練成本占營收多少？你得有一定的尺度。

陳茜：你的尺度是什么樣子的？你怎么去算這個(gè)事情？因?yàn)槟銈兩鲜辛酥笠惨蓶|交代，你也不可能把所有的現(xiàn)金全都拿去買卡跟做研發(fā)，你自己是怎么去看這個(gè)事情？

黃曉煌：我目前希望買卡或者租卡的算力投入控制在10%左右。如果一定要用的就買，波動(dòng)的就租，目前我們這么定的。但這也看競爭情況，比如說一個(gè)競爭對手跟你死磕，他的卡很多，你就比他慢，我不投入會(huì)死的，那我肯定是大投入了。

陳茜：你們現(xiàn)在覺得最強(qiáng)大的競爭對手是誰？

黃曉煌：我覺得空間智能這塊我們還沒有，大家還都在探索落地案例的情況下，還沒到你死我活的競爭。因?yàn)槲覀兪墙?jīng)歷過各種你死我活的競爭的，我覺得那種階段成長反而是快的。像現(xiàn)在這種階段你就沒有辦法，沒有那種可以放棄一切all-in在一個(gè)點(diǎn)上的感覺。天天在精打細(xì)算，算力能省點(diǎn)錢，代碼優(yōu)化一下、速度快一些等等。

陳茜：你覺得在這個(gè)產(chǎn)業(yè)里面，你們的護(hù)城河最重要的能力是什么？

黃曉煌：早期我們覺得護(hù)城河是工具、數(shù)據(jù)跟算法模型是循環(huán)發(fā)展的，但實(shí)際上最近一年隨著Claude Code，還有最近OpenClaw火了之后，我們內(nèi)部也在升級。我覺得光有工具、數(shù)據(jù)、模型還不夠，得連接硬件，不是說你自己要有硬件，是你得連接硬件，得緊貼著物理世界。硬件連接的模型、算法、工具可能不一定是壁壘了，但是你的模型、硬件、數(shù)據(jù)肯定是還是壁壘，所以這個(gè)是時(shí)代在發(fā)生的一個(gè)巨大的變化。我覺得貼著物理世界能活，純虛擬世界，我感覺就幾個(gè)巨頭在卷來卷去。

越核心瓶頸

缺乏高精度的真實(shí)世界數(shù)據(jù)

就像黃曉煌所提到，雖然現(xiàn)在無論是World Labs，還是群核科技，都在積極地去探索空間智能的應(yīng)用，但從整個(gè)行業(yè)發(fā)展的角度來說，空間智能仍然還停留在比較早期的階段。制約它發(fā)展的原因有很多，但如果要找一個(gè)最直觀、最現(xiàn)實(shí)的瓶頸，那就是數(shù)據(jù)。

和語言模型只需要“文字”不同，空間智能對數(shù)據(jù)的要求是多模態(tài)、多維度的。最基礎(chǔ)的一層是視覺數(shù)據(jù)，比如來自攝像頭的圖像或視頻。但這還遠(yuǎn)遠(yuǎn)不夠，模型還需要深度信息，也就是場景中每一個(gè)點(diǎn)距離傳感器有多遠(yuǎn)；需要語義信息，即畫面里每一塊區(qū)域?qū)?yīng)的是什么物體。在很多應(yīng)用場景下還需要點(diǎn)云數(shù)據(jù)，用激光雷達(dá)掃描出的、由數(shù)百萬個(gè)三維坐標(biāo)點(diǎn)構(gòu)成的空間結(jié)構(gòu)。

更重要的是，這些數(shù)據(jù)必須是對齊的。單獨(dú)一張圖片，或者單獨(dú)一幀點(diǎn)云，對空間智能的意義都很有限。模型需要的是圖像、深度、語義標(biāo)注在時(shí)間和空間上精確同步的數(shù)據(jù)。也就是說同一個(gè)場景，從多個(gè)角度、在不同時(shí)刻、用不同傳感器同時(shí)記錄下來，再經(jīng)過精確的標(biāo)定和對齊，才能成為真正可用的訓(xùn)練素材。

這還只是靜態(tài)場景的要求。如果涉及機(jī)器人操作或動(dòng)態(tài)環(huán)境理解，數(shù)據(jù)里還需要包含物體的運(yùn)動(dòng)軌跡、交互過程、乃至力反饋信息。所以說，空間智能所需要的數(shù)據(jù)是對真實(shí)世界的全方位、高精度“切片”。

在采訪中黃曉煌就談到，這樣的數(shù)據(jù)非常難獲取，一是缺乏獲取的渠道，二是數(shù)據(jù)標(biāo)注的成本也非常的高，仍然需要大量的人工參與。

陳茜：在空間智能上，現(xiàn)在在技術(shù)方向上面臨的最大挑戰(zhàn)是什么？

黃曉煌：我覺得目前這個(gè)領(lǐng)域最大問題是，缺少像大語言模型那樣大量的、免費(fèi)的開源數(shù)據(jù)。因?yàn)橄駡D片、文字什么的直接到互聯(lián)網(wǎng)上扒就好了，這種空間的數(shù)據(jù)第一是網(wǎng)上沒有，第二是還有很多隱私版權(quán)問題。

比如說我們把這空間拍攝下來，放到互聯(lián)網(wǎng)上，我估計(jì)還要征得這房東的同意，那有這么多房主，就沒有辦法規(guī)模化了。空間數(shù)據(jù)可以理解成點(diǎn)云，它每一個(gè)點(diǎn)都有三維坐標(biāo)信息、有色彩信息，當(dāng)然附上更多的信息，就更重要了。

陳茜：所以這個(gè)東西是在互聯(lián)網(wǎng)上面沒有的。

黃曉煌：有，但很少，我們也開源了一些，但非常少。

陳茜：是不是AR眼鏡這些穿戴設(shè)備普及之后會(huì)有一些幫助呢？

黃曉煌：關(guān)鍵是它這些數(shù)據(jù)能不能免費(fèi)發(fā)到網(wǎng)上？這就比較難。而且它還有一個(gè)難點(diǎn)是要做信息的標(biāo)注，不是說我有三維數(shù)據(jù)就夠了，還要有很準(zhǔn)確的標(biāo)注信息。比如說這是一個(gè)椅子，如果沒有標(biāo)注信息就沒法訓(xùn)練。

陳茜：比如說在智能空間里面生成的數(shù)據(jù)直接可以給機(jī)器人用嗎？

黃曉煌：這取決于這機(jī)器人公司用的技術(shù)棧是什么，有些機(jī)器人它根本不跟物理世界做碰撞的，只是做純視覺的，那我們的數(shù)據(jù)就sim-ready（仿真就緒）了，它就直接可以用。比如說巡邏機(jī)器人，它只要看見一個(gè)什么東西報(bào)警就可以了，它不會(huì)去做真實(shí)的交互。

當(dāng)你要做真實(shí)交互的時(shí)候，它就要有物理信息了。我們自己內(nèi)部也訓(xùn)練了模型，去猜它的物理參數(shù)。比如說猜是金屬，那它的參數(shù)是什么？猜是布料，那它的參數(shù)是什么？就會(huì)去猜。但是猜完之后你要高質(zhì)量的數(shù)據(jù)，還是需要很多的人工去校驗(yàn)。所以對于高質(zhì)量的數(shù)據(jù)的話，全自動(dòng)生成我覺得目前看起來還不夠，還是需要有很大的人工參與在里面。

陳茜：人工參與是什么樣子？比如說有些網(wǎng)絡(luò)視頻，或者視頻模型生成的東西也沒有辦法直接用嗎？

黃曉煌：網(wǎng)絡(luò)視頻用來訓(xùn)練的話，它只能訓(xùn)練一些基模或者低質(zhì)量的能力，最終它如果想拿起杯子，肯定是要在三維數(shù)據(jù)上做訓(xùn)練的。你想它握起一個(gè)杯子的話，就得有無數(shù)的杯子去訓(xùn)練它，你得見過無數(shù)的杯子，下次你看到杯子的時(shí)候才知道哪里是把手去拿它，包括杯子的質(zhì)量、材質(zhì)、摩擦力等等都有相關(guān)。人一看到杯子，大概都能知道是玻璃的還是金屬的，能猜得出它的質(zhì)量，但是我們在訓(xùn)練模型來給它做標(biāo)注的時(shí)候，還是要人工檢測。有的公司要求數(shù)據(jù)非常精確，還得去做實(shí)驗(yàn)，比如說這款玻璃我一定要測出它的摩擦力，或者某一個(gè)杯子我一定要測出它的準(zhǔn)確質(zhì)量，精確到克，那就只能去真的去采集了，就很費(fèi)勁，成本就高了。

所以不同的客戶實(shí)際上他的需求是不一樣的，但我們基本的能力就是去重建跟生成這個(gè)三維世界，重建完之后，我們的空間理解模型可以去做標(biāo)注。但這標(biāo)注能不能達(dá)到甲方的需求？這里面還有一個(gè)扯皮的過程，還需要溝通的。

陳茜：你覺得這是能解決的問題嗎？

黃曉煌：肯定能解決，只不過代價(jià)多大。現(xiàn)在通過人工也能解決，我們想做一個(gè)機(jī)器設(shè)備來采集，我覺得也能實(shí)現(xiàn)。但比較遺憾的是，物理世界的信息是無窮無盡的，采集的質(zhì)量、摩擦力這種信息都是最低要求，還有手感、捏上去之后會(huì)不會(huì)變形、變形的地方是不是均勻的等等各種參數(shù)，這些參數(shù)怎么取就很復(fù)雜了，要采的數(shù)據(jù)就太多了。

所以物理世界真的是挺復(fù)雜的，隨著大模型空間智能的不斷深入，能探索的東西我覺得只會(huì)越來越多。但是可見的將來估計(jì)是沒法窮盡的，所以簡單的先處理，復(fù)雜的就只能慢慢來。我們覺得我們也只能解決一部分，也沒有辦法解決全部的問題。

空間智能的數(shù)據(jù)問題，還不只是“不夠多”這么簡單。現(xiàn)有的三維數(shù)據(jù)集在分布上存在嚴(yán)重偏差，比如自動(dòng)駕駛的數(shù)據(jù)高度集中在晴天、白天、一線城市的標(biāo)準(zhǔn)路況；室內(nèi)數(shù)據(jù)大多來自整潔的實(shí)驗(yàn)室或標(biāo)準(zhǔn)家居等。但一旦遇到暴風(fēng)雪中的山區(qū)公路、地板上散落玩具的真實(shí)房間，模型的表現(xiàn)往往急劇下降。也就是說，真實(shí)世界的“長尾”太長，靠堆數(shù)據(jù)很難覆蓋完。

但如果追問下去，數(shù)據(jù)困境本身還有一個(gè)更深的根源，那就是我們至今沒有找到一種好的方式，讓機(jī)器像人類一樣去理解空間。人類對空間的認(rèn)知是通過身體與世界的持續(xù)互動(dòng)，在大腦中逐漸涌現(xiàn)出來的。今天的空間智能模型，本質(zhì)上缺少的，正是這種與生俱來的物理先驗(yàn)，數(shù)據(jù)是表層的瓶頸，而如何賦予機(jī)器空間認(rèn)知的底層直覺，才是這個(gè)領(lǐng)域真正懸而未決的核心難題。

雖然要真正實(shí)現(xiàn)空間智能還有非常多的難點(diǎn)需要去攻破，但在黃曉煌看來，就像當(dāng)年英偉達(dá)的GPU一樣，在我們走向空間智能的過程中，也一定會(huì)不斷解鎖出很多意想不到的、有意思的應(yīng)用。

黃曉煌：黃仁勛在今年GTC上也講了CUDA 20周年，我就是第一批去開發(fā)CUDA的人。我當(dāng)時(shí)開始研究這一塊，最早只能用來算算數(shù)學(xué)、做個(gè)數(shù)字的排序、解解方程、算算矩陣，到現(xiàn)在看到人工智能這么普及，但是它底層還是這些算法。所以感覺人類的智慧是一層一層搭積木一樣搭上去的，而且越搭越高，再往上會(huì)出現(xiàn)什么？值得我們?nèi)ハ胂蟆ｋm然我們現(xiàn)在做空間智能，也是感覺真正普及需要3到5年的時(shí)間，但是是會(huì)有各種各樣超乎想象的東西會(huì)出現(xiàn)。

圖片來源：NVIDIA

陳茜：感覺現(xiàn)在只是一個(gè)起點(diǎn)而已。

黃曉煌：是一個(gè)新的起點(diǎn)，我覺得這個(gè)賽道上每3到5年都相當(dāng)于一個(gè)全新的起點(diǎn)。你回過頭來看，從我剛回國的時(shí)候，當(dāng)時(shí)只能做簡單的數(shù)學(xué)運(yùn)算，所以出現(xiàn)了挖礦，然后5年后第一波，當(dāng)時(shí)做視頻監(jiān)控的那批AI起來，然后又過了5年就到現(xiàn)在大模型出來了，再過5年就不知道會(huì)出現(xiàn)什么，我覺得挺期待的。

陳茜：你每年都來看GTC，你覺得英偉達(dá)的整個(gè)的成長路線，包括黃仁勛怎么去帶領(lǐng)英偉達(dá)，對你來說有什么啟發(fā)嗎？

黃曉煌：我創(chuàng)業(yè)的過程很受英偉達(dá)這種模式的影響，因?yàn)槲夜ぷ鬟^的也就這一家公司，所以它這個(gè)模式我覺得還是值得我們學(xué)習(xí)的。

首先是第一性原理，比如GPU的架構(gòu)能夠突破摩爾定律，當(dāng)年我們在做這個(gè)的時(shí)候，雖然我們知道肯定會(huì)算得很快，但是我也不知道干什么用，所以會(huì)在不斷地找應(yīng)用，現(xiàn)在就叫“拿著錘子找釘子”。所以我們在自己創(chuàng)業(yè)的時(shí)候，我們的方法論也是先找到一個(gè)你相信一定能夠改變世界的東西，這東西會(huì)比較通用，然后你再去找應(yīng)用，比如說英偉達(dá)最早用在游戲行業(yè)，聽起來都覺得不太正經(jīng)的，但現(xiàn)在每家公司都需要他們，它就是有這么一個(gè)過程。

我覺得公司得先活下來才有未來。比如英偉達(dá)做的是高性能計(jì)算，用在游戲行業(yè)只是先活下來，之后救了它的是挖礦，后面才有大模型。所以像空間智能一開始能用在哪些領(lǐng)域？我覺得房地產(chǎn)領(lǐng)域是一個(gè)非常好的賽道，最終只要我們物理世界還存在，空間智能就一定會(huì)發(fā)揮它巨大的價(jià)值的。

所以反正你只要相信這一點(diǎn)，相信有一天你的電腦也能夠跟我們?nèi)祟愐粯樱谖锢硎澜缋锩孀杂傻鼗顒?dòng)、自由地干活，那空間智能是一定需要的。你只要相信這一點(diǎn)，你就慢慢做，反正啥機(jī)會(huì)來了你就湊上去，把業(yè)務(wù)擴(kuò)大。如果機(jī)會(huì)沒了，就慢慢等。反正現(xiàn)在公司做到這階段，我覺得至少對得起自己，但能不能再往上幾個(gè)臺(tái)階就看命了。

所以就像黃曉煌談到的，如果把時(shí)間拉長來看，空間智能更像是一次必然發(fā)生的躍遷。

就像GPU最初只是用來做圖形計(jì)算，后來一路走到AI基礎(chǔ)設(shè)施的位置一樣。今天我們還很難完全看清空間智能最終會(huì)長成什么樣，但可以確定的是，它一定會(huì)在某些意想不到的地方，先找到自己的“第一個(gè)爆發(fā)點(diǎn)”。這個(gè)“爆發(fā)點(diǎn)”也許是房地產(chǎn)，也許是游戲，也許是機(jī)器人，甚至是我們今天還無法想象的應(yīng)用場景。

但只要AI有一天真的要走出屏幕，進(jìn)入到真實(shí)世界，那空間智能就不再是一個(gè)“可選項(xiàng)”，而是一個(gè)繞不過去的基礎(chǔ)能力。關(guān)于接下空間智能的研究的進(jìn)展，以及更多的落地應(yīng)用我們也會(huì)持續(xù)追蹤。

注：部分圖片來源于網(wǎng)絡(luò)

【本期節(jié)目不構(gòu)成任何投資建議】

【視頻播放渠道】

國內(nèi)：B站｜騰訊｜視頻號｜西瓜｜頭條｜百家號｜36kr｜微博｜虎嗅

海外：Youtube

聯(lián)系我們：video@sv101.net

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.