網易首頁 > 網易號 > 正文申請入駐

性能超越李飛飛，他們把10億高斯點的3D世界裝進瀏覽器

2026-05-25 14:45:32　來源: 機器之心Pro

河北舉報

分享至

編輯｜冷貓

我們知道，世界是三維的。

但互聯網普及至今，受限于技術、硬件和傳播載體，在幾十年的時間里，都在把這個三維世界壓成二維來表達。文字、圖片、視頻，這三種信息載體承載了我們今天在網上看到的幾乎一切，都已經把這個世界降維。這是過去，互聯網受限于帶寬、硬件和計算能力后的「妥協」。

直到 3D 高斯潑濺（3D Gaussian Splatting, 3DGS）的出現，才第一次讓「隨手拍、即時重建、實時漫游」三維場景成為可能。但這項技術一直卡在「最后一百米」：怎么讓普通人在瀏覽器里流暢地看？

今年 4 月，李飛飛領銜的 World Labs 開源了 3D 高斯渲染引擎 Spark 2.0，瞬間引起技術圈的關注。

就在剛剛，群核科技的空間智能平臺 Aholo又推進了一步：正式了開源 3D 高斯瀏覽器 Aholo Viewer，并且在渲染速度和大場景加載性能上超越了 Spark 2.0。它讓任何設備的瀏覽器都能流暢運行10 億 +粒子的超大 3D 場景。

簡單理解，它可以讓你像刷視頻一樣，在瀏覽器里流暢瀏覽超大的 3D 世界。就像 3D 版的抖音、B 站，超大 3D 世界也可以像視頻一樣快速傳輸。

主頁鏈接：https://aholojs.dev/zh-CN/
Github 鏈接：https://github.com/manycoretech/aholo-viewer

從更大的意義來說，李飛飛與群核科技接連推出 3D 高斯瀏覽器，是一個時代到來的信號，代表著信息載體的范式躍遷：互聯網信息載體從文字、圖片、視頻，第一次真正邁向可交互、可漫游的 3D 內容，而 3D 將成為互聯網的基礎語言之一。

十億高斯點，手機瀏覽器也能流暢跑

在三維視覺領域，3D 高斯潑濺的出現是一個里程碑。

這是一種從 2023 年起在學界快速走紅的三維場景表示方法。它把一整個真實場景顯式地建模為數十萬到數十億個可學習的 3D 高斯橢球，每個橢球帶有自己的位置、形狀、顏色和透明度，再通過可微分光柵化做實時渲染。

但新技術的出現，并沒有讓 3D 內容變得像二維信息內容一樣普及。因為 3D：

太大，傳輸難。一個完整的 3D 場景數據動輒幾十 GB。
太重，加載慢。想要流暢漫游三維模型，設備性能門檻極高。

所以，Spark 和 Aholo Viewer 都在解決的一個核心問題是：——讓 3D 內容也能流暢加載瀏覽，點開一個鏈接，就能「走進」任何一個真實或虛擬的三維世界。

這樣，普通用戶拿起手機用 3D 方式記錄生活中的一切。商品的展示，也會逐步從靜態圖變成用戶可以在手機里隨意旋轉的 3D 場景。日常生活如逛博物館的線上展、看車看房等等，3D 交互體驗會越來越無縫地融入到日常刷網頁的過程中。

在性能上，我們上手測試了下，對一個 3 億高斯點的場景，桌面端 Aholo Viewer占用內存只有 Spark 2.0 的一半，加載速度快 1 倍、渲染速度快 3 倍，渲染效果也優于 Spark 2.0。最高可流暢加載10 億高斯點的場景，是 Spark 2.0 上限的 10 倍

技術路線上，目前 Web 端 3DGS 渲染主流有兩種 LOD 組織方式，Aholo Viewer 和 Spark 2.0 各自選了一個技術方向。

Spark 2.0 選用的是 Splat-based LOD Tree，從單個高斯點（splat）粒度自下而上做合并，構造連續的細節層級。

這種方案的好處是逐層加載細節，理論上能讓層級切換感不突兀，但在實際體驗中，Spark 2.0 的細節切換感仍然比較明顯。代價則是內存和顯存開銷較大，同時后期擴展性偏弱，難以靈活結合其他優化手段。

Aholo Viewer 選用的是Chunk-based LOD Tree：把原始 3DGS 數據先切成 N 個 chunk（數據塊），再分別為每個 chunk 生成不同層級的 LOD，運行時以 chunk 為單位做層級切換。

這個差異看著不大，效果卻很顯著。

第一是內存與顯存的開銷更可控。當系統只需要為整個 chunk 選層級，無需為成千上萬個 splat 各自決策，內存調度的顆粒度更粗、緩存命中更好，與常規加載方案相比基本不引入額外開銷。

第二是可擴展性更強：chunk 是一個清晰的數據邊界，未來要擴到城市級、街區級的超大場景，按區塊拼接、按區塊單獨聊聊更新，會比 splat 粒度的方案更容易。

在渲染管線層面，Aholo Viewer 通過多精度數據結構降低顯存占用，通過緩存預計算與按需 pass 壓縮每幀 GPU 開銷，通過 Morton Sort 和 detail culling 改善數據訪問效率。這些優化疊加在一起，最終落到了一組用戶可感知的數字：內存減半、加載快 1 倍、渲染快 3 倍、容量上限大 10 倍

Aholo Viewer 在細節上做得比較周全，遠比 Spark 2.0 做的更細更完善。比如格式上兼容主流 3DGS 格式，還有完整的工具支持，包括數據格式轉換、3D 高斯碰撞體生成等能力。

Aholo Viewer 已經是一個非常完善的開源工作，已經做好被開發者落地產品應用的準備。

互聯網的 3D 躍遷

3D 高斯的實時傳輸和查看的技術問題已經解決了，但這能用來做什么？

只是把 3D 場景放進瀏覽器讓用戶旋轉觀看，還不足以讓 3D 內容像如今的短視頻一樣普及。

價值躍遷，發生在 3D 內容從「展示媒介」變成「生產力工具」的那一刻：當 3D 數據可以被編輯、被調用、被嵌入工作流、被下游系統消費，這才是從「能看」到「能用」的跨越。

其實，群核科技的 Aholo 跟李飛飛的 Marble 之間有一個比較大的差異。李飛飛走的是通過 AI 生成虛擬環境，而群核除了 AI 生成之外，更著重于現實世界的重建模擬。相比于創意表達，它更在意如何在物理世界做功：比如工業孿生、機器人訓練、導向落地的空間設計，以及遵從物理屬性的視頻生成短劇制作等場景。

所以，除了推出 3D 高斯瀏覽器，Aholo 平臺上還有一整套空間智能 API，解決的則是：「3D 內容怎么被大規模生產和使用」問題。

它開放了一整套空間能力 API，包括：

空間重建：拍一段視頻，就能將物理世界 1：1 復刻到數字世界
云端渲染：無需本地 GPU，支持光線追蹤與全局光照渲染，支持 3DGS + Mesh 混合渲染，支持以視頻流方式傳輸至不同客戶端。
3D AI 模型生成：支持圖生 3D 和文生 3D 模型，具備更強的材質細節表現，可接入 3D 內容生產工作流。

除了工具，還有 3D 數據。Aholo 上也會持續開放 3D 高斯數據集，比如此前曾登頂 HuggingFace 趨勢榜的 InteriorGS，專門用于機器人和智能體仿真訓練的 3D 高斯語義數據集。

至此，一個完整的空間智能全鏈路已經形成：

重建 / 生成 3D 世界：通過 Aholo 完成對真實世界的 3D 重建，或根據文字、草圖直接生成 3D 場景；
編輯 3D 資產：通過Aholo平臺的多種 API，讓 3D 世界像網頁一樣可編程;
瀏覽交互：通過 Aholo Viewer，讓用戶在任何設備的瀏覽器里實時漫游超大 3D 場景。

在硬件生態的共建上，群核科技也在探索與不同硬件方打通，包括影石創新、禾賽科技等硬件龍頭，推出空間重建軟硬件一體化解決方案，還有手機端 App 的推出，將原本只有專業人士才能掌握的 3D 空間記錄與內容創作能力，下放到每一個普通人手中。

數字文旅是其中一個典型方向。文物古跡通過 3DGS 重建「活」在數字世界里，訪客在瀏覽器里就可以走進一座數字博物館，圍繞一件文物 360 度查看與交互。

短劇制作是另一個有代表性的方向，讓數字化短劇緊跟內容消費潮流。一個短劇制作人拿手機拍幾段照片或視頻，就可以在 Aholo 平臺里快速重建出一個高度逼真的三維「虛擬片場」；然后通過 Aholo API 對場景元素做精準編輯、調整布光與道具。

基于黑神話取景地時思寺重建場景的AI短劇片段

文中視頻鏈接：https://mp.weixin.qq.com/s/5qK1eSsewt86hFrNrbkY5w

在過去，圖片和視頻定義了移動互聯網時代。

而未來，3D 內容會像短視頻 App 一樣普及。而 3D，也會成為下一代互聯網的新內容形態。

通往物理世界的飛輪

不過，互聯網從二維走向三維，更深一層的變化發生在人工智能本身。

讓 AI 真正「看懂」三維世界，是過去兩三年最被密集投入的方向之一，核心目標是讓 AI 對物理世界的理解深入到足以預測下一步會發生什么、并據此采取行動。「世界模型」這個名詞，變成了近兩年大廠軍備競賽的關鍵詞。

AI 能力進化的核心在于數據。我們知道，互聯網上有數十億張圖片、數千億條文字、數億小時視頻，AI 幾乎已經徹底用盡了這些數據。

而當我們想要通向真正的 AGI，想讓 AI 進入物理世界，或是構建完善的世界模型，最大的瓶頸之一其實是 3D 數據的稀缺。3D 內容的本質，是對物理世界的數字化復刻，它能以最直接的方式為 AI 提供空間結構、物體關系、環境屬性等關鍵 3D 數據。因此，3D 不僅是一種內容形態，更是 AI 理解真實世界的最短數據路徑。

不管是李飛飛的 Spark，還是群核科技的 Aholo Viewer，他們真正重要的地方在于：讓 3D 內容具備了互聯網級分發能力，就像過去分發的是圖片和視頻一樣。而瀏覽器是這個數據飛輪的入口。

當 3D 瀏覽器普及，3D 內容開始進入互聯網這條最大的分發管道，讓更多貼近真實世界的 3D 數據進行循環，「更多人看 3D，更多 3D 被生產，更多 AI 訓練數據，更智能的 3D 模型，更多人看 3D」這個飛輪才有可能真正轉起來。

這也是為什么，3DGS 瀏覽器這件事不能僅僅當成一個前端工程的進展去看，它是通往世界模型的一個關鍵入口。

回到本文開頭那句 —— 世界是三維的。

只是過去幾十年，互聯網逼著我們把世界壓縮成二維。像 Aholo Viewer 這樣的 3D 高斯瀏覽器，只是一個開始：未來一段時間，越來越多的網頁內容、越來越多的 AI 應用、越來越多的機器人感知，會重新與三維世界對齊。

數字世界的內容向 3D 進化，與真實世界的認知對齊，是我們向物理智能，通用智能邁進的重要一步。

而空間智能，終將像今天的搜索、地圖和短視頻一樣，成為下一代互聯網的基礎能力。

Aholo Viewer 開源鏈接：https://github.com/manycoretech/aholo-viewer

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.