![]()
編輯|冷貓
我們知道,世界是三維的。
但互聯網普及至今,受限于技術、硬件和傳播載體,在幾十年的時間里,都在把這個三維世界壓成二維來表達。文字、圖片、視頻,這三種信息載體承載了我們今天在網上看到的幾乎一切,都已經把這個世界降維。這是過去,互聯網受限于帶寬、硬件和計算能力后的「妥協」。
直到 3D 高斯潑濺(3D Gaussian Splatting, 3DGS) 的出現,才第一次讓「隨手拍、即時重建、實時漫游」三維場景成為可能。但這項技術一直卡在「最后一百米」:怎么讓普通人在瀏覽器里流暢地看?
今年 4 月,李飛飛領銜的 World Labs 開源了 3D 高斯渲染引擎 Spark 2.0,瞬間引起技術圈的關注。
就在剛剛,群核科技的空間智能平臺 Aholo又推進了一步:正式了開源 3D 高斯瀏覽器 Aholo Viewer,并且在渲染速度和大場景加載性能上超越了 Spark 2.0。它讓任何設備的瀏覽器都能流暢運行10 億 +粒子的超大 3D 場景。
簡單理解,它可以讓你像刷視頻一樣, 在瀏覽器里流暢瀏覽超大的 3D 世界。就像 3D 版的抖音、B 站,超大 3D 世界也可以像視頻一樣快速傳輸。
![]()
- 主頁鏈接:https://aholojs.dev/zh-CN/
- Github 鏈接:https://github.com/manycoretech/aholo-viewer
從更大的意義來說,李飛飛與群核科技接連推出 3D 高斯瀏覽器,是一個時代到來的信號,代表著信息載體的范式躍遷:互聯網信息載體從文字、圖片、視頻,第一次真正邁向可交互、可漫游的 3D 內容,而 3D 將成為互聯網的基礎語言之一。
十億高斯點,手機瀏覽器也能流暢跑
在三維視覺領域,3D 高斯潑濺的出現是一個里程碑。
這是一種從 2023 年起在學界快速走紅的三維場景表示方法。它把一整個真實場景顯式地建模為數十萬到數十億個可學習的 3D 高斯橢球,每個橢球帶有自己的位置、形狀、顏色和透明度,再通過可微分光柵化做實時渲染。
但新技術的出現,并沒有讓 3D 內容變得像二維信息內容一樣普及。因為 3D:
- 太大,傳輸難。一個完整的 3D 場景數據動輒幾十 GB。
- 太重,加載慢。想要流暢漫游三維模型,設備性能門檻極高。
所以,Spark 和 Aholo Viewer 都在解決的一個核心問題是:——讓 3D 內容也能流暢加載瀏覽,點開一個鏈接,就能「走進」任何一個真實或虛擬的三維世界。
這樣,普通用戶拿起手機用 3D 方式記錄生活中的一切。商品的展示,也會逐步從靜態圖變成用戶可以在手機里隨意旋轉的 3D 場景。日常生活如逛博物館的線上展、看車看房等等,3D 交互體驗會越來越無縫地融入到日常刷網頁的過程中。
在性能上,我們上手測試了下,對一個 3 億高斯點的場景,桌面端 Aholo Viewer占用內存只有 Spark 2.0 的一半,加載速度快 1 倍、渲染速度快 3 倍,渲染效果也優于 Spark 2.0。最高可流暢加載10 億高斯點的場景,是 Spark 2.0 上限的 10 倍
![]()
技術路線上,目前 Web 端 3DGS 渲染主流有兩種 LOD 組織方式,Aholo Viewer 和 Spark 2.0 各自選了一個技術方向。
Spark 2.0 選用的是 Splat-based LOD Tree,從單個高斯點(splat)粒度自下而上做合并,構造連續的細節層級。
這種方案的好處是逐層加載細節,理論上能讓層級切換感不突兀,但在實際體驗中,Spark 2.0 的細節切換感仍然比較明顯。代價則是內存和顯存開銷較大,同時后期擴展性偏弱,難以靈活結合其他優化手段。
Aholo Viewer 選用的是Chunk-based LOD Tree:把原始 3DGS 數據先切成 N 個 chunk(數據塊),再分別為每個 chunk 生成不同層級的 LOD,運行時以 chunk 為單位做層級切換。
![]()
這個差異看著不大,效果卻很顯著。
第一是內存與顯存的開銷更可控。當系統只需要為整個 chunk 選層級,無需為成千上萬個 splat 各自決策,內存調度的顆粒度更粗、緩存命中更好,與常規加載方案相比基本不引入額外開銷。
第二是可擴展性更強:chunk 是一個清晰的數據邊界,未來要擴到城市級、街區級的超大場景,按區塊拼接、按區塊單獨聊聊更新,會比 splat 粒度的方案更容易。
在渲染管線層面,Aholo Viewer 通過多精度數據結構降低顯存占用,通過緩存預計算與按需 pass 壓縮每幀 GPU 開銷,通過 Morton Sort 和 detail culling 改善數據訪問效率。這些優化疊加在一起,最終落到了一組用戶可感知的數字:內存減半、加載快 1 倍、渲染快 3 倍、容量上限大 10 倍
![]()
Aholo Viewer 在細節上做得比較周全,遠比 Spark 2.0 做的更細更完善。比如格式上兼容主流 3DGS 格式,還有完整的工具支持,包括數據格式轉換、3D 高斯碰撞體生成等能力。
Aholo Viewer 已經是一個非常完善的開源工作,已經做好被開發者落地產品應用的準備。
互聯網的 3D 躍遷
3D 高斯的實時傳輸和查看的技術問題已經解決了,但這能用來做什么?
只是把 3D 場景放進瀏覽器讓用戶旋轉觀看,還不足以讓 3D 內容像如今的短視頻一樣普及。
價值躍遷,發生在 3D 內容從「展示媒介」變成「生產力工具」的那一刻:當 3D 數據可以被編輯、被調用、被嵌入工作流、被下游系統消費,這才是從「能看」到「能用」的跨越。
其實,群核科技的 Aholo 跟李飛飛的 Marble 之間有一個比較大的差異。李飛飛走的是通過 AI 生成虛擬環境,而群核除了 AI 生成之外,更著重于現實世界的重建模擬。相比于創意表達,它更在意如何在物理世界做功:比如工業孿生、機器人訓練、導向落地的空間設計,以及遵從物理屬性的視頻生成短劇制作等場景。
所以,除了推出 3D 高斯瀏覽器,Aholo 平臺上還有一整套空間智能 API,解決的則是:「3D 內容怎么被大規模生產和使用」問題。
它開放了一整套空間能力 API,包括:
- 空間重建:拍一段視頻,就能將物理世界 1:1 復刻到數字世界
- 云端渲染:無需本地 GPU,支持光線追蹤與全局光照渲染,支持 3DGS + Mesh 混合渲染,支持以視頻流方式傳輸至不同客戶端。
- 3D AI 模型生成:支持圖生 3D 和文生 3D 模型,具備更強的材質細節表現,可接入 3D 內容生產工作流。
除了工具,還有 3D 數據。Aholo 上也會持續開放 3D 高斯數據集,比如此前曾登頂 HuggingFace 趨勢榜的 InteriorGS,專門用于機器人和智能體仿真訓練的 3D 高斯語義數據集。
至此,一個完整的空間智能全鏈路已經形成:
- 重建 / 生成 3D 世界:通過 Aholo 完成對真實世界的 3D 重建,或根據文字、草圖直接生成 3D 場景;
- 編輯 3D 資產:通過Aholo平臺 的多種 API,讓 3D 世界像網頁一樣可編程;
- 瀏覽交互:通過 Aholo Viewer,讓用戶在任何設備的瀏覽器里實時漫游超大 3D 場景。
在硬件生態的共建上,群核科技也在探索與不同硬件方打通,包括影石創新、禾賽科技等硬件龍頭,推出空間重建軟硬件一體化解決方案,還有手機端 App 的推出,將原本只有專業人士才能掌握的 3D 空間記錄與內容創作能力,下放到每一個普通人手中。
數字文旅是其中一個典型方向。文物古跡通過 3DGS 重建「活」在數字世界里,訪客在瀏覽器里就可以走進一座數字博物館,圍繞一件文物 360 度查看與交互。
![]()
短劇制作是另一個有代表性的方向,讓數字化短劇緊跟內容消費潮流。一個短劇制作人拿手機拍幾段照片或視頻,就可以在 Aholo 平臺里快速重建出一個高度逼真的三維「虛擬片場」;然后通過 Aholo API 對場景元素做精準編輯、調整布光與道具。
![]()
基于黑神話取景地時思寺重建場景的AI短劇片段
文中視頻鏈接:https://mp.weixin.qq.com/s/5qK1eSsewt86hFrNrbkY5w
在過去,圖片和視頻定義了移動互聯網時代。
而未來,3D 內容會像短視頻 App 一樣普及。而 3D,也會成為下一代互聯網的新內容形態。
通往物理世界的飛輪
不過,互聯網從二維走向三維,更深一層的變化發生在人工智能本身。
讓 AI 真正「看懂」三維世界,是過去兩三年最被密集投入的方向之一,核心目標是讓 AI 對物理世界的理解深入到足以預測下一步會發生什么、并據此采取行動。「世界模型」這個名詞,變成了近兩年大廠軍備競賽的關鍵詞。
AI 能力進化的核心在于數據。我們知道,互聯網上有數十億張圖片、數千億條文字、數億小時視頻,AI 幾乎已經徹底用盡了這些數據。
而當我們想要通向真正的 AGI,想讓 AI 進入物理世界,或是構建完善的世界模型,最大的瓶頸之一其實是 3D 數據的稀缺。3D 內容的本質,是對物理世界的數字化復刻,它能以最直接的方式為 AI 提供空間結構、物體關系、環境屬性等關鍵 3D 數據。因此,3D 不僅是一種內容形態,更是 AI 理解真實世界的最短數據路徑。
不管是李飛飛的 Spark,還是群核科技的 Aholo Viewer,他們真正重要的地方在于:讓 3D 內容具備了互聯網級分發能力,就像過去分發的是圖片和視頻一樣。而瀏覽器是這個數據飛輪的入口。
![]()
當 3D 瀏覽器普及,3D 內容開始進入互聯網這條最大的分發管道,讓更多貼近真實世界的 3D 數據進行循環,「更多人看 3D,更多 3D 被生產,更多 AI 訓練數據,更智能的 3D 模型,更多人看 3D」這個飛輪才有可能真正轉起來。
這也是為什么,3DGS 瀏覽器這件事不能僅僅當成一個前端工程的進展去看,它是通往世界模型的一個關鍵入口。
回到本文開頭那句 —— 世界是三維的。
只是過去幾十年,互聯網逼著我們把世界壓縮成二維。像 Aholo Viewer 這樣的 3D 高斯瀏覽器,只是一個開始:未來一段時間,越來越多的網頁內容、越來越多的 AI 應用、越來越多的機器人感知,會重新與三維世界對齊。
數字世界的內容向 3D 進化,與真實世界的認知對齊,是我們向物理智能,通用智能邁進的重要一步。
而空間智能,終將像今天的搜索、地圖和短視頻一樣,成為下一代互聯網的基礎能力。
- Aholo Viewer 開源鏈接:https://github.com/manycoretech/aholo-viewer
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.