網易首頁 > 網易號 > 正文申請入駐

完成數億元新融資，影眸科技 Hyper3D 讓 3D 生成進入“思考時代”丨36氪首發

2026-06-24 18:13:17　來源: 36氪

北京舉報

分享至

文｜王欣逸

編輯｜張雨忻

2026 年開年來，3D 生成模型賽道相當熱鬧。

今年第一季度，影眸科技發布首個 3D 編輯模型 Rodin Gen-2 Edit，讓 AI 3D 模型第一次可編輯；今年 6 月，VAST 官宣了新一輪融資，Meshy 也緊隨其后，宣稱自己發布了全球首款 3D AI Agent。

近日，影眸科技——這支扎根學術圈、創業早、年輕的 3D 模型團隊，帶著最新的技術研究成果，以及新一輪融資，再添了一把火。

這支團隊創立于 2020 年，創始人兼 CEO 吳迪、和聯合創始人兼 CTO 張啟煊以及另外兩位聯合創始人張龍文、曾初嘯均來自上海科技大學。團隊約 60 人，平均年齡不到 25 歲。

盡管看起來年輕，但在 B 端市場，影眸幾乎站穩了頭部地位，其 B 端客戶數及收入比行業內其他公司加起來還要多，客戶包括字節跳動、Unity、Figma、Canva 等企業，海外收入占總收入約 80%。

提出定義主流 AI 3D 架構的原生 3D 生成方案 CLAY、連續數年獲得計算機圖形學頂級會議 SIGGRAPH 最佳論文及提名——在學術成果上，影眸的科研履歷也相當亮眼，在頂刊和各大會議上論文、獎項不斷，其算法團隊每2人中就有1人獲得或提名過最佳論文。

《智能涌現》獨家獲悉，近日，影眸科技宣布完成數億元新一輪融資，本輪融資由凱輝基金、上海國投先導領投，老股東持續跟投。此前，字節跳動、美團龍珠、紅杉、藍馳已相繼押注。

伴隨新一輪融資，影眸科技發布了最新一代 3D 生成模型——Hyper3D Rodin Gen-2.5，將語言模型“先思考再生成”的模式引入 3D 生成領域。面向不同的生產場景，Gen-2.5 提供了可調節的精度模式，該模型是全球首個千萬面級 3D 生成模型，最快 4 秒可實現生成百萬面模型，并同步推出全球首個 12K 精度的原生 3D 貼圖模型。

長期以來，影眸面向 B 端及專業 C 端，提供平臺訂閱、B 端 API 售賣、私有化部署、直接提供最終資產等服務，主要的應用場景包括電商、3D 打印、游戲、工業設計、具身智能等行業。

面對市場競爭，影眸的打法是，瞄準海外市場、C 端專業用戶以及讓模型生成過程更為可控。

值得關注的是，在最新模型Rodin Gen-2.5發布后，C 端收入正在反超 B 端。Rodin Gen-2.5 上線首月，訂閱用戶與 ARR 的環比增速均超 400%。

C 端的發力，正擊中了影眸想要解決的問題：AI 3D 能否被用戶真正使用。

“從學術圈走出的人容易有慣性，認為自己的技術和論文很厲害，為什么市場不用。但實際上，實驗室研發出來的東西和真正能被使用的東西之間，存在巨大的鴻溝。”吳迪告訴我們。

想要消弭這一鴻溝，核心在于，生成的模型要符合使用標準，用戶能控制3D的生成結果。

為此，他們幾乎最大程度上給予了用戶參與編輯的自由。

在平臺上，用戶可以通過影眸自研的 3D ControlNet，控制生成結果的長寬高和形狀；實現 3D 編輯功能，平臺生成的模型乃至第三方模型都可以實現二次編輯，支持自然語言局部修改模型；能對 3D 資產進行分件，支持分件后再分件。

△影眸科技3D資產的分件能力，圖源：企業官方

在影眸看來，看似復雜、需要用戶反復確認及控制的流程，恰恰是用戶選擇他們的理由。

“我們對 3D 生成的用戶群體有預估，大部分愿意付費的用戶，剛好是那些對「可控」有需求的群體，我們要先服務好真正會買單的人，”張啟煊談到，“3D 生成的落地運用，已經從追求觀賞質量，邁向了可控、效率與質量并重，更貼近實際生產的下半場。”

在預訓練階段就做好模型的可控性設計

在經歷元宇宙賽道萎縮、2023 年資金困境后，2024 年，原生 3D 生成方案 CLAY 的研究和提出，完全改變了影眸科技乃至整個 3D 生成賽道的走向。

彼時，整個 AI 3D 行業內的技術路徑幾乎都圍繞“2D 升維 3D”的模式——先生成物體的多視角圖像，再建模成 3D 資產。這一模式缺點明顯：這一模式存在不可逆的信息丟失，生成的模型難以真正應用于工業設計、游戲等相關領域。

但影眸覺得，生成的 3D 資產是否做到了 Production-Ready（生產就緒）是更重要的。于是，他們做出了一個反共識的決定：用 3D 數據，從頭開始訓 3D 原生模型。

這條沒人走過的路被他們走通了。

2024 年，影眸團隊提出全球首個產品化的 3D 原生大模型框架 CLAY（《CLAY：用于創建高質量 3D 資產的可控大規模生成模型》），通過算法和框架層面的底層創新，將 3D 生成效果從不可用變為可用。該研究提名當年 SIGGRAPH 最佳論文。

同年年中，基于 CLAY 架構，影眸科技發布了全球首個 3D 原生模型 Rodin Gen-1。這也讓行業主流選擇技術路線發生變化，紛紛走向了 3D 生成原生路線。

影眸對他們的 3D 模型的兩個最重要的要求是：可控性，以及質量。

其中，可控性，是影眸打出的一張明牌。“對專業創作者來說，可控性特別重要，這是他們選擇我們的首要原因。”張啟煊稱。

“實現可控性的關鍵在于，在預訓練階段就將相關設計放進去，和模型底層一起長出來。”從 Rodin 的第一個版本起，他們就引入了 3D ControlNet 等可控能力。

此后，影眸團隊也持續增加產品的可控性，包括支持局部修改模型，能自動拆分出不同部件，也能實現分件后繼續分件，幫助用戶減少抽卡次數，提高模型生成過程中的可控性。

Rodin Gen-2.5 首次在 3D 生成領域引入類似 LLM（大語言模型）的 Test-time Scaling（測試時縮放）策略，自適應的可調節 Thinking Effort（思考力度）為未來實現與圖像生成模型類似的、與 LLM 的深度結合提供了可能性。通過該策略，用戶可選擇模型的思考時間和深度。它支持五檔思考深度，耗時 4 秒至 80 秒不等，對應著從快速草稿到高精度資產。在 Extreme-High 模式下，模型能實現千萬面數生成能力，能還原皮膚微結構、紋理、毛孔等特征。

△Rodin-2.5的五檔思考深度，圖源：企業官方

不僅如此，影眸還同步推出了一個原生 3D 貼圖模型，區別傳統投影法生成材質，這一模型能解決傳統方法存在的顏色斷層、浸染等問題，清晰保留 Logo、文字等信息。從幾何生成到貼圖，最快僅需 5 秒。

該貼圖模型具備圖像生成級別能力，可實現材質紋理無死角覆蓋，文字效果提升顯著，支持基于物理的 PBR 材質。配合同步推出的12K原生3D貼圖模型，生成效果在幾何精度與材質保真度上已可超越實景掃描，斷代領先行業水平。

另一個關鍵點——質量，影眸用一系列研究成果對此做出了證明。

自 CLAY 后，他們相繼推出了 CAST、BANG 等研究成果。前者能通過輸入一張圖片，便能生成包含物體和物體關系的完整 3D 場景；后者能實現對 3D 資產的分件。

其中，關于 CAST 的研究論文《CAST：基于單張 RGB 圖像的組件對齊式 3D 場景重建》斬獲 SIGGRAPH 2025 最佳論文獎。同期在該領域獲得最佳論文的商業公司僅有谷歌、Meta 和影眸三家。

作為唯一連續多年獲得 SIGGRAPH 最佳論文及提名的商業公司，影眸自 2020 年以來在頂級學術會議及期刊上共發表了 30 余篇論文，其中 70% 的科研成果走向了落地。

這具體表現在產品的迭代上，近兩年來，影眸的模型實現了四次重要迭代，從 Rodin Gen-1、25 年 9 月發布的擁有拆件能力的 Rodin Gen-2、26 年 1 月發布的有局部編輯功能的 Rodin Gen-2 Edit，再到今年 6 月，最新發布的 Rodin Gen-2.5。

談及 AI 3D 的未來，吳迪告訴我們，未來一至兩年內，公司會繼續做兩件事情，一是精進底層模型的生成質量，二是拓展編輯、Agent 化等能力，讓模型在專業領域越來越好用。

服務最專業的用戶，解決最真實的問題

AI 3D 的商業化路徑仍在被行業驗證，但在影眸看來，這是一份可持續的好生意。

單看模型訓練的算力成本，對 Rodin 而言，整數倍版本模型的迭代需要千卡級的訓練，但由于影眸自身在算法架構上的積累，相比同行訓練出一個同級別的模型，訓練效率獲得了極大提高。

過去一年，企業級（B 端）營收的質量與可持續性，正逐步取代消費級用戶規模，成為衡量AI公司長期價值的核心維度——以 Anthropic 為代表的企業級路線被廣泛視為這一趨勢的典型樣本。

與此同時，在收入端，影眸正在走一條類似 Anthropic 的企業級路線，其積累的B端客戶營收超過同賽道其他公司的總和。

從客戶的一側來看，影眸的 B 端訂單分布在游戲、電商、工業設計、具身智能、空間計算等多個高價值場景，與此同時，C 端畫像主要為 Pro-C（專業級消費者），如建模師、3D 打印愛好者、產品設計師等。

在影眸團隊看來，未來 3-5 年，3D 生成主要還是被專業用戶使用。不管是語言模型、圖像模型還是其他的模型，都很難從絕對效果上完全區分出高下。對于 3D 生成賽道而言，大眾真正的關注點是，模型廠商能否滿足下游行業的需求。

“我們研發出來的東西需要要接入到后期的流程里面去使用，因此我們要做 Production-Ready 的東西，讓其可以直接進入影視、游戲等場景的后期中直接使用。”吳迪告訴我們。

因此，影眸將產品設計成生成過程中可逐步確認，滿意后再付費的模式。這一模式，源自于影眸對于自身模型可用性的底氣。

在影眸的客戶列表里，有不少具身智能公司，他們把影眸的 3D 資產，拿來作為訓練數據和生成仿真環境和資產。

談及賽道內正熱的“世界模型”，張啟煊告訴我們，撕開世界模型的標簽，大家在做的主要是兩件事：一是實時視頻生成，如 Google 的 Genie-3；二是可仿真的環境，包括資產、模擬器等，以及做類似自動駕駛、機器人策略的執行器。

在世界模型版圖里，影眸偏向于做可仿真資產。在平臺上，他們有一個功能叫 Sim-Ready，用戶點擊后，可以直接在英偉達的仿真環境里做物理仿真。

具身智能對 3D 生成模型的要求包括幾個層面：一是物理反饋，如重量、碰撞體等，這些功能，影眸已經上線至產品中；二是可互動資產，如 3D 資產在分件后如何動起來，在這一內容上，影眸也做出了相關學術成果。

單純用視頻生成做世界模型，這可能會導致模型難以從視頻中學習到真實物理世界的維度關系。這也正是 3D 的優勢，能理解物品之間的位置關系、視角角度連續性好、能在模型中做物理模擬等。

吳迪認為：“未來的世界模型，需要讓機器真正學到和真實世界一致的場景，其背后可能會是3D 生成與視頻生成混合的模式。”

“3D 生成的賽道正在收斂，而收斂意味著，最終只有少數真正解決了產業問題的團隊能留在牌桌上。過去一年，市場習慣用用戶規模和增長曲線來衡量一家 AI 公司的價值。3D 生成會是游戲、影視、工業設計乃至物理世界智能化都繞不開的底層能力，我們服務最專業的用戶，解決最真實的生產問題，這個選擇決定了我們今天的領先，也決定了我們未來要去定義、而不只是參與下一代 3D 生產工具的規則。”

歡迎交流

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.