文|王欣逸
編輯|張雨忻
2026 年開年來,3D 生成模型賽道相當熱鬧。
今年第一季度,影眸科技發布首個 3D 編輯模型 Rodin Gen-2 Edit,讓 AI 3D 模型第一次可編輯;今年 6 月,VAST 官宣了新一輪融資,Meshy 也緊隨其后,宣稱自己發布了全球首款 3D AI Agent。
近日,影眸科技——這支扎根學術圈、創業早、年輕的 3D 模型團隊,帶著最新的技術研究成果,以及新一輪融資,再添了一把火。
這支團隊創立于 2020 年,創始人兼 CEO 吳迪、和聯合創始人兼 CTO 張啟煊以及另外兩位聯合創始人張龍文、曾初嘯均來自上海科技大學。團隊約 60 人,平均年齡不到 25 歲。
盡管看起來年輕,但在 B 端市場,影眸幾乎站穩了頭部地位,其 B 端客戶數及收入比行業內其他公司加起來還要多,客戶包括字節跳動、Unity、Figma、Canva 等企業,海外收入占總收入約 80%。
提出定義主流 AI 3D 架構的原生 3D 生成方案 CLAY、連續數年獲得計算機圖形學頂級會議 SIGGRAPH 最佳論文及提名——在學術成果上,影眸的科研履歷也相當亮眼,在頂刊和各大會議上論文、獎項不斷,其算法團隊每2人中就有1人獲得或提名過最佳論文。
《智能涌現》獨家獲悉,近日,影眸科技宣布完成數億元新一輪融資,本輪融資由凱輝基金、上海國投先導領投,老股東持續跟投。此前,字節跳動、美團龍珠、紅杉、藍馳已相繼押注。
伴隨新一輪融資,影眸科技發布了最新一代 3D 生成模型——Hyper3D Rodin Gen-2.5,將語言模型“先思考再生成”的模式引入 3D 生成領域。面向不同的生產場景,Gen-2.5 提供了可調節的精度模式,該模型是全球首個千萬面級 3D 生成模型,最快 4 秒可實現生成百萬面模型,并同步推出全球首個 12K 精度的原生 3D 貼圖模型。
長期以來,影眸面向 B 端及專業 C 端,提供平臺訂閱、B 端 API 售賣、私有化部署、直接提供最終資產等服務,主要的應用場景包括電商、3D 打印、游戲、工業設計、具身智能等行業。
面對市場競爭,影眸的打法是,瞄準海外市場、C 端專業用戶以及讓模型生成過程更為可控。
值得關注的是,在最新模型Rodin Gen-2.5發布后,C 端收入正在反超 B 端。Rodin Gen-2.5 上線首月,訂閱用戶與 ARR 的環比增速均超 400%。
C 端的發力,正擊中了影眸想要解決的問題:AI 3D 能否被用戶真正使用。
“從學術圈走出的人容易有慣性,認為自己的技術和論文很厲害,為什么市場不用。但實際上,實驗室研發出來的東西和真正能被使用的東西之間,存在巨大的鴻溝。”吳迪告訴我們。
想要消弭這一鴻溝,核心在于,生成的模型要符合使用標準,用戶能控制3D的生成結果。
為此,他們幾乎最大程度上給予了用戶參與編輯的自由。
在平臺上,用戶可以通過影眸自研的 3D ControlNet,控制生成結果的長寬高和形狀;實現 3D 編輯功能,平臺生成的模型乃至第三方模型都可以實現二次編輯,支持自然語言局部修改模型;能對 3D 資產進行分件,支持分件后再分件。
![]()
△影眸科技3D資產的分件能力,圖源:企業官方
在影眸看來,看似復雜、需要用戶反復確認及控制的流程,恰恰是用戶選擇他們的理由。
“我們對 3D 生成的用戶群體有預估,大部分愿意付費的用戶,剛好是那些對「可控」有需求的群體,我們要先服務好真正會買單的人,”張啟煊談到,“3D 生成的落地運用,已經從追求觀賞質量,邁向了可控、效率與質量并重,更貼近實際生產的下半場。”
在預訓練階段就做好模型的可控性設計
在經歷元宇宙賽道萎縮、2023 年資金困境后,2024 年,原生 3D 生成方案 CLAY 的研究和提出,完全改變了影眸科技乃至整個 3D 生成賽道的走向。
彼時,整個 AI 3D 行業內的技術路徑幾乎都圍繞“2D 升維 3D”的模式——先生成物體的多視角圖像,再建模成 3D 資產。這一模式缺點明顯:這一模式存在不可逆的信息丟失,生成的模型難以真正應用于工業設計、游戲等相關領域。
但影眸覺得,生成的 3D 資產是否做到了 Production-Ready(生產就緒)是更重要的。于是,他們做出了一個反共識的決定:用 3D 數據,從頭開始訓 3D 原生模型。
這條沒人走過的路被他們走通了。
2024 年,影眸團隊提出全球首個產品化的 3D 原生大模型框架 CLAY(《CLAY:用于創建高質量 3D 資產的可控大規模生成模型》),通過算法和框架層面的底層創新,將 3D 生成效果從不可用變為可用。該研究提名當年 SIGGRAPH 最佳論文。
同年年中,基于 CLAY 架構,影眸科技發布了全球首個 3D 原生模型 Rodin Gen-1。這也讓行業主流選擇技術路線發生變化,紛紛走向了 3D 生成原生路線。
影眸對他們的 3D 模型的兩個最重要的要求是:可控性,以及質量。
其中,可控性,是影眸打出的一張明牌。“對專業創作者來說,可控性特別重要,這是他們選擇我們的首要原因。”張啟煊稱。
“實現可控性的關鍵在于,在預訓練階段就將相關設計放進去,和模型底層一起長出來。”從 Rodin 的第一個版本起,他們就引入了 3D ControlNet 等可控能力。
此后,影眸團隊也持續增加產品的可控性,包括支持局部修改模型,能自動拆分出不同部件,也能實現分件后繼續分件,幫助用戶減少抽卡次數,提高模型生成過程中的可控性。
Rodin Gen-2.5 首次在 3D 生成領域引入類似 LLM(大語言模型)的 Test-time Scaling(測試時縮放)策略,自適應的可調節 Thinking Effort(思考力度) 為未來實現與圖像生成模型類似的、與 LLM 的深度結合提供了可能性。通過該策略,用戶可選擇模型的思考時間和深度。它支持五檔思考深度,耗時 4 秒至 80 秒不等,對應著從快速草稿到高精度資產。在 Extreme-High 模式下,模型能實現千萬面數生成能力,能還原皮膚微結構、紋理、毛孔等特征。
![]()
△Rodin-2.5的五檔思考深度,圖源:企業官方
不僅如此,影眸還同步推出了一個原生 3D 貼圖模型,區別傳統投影法生成材質,這一模型能解決傳統方法存在的顏色斷層、浸染等問題,清晰保留 Logo、文字等信息。從幾何生成到貼圖,最快僅需 5 秒。
該貼圖模型具備圖像生成級別能力,可實現材質紋理無死角覆蓋,文字效果提升顯著,支持基于物理的 PBR 材質。配合同步推出的12K原生3D貼圖模型,生成效果在幾何精度與材質保真度上已可超越實景掃描,斷代領先行業水平。
另一個關鍵點——質量,影眸用一系列研究成果對此做出了證明。
自 CLAY 后,他們相繼推出了 CAST、BANG 等研究成果。前者能通過輸入一張圖片,便能生成包含物體和物體關系的完整 3D 場景;后者能實現對 3D 資產的分件。
其中,關于 CAST 的研究論文《CAST:基于單張 RGB 圖像的組件對齊式 3D 場景重建》斬獲 SIGGRAPH 2025 最佳論文獎。同期在該領域獲得最佳論文的商業公司僅有谷歌、Meta 和影眸三家。
作為唯一連續多年獲得 SIGGRAPH 最佳論文及提名的商業公司,影眸自 2020 年以來在頂級學術會議及期刊上共發表了 30 余篇論文,其中 70% 的科研成果走向了落地。
這具體表現在產品的迭代上,近兩年來,影眸的模型實現了四次重要迭代,從 Rodin Gen-1、25 年 9 月發布的擁有拆件能力的 Rodin Gen-2、26 年 1 月發布的有局部編輯功能的 Rodin Gen-2 Edit,再到今年 6 月,最新發布的 Rodin Gen-2.5。
談及 AI 3D 的未來,吳迪告訴我們,未來一至兩年內,公司會繼續做兩件事情,一是精進底層模型的生成質量,二是拓展編輯、Agent 化等能力,讓模型在專業領域越來越好用。
服務最專業的用戶,解決最真實的問題
AI 3D 的商業化路徑仍在被行業驗證,但在影眸看來,這是一份可持續的好生意。
單看模型訓練的算力成本,對 Rodin 而言,整數倍版本模型的迭代需要千卡級的訓練,但由于影眸自身在算法架構上的積累,相比同行訓練出一個同級別的模型,訓練效率獲得了極大提高。
過去一年,企業級(B 端)營收的質量與可持續性,正逐步取代消費級用戶規模,成為衡量AI公司長期價值的核心維度——以 Anthropic 為代表的企業級路線被廣泛視為這一趨勢的典型樣本。
與此同時,在收入端,影眸正在走一條類似 Anthropic 的企業級路線,其積累的B端客戶營收超過同賽道其他公司的總和。
從客戶的一側來看,影眸 的 B 端訂單分布在游戲、電商、工業設計、具身智能、空間計算等多個高價值場景,與此同時,C 端畫像主要為 Pro-C(專業級消費者),如建模師、3D 打印愛好者、產品設計師等。
在影眸團隊看來,未來 3-5 年,3D 生成主要還是被專業用戶使用。不管是語言模型、圖像模型還是其他的模型,都很難從絕對效果上完全區分出高下。對于 3D 生成賽道而言,大眾真正的關注點是,模型廠商能否滿足下游行業的需求。
“我們研發出來的東西需要要接入到后期的流程里面去使用,因此我們要做 Production-Ready 的東西,讓其可以直接進入影視、游戲等場景的后期中直接使用。”吳迪告訴我們。
因此,影眸將產品設計成生成過程中可逐步確認,滿意后再付費的模式。這一模式,源自于影眸對于自身模型可用性的底氣。
在影眸的客戶列表里,有不少具身智能公司,他們把影眸的 3D 資產,拿來作為訓練數據和生成仿真環境和資產。
談及賽道內正熱的“世界模型”,張啟煊告訴我們,撕開世界模型的標簽,大家在做的主要是兩件事:一是實時視頻生成,如 Google 的 Genie-3;二是可仿真的環境,包括資產、模擬器等,以及做類似自動駕駛、機器人策略的執行器。
在世界模型版圖里,影眸偏向于做可仿真資產。在平臺上,他們有一個功能叫 Sim-Ready,用戶點擊后,可以直接在英偉達的仿真環境里做物理仿真。
具身智能對 3D 生成模型的要求包括幾個層面:一是物理反饋,如重量、碰撞體等,這些功能,影眸已經上線至產品中;二是可互動資產,如 3D 資產在分件后如何動起來,在這一內容上,影眸也做出了相關學術成果。
單純用視頻生成做世界模型,這可能會導致模型難以從視頻中學習到真實物理世界的維度關系。這也正是 3D 的優勢,能理解物品之間的位置關系、視角角度連續性好、能在模型中做物理模擬等。
吳迪認為:“未來的世界模型,需要讓機器真正學到和真實世界一致的場景,其背后可能會是3D 生成與視頻生成混合的模式。”
“3D 生成的賽道正在收斂,而收斂意味著,最終只有少數真正解決了產業問題的團隊能留在牌桌上。過去一年,市場習慣用用戶規模和增長曲線來衡量一家 AI 公司的價值。3D 生成會是游戲、影視、工業設計乃至物理世界智能化都繞不開的底層能力,我們服務最專業的用戶,解決最真實的生產問題,這個選擇決定了我們今天的領先,也決定了我們未來要去定義、而不只是參與下一代 3D 生產工具的規則。”
歡迎交流
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.