網易首頁 > 網易號 > 正文申請入駐

獨家丨百人數字世界同臺舞劇！這家中國企業創造世界新紀錄

2026-06-01 19:54:34　來源: 機器人大講堂

安徽舉報

分享至

100位舞者同時跳動，身上一共有5300個Marker點，76臺2600萬像素的光學動捕相機需要以每秒120幀的速度快門取像，數據洪流涌入AMD 64核處理器，最終映射在現場大屏的數字空間實時展示，每一幀的處理窗口只有8.3毫秒。

2026年5月31日，上海青瞳視覺MCP無界棚內，100名動捕演員成功完成了這場百人實時動作捕捉挑戰，在上海市新虹橋公證處全程官方認證和證據保全后，現場爆發出了經久不息的熱烈掌聲。

機器人大講堂了解到，此前國際公開認證的最高紀錄為19人，國內最高為41人，這次挑戰是國內記錄的2.5倍。這不僅僅意味著，從這一天起，全球百人以上實時動捕的技術白線，正式畫在了中國。同時，這背后恰恰是青瞳視覺作為國內動捕領域頭部企業，一場關于光學動捕技術工業化天花板的真實叩問：硬件算力、系統架構、算法優化，三塊木板拼成的木桶，如今到底能裝多少水？

01.

一個關于“迷宮”的比喻

光學動作捕捉的工作原理并不復雜，由相機發射紅外光，被貼在人體上的Marker點反射后，相機捕捉到二維坐標，再通過三角定位還原出三維空間位置，進而生成骨骼動畫。但原理簡單，工程上卻極其折磨人。

走進那間1000平方米的動捕棚，最直觀的感受是全場的相機密度。青瞳視覺CEO張海威說得更直白：“40人到100人，數量提高兩倍多，相機從28臺提到76臺，聽起來參數變化不大，但背后是一個指數爆炸的NP問題。”因為這不僅僅需要76臺K26光學動作捕捉相機均勻覆蓋整個空間，更意味著每臺相機每秒產生約72MB的原始數據，整系統每秒處理約720萬個二維圖像點。這不是簡單的線性增長，更像技術一次長足的跨越。

一位了解該技術的人士曾向機器人大講堂描述這個過程：“Marker點就像燈泡，相機就像眼睛。幾十個人還好，上百個人同時動，燈泡和燈泡之間會互相遮擋，身份識別就開始出錯。”更棘手的是串位問題，A身上的Marker被誤判給B，系統會把兩個人的骨骼數據混在一起重組，畫面看起來就像兩個人擰成了一團麻花。

這個問題的難點在于，它不是隨人數線性增長，而是幾何級暴增。百人身上共有5300個Marker點，每個點都要在76臺相機的視野里被同時識別、交叉比對、還原成三維坐標。每新增一個人，不只是增加了53個點，而是增加一個新變量。一個點被遮擋，相鄰相機接力補位；多個人同時遮擋，變量組合呈指數增長，實際運算復雜度要遠遠高于原先。

張海威的一個比喻或許更為恰當，他說，每個相機總歸會看到兩三千個點。我們可以把每個相機想象成一個迷宮，70多層迷宮，每層有兩三千個岔路口。選取一個岔路口，走到下一個相機，又會遇到兩三千個岔路口。

現實情況是，在迷宮中穿行，19人時出錯的概率還能接受，41人時系統已經開始頻繁丟幀，100人時，任何一步超時都會導致整幀數據作廢。青瞳視覺技術負責人在接受采訪時為我們算過一筆賬：系統每秒需要解算處理60萬個三維點，任何一步多花0.1毫秒，這一幀就沒了。

更大的挑戰在時間維度。120fps幀率，意味著每幀的完整處理窗口是8.33毫秒。只有嚴格控制在8ms之內，畫面才具備穩定性和流暢度。延遲高的后果，遠不只是畫面卡頓。延遲高一方面像VR眩暈，更重要的是系統堵塞。短暫延遲一兩幀無所謂，但如果長期阻塞，一幀幀延遲下去，計算會越來越擁擠，一旦上一幀用了10ms，下幀就只有6ms，時間就會擠壓，迅速塌縮。

02.

物理世界的盲區，AI開始來填

100人同時在棚內移動、舞劇，交叉、疊合，遮擋是不可避免的物理現實。問題隨之而來：當一臺相機的視野被另一個人完全遮擋，那個Marker點在物理上就是不可見的。傳統的做法是依賴多相機交叉補位，但如果同一個點被連續遮擋超過兩三幀，三維位置就會飄移，整套骨架的還原就會出錯。

青瞳視覺的解決辦法是，研發了一套獨特的AI結算管線，專門處理這個問題。他們意識到，相機捕捉到的遮擋很多，但可以用AI去解算動作、還原動作。相機物理上被擋住了解算不出來，但在3D還原時，可以用AI把丟失遮擋的點給還原出來。

張海威介紹，這不是類似修圖的補幀，而是基于骨骼運動學約束的語義級重建，因為AI知道53個點之間的關聯約束，知道人體關節的活動范圍極限，知道上一個合法幀的姿態和下一個合法幀的姿態之間，缺失的幾十毫秒最可能以什么軌跡運動，從而被遮擋的點進行語義級還原，并基于人體運動規律的推斷重建。這條AI結算管線，是百人規模能夠成立的技術前提之一，也是AI技術目前在動捕上最有力的實現。

03.

硬件冗余是唯一的解題思路

解決了捕捉和解耦問題，算力是另一道檻。百人同時運動，Marker點的數據量是爆炸式的，但系統卻需要在8毫秒的單幀窗口內，完成全部二維點提取、Marker匹配、三角定位、骨骼重構、CGI渲染，任何一步超時都意味著這一幀被丟棄，畫面出現撕裂或卡頓。

機器人大講堂獲悉，本次百人動捕算力底座是一臺搭載AMD 64核Threadripper PRO 9985WX處理器的工作站，加一塊Radeon RX 9070 XT顯卡（16GB顯存）。看似采用的產品規格不高，但AMD渠道FAE高級經理焦健庭在現場解釋了這次挑戰的數據規模，5300多個標記點，最終形成6萬多條數據同時并行處理，需要在低延遲約束下完成三維重建、實時結算和渲染輸出。但AMD團隊發現，這個負載對CPU的壓力極大，GPU相對較輕，考慮到實際落地應用合理性后，團隊用一個消費級的9070XT承擔渲染輸出，最終發現完全能夠滿足要求。

這得益于AMD處理器的全大核設計，而非目前市場上的大小核差異性架構。因此AMD全大核架構在這個場景里表現出的穩定性，在張海威看來是架構層面的先天優勢：在動捕運算中，大小核架構很難保證每一幀渲染出來的延遲都可控，線程調度會產生更多困擾。沒有大小核差異性調度問題，每一幀的延遲都穩定、可控，不會因為線程遷移產生不確定的等待。

此外，機器人大講堂獲悉，雙方團隊還通過對BIOS配置、線程調度及數據通路的協同優化，在軟件側算法效率提升的基礎上，實現了系統整體性能約20%的提升，并顯著降低運行延遲，并且能做到持續穩定數十分鐘的高頻工作。最終實現百人規模下毫秒級穩定運行，滿足了高幀率及高動態捕捉的應用需求，最終讓科技與藝術協同，把技術挑戰成為可觀看的數字動作。

在此過程中，CPU與GPU承擔了截然不同的角色。焦健庭把GPU的工作描述為“干重活干粗活”，把最終重建結算出的數據渲染到屏幕上。而CPU做的是最精細的工作，53個Marker點對應53段骨骼，每段骨骼的動作都有細膩差異，需要實時采集、精準重建、逐幀結算，只有64核全大核設計才能在毫秒內完成如此大量的并行計算而不產生線程調度抖動。

AMD的這種做法也證明了，降低復雜度，可以是用更聰明的算法換來的，而非一定要用更強的硬件堆出來。從設置層面讓處理器充分穩定發揮潛能，讓算法更適合多線程并行運算，也能最終實現殊途同歸。

這條邏輯的背面是，硬件總有上限，而算法沒有。一個依賴定制頂級硬件才能跑通的方案，永遠無法規模化；一個在商業硬件上用算法逼近極限的方案，才有真正的商業價值。

但三個維度，指向同一個目標，就是讓那8.3毫秒成為一條恒定可靠的輸出曲線，而不是忽高忽低的抖動波形。

04.

人和機器人的三個差異

動捕棚的另一端連接著具身智能產業。張海威在采訪中提到了遙操作背后的技術現實。因為人和機器人有三個根本差異，肢體比例結構不同，關節活動度不同（人靠肌肉骨骼，機器人靠電機），重量分布和腳底摩擦系數也不同。要把人的動作遷移到機器人身上，需要解決re-targeting問題，也就是讓機器人做出“神似”而非“相同”的動作，同時滿足機器人關節限位約束，并實時保持平衡不摔倒。

這個過程有兩層價值。在現階段機器人自主能力不足時，遙操作可以直接用于遙控干活；與此同時，遙控過程中產生的"操控-響應"數據對，是訓練機器人自主執行同類任務的珍貴素材。

這意味著，動捕棚正在從內容生產工具變成數據生產工具，不是生產視頻，而是生產機器人的訓練原料。而百人同時采集的能力，直接把數據采集的效率門檻從5人提升到了50人。

百人同場聽起來是一個規模問題，但張海威更愿意把它描述為一個效率問題。“我們計算復雜度降低超過300%。越復雜需要算力越多，系統可靠性越差。降低復雜度后，才能應用到復雜場景，比如大規模遙操、大規模數據采集。”他說。

這也使得張海威特意強調，這次百人動捕的軟硬件都是正常出貨的商業版本，不是為挑戰特別定制的版本。這不是一句場面話。在技術類挑戰活動中，定制化演示和可量產方案之間隔著一道工程鴻溝。前者意味著理論上可以，后者意味著你買了就能用。

05.

擴展無限場景可能性

百人實時動捕挑戰的完成，價值并不止于“同時捕捉更多人”。它意味著這種大規模高并發實時動作捕捉系統，已經具備面向更大空間、更高并發、更復雜交互場景的工程化處理能力。

對于數字內容產業而言，大規模實時動捕可應用于群體動畫、虛擬制作、數字演出、虛擬演唱會、影視戰爭場景、體育賽事可視化等復雜內容生產場景，例如虛擬偶像可以做30人50人的團體規模直播綜藝，顯著提升群體動作采集效率與動作真實感。

對于具身智能與機器人產業而言，百人級實時動捕能力也意味著更大規模、更復雜行為的真實世界動作數據可以被穩定采集和同步處理。數據采集效率實現倍增。這類數據可用于機器人遙操作、人形機器人動作學習、多主體協作行為研究、具身智能數據集建設等方向，為機器人從“模仿單個動作”走向“理解復雜人類行為與群體協作”提供更豐富的數據基礎。

在科研測量、工程驗證與智能交互場景中，大空間、多目標、低延遲的實時動捕能力，也可進一步支持無人系統集群測試、人機協同實驗、運動科學分析、沉浸式交互和復雜系統仿真等應用。由此，百人實時動捕不只是一次視覺化的技術挑戰，更是一次面向未來數字內容生產、智能系統訓練和真實世界動作數據基礎設施的系統能力驗證。

采訪的最后，張海威和焦健庭一起聊到了一個關于未來的注腳。“下一步可以把GPU也用起來，做實時生成，邊捕捉邊生成。把后續流程應用起來。”目前百人挑戰中，GPU主要承擔渲染輸出角色，CPU扛住了核心計算重擔。但GPU的并行算力還有大量富余，那塊Radeon RX 9070 XT的16GB顯存只用了“一小部分”。真正的下一代場景是，捕捉的同時做實時生成，邊跳邊渲染，邊采集邊訓練，而這將會讓人機交互步入新的臺階。

06.

結語與未來

回看中國動作捕捉產業的發展軌跡，從早期依賴進口設備、受限于他人制定的性能天花板，到如今在百人實時動捕這個全球無人區插上自己的旗幟，青瞳視覺完成的這場挑戰，本質上是中國動捕從“國產替代”邁向“全球領跑”的一個縮影。

過去我們說“跟上”，今天我們開始定義“什么才是可能”。8毫秒的長征翻過最陡的坡，意味著中國團隊已經掌握了在極限復雜度下定義動捕系統架構、調度算力、融合AI全棧工程能力的話語權。

從追趕到并跑，再從并跑到領跑，這條路的第一個百人里程碑，落在了青瞳視覺MCP無界棚，也讓指數爆炸的長征，正式走過了最陡的那段坡。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.