網易首頁 > 網易號 > 正文申請入駐

AI圈剛開始談Loop Engineering,兩位95后博士盯上了人類閉環數據

2026-06-30 12:40:20　來源: 機器之心Pro

河北舉報

分享至

機器之心發布

AI 圈最近又熱了一個詞：Loop Engineering。

它原本出現在 AI Agent 語境里，講的是一件很直接的事：別再只盯著單次 prompt，而要設計一套能持續運行的閉環系統。系統接任務、調工具、看結果、發現問題、再修正，直到目標被推進完成。換句話說，AI 工程的重心正在從 prompt-centric 轉向 workflow-centric。

放到機器人里，這個問題會被進一步放大。軟件里的 loop 面對的是代碼、接口、日志和工具調用；機器人里的 loop 面對的是真實世界：視覺誤差、動作控制、身體反饋、環境變化，以及隨時可能發生的失敗。

這也是 Loop Engineering 之所以重要的原因：真正可擴展的智能，不是一次性給出答案，而是在反饋中不斷逼近正確結果。

人類本來就是最成熟的閉環系統

人類完成一個動作，本身就是持續閉環。

眼睛鎖定目標，大腦結合上下文形成意圖，神經系統把意圖下發到肌肉，肌肉開始執行；與此同時，視覺、本體感覺、觸覺和誤差信號持續回流，幫助我們實時修正軌跡、力度和姿態。

也就是說，人類始終在「感知 — 決策 — 執行 — 反饋 — 修正」的環路里和世界打交道。

這也解釋了為什么具身智能正在爭搶 ego-centric、human-centric 數據。真機數據貴，機器人采集慢，真實世界交互復雜；相比之下，人類第一視角數據更容易規模化，也更接近真實任務場景。

但今天大多數 human-centric 數據，記錄的仍然主要是「人做了什么」。對真正的閉環智能來說，更關鍵的是：人為什么這樣做？準備怎么做？做到哪一步？又如何根據反饋修正？

這正是一家名為臉譜心智的初創公司試圖切入的位置。

從世界模型架構，到數據范式

臉譜心智 Facemind 由雙 95 后博士陸弘遠及韋怡然創立，早期從端側全模態模型切入，隨后將重心轉向更底層的世界模型研究。

他們最近在世界模型方向做了一次架構創新，發布了 Looped World Models。

論文鏈接：https://arxiv.org/abs/2606.18208

據其介紹，這是世界首個基于 loop transformer 的世界模型。它的核心思路，是通過參數共享的 transformer block，對 latent state 進行迭代式 refinement，讓模型在內部多輪滾動、修正，逼近更穩定的狀態理解。

這相當于把 loop 引入世界模型架構層面：模型不是一次性理解環境，而是在隱藏狀態中反復更新對環境和動力學的判斷。

LoopWM 在 ego-centric、human-centric 數據上體現出非常強的 data efficiency 和 performance。

但這也帶來了一個更進一步的問題：數據側還有沒有可能繼續升級？

今天大多數 Ego 數據，仍然主要記錄人看到了什么、做了什么。它能覆蓋大量真實場景，也能提供豐富的人類操作樣本，但它對「動作為什么這樣發生」這件事，記錄得還不夠完整。

一個動作并不是從畫面直接跳到結果。它中間還包括目標鎖定、動作準備、意圖形成、肌肉執行、反饋感知和實時修正。如果這些過程沒有被記錄下來，模型學到的就更接近動作結果或行為軌跡；如果這些過程能被同步采集、對齊并結構化，模型才有機會學習動作背后的閉環策略。

于是，問題從模型架構轉向了數據范式：在現有 ego-centric、human-centric 數據之外，能不能進一步采到更優質、更閉環的操作數據？

臉譜心智給出的答案，就是接下來要講的這套新的數據范式。

數據范式 Ego-NeuroLoop：把人類閉環變成訓練資產

這套數據范式，叫 Ego-NeuroLoop。

它要采的不只是人手最后做了什么動作，而是一組圍繞人類操作過程展開的多模態閉環數據。

具體來說，數據使用 world camera 捕捉人與環境交互的視覺上下文，記錄環境里有什么、物體在哪里、動作發生在什么場景中；使用 gaze 捕捉人的視線和注意力落點，記錄目標是如何被發現、鎖定和持續關注的；用 EEG 捕捉與動作意圖、狀態切換、誤差感知相關的神經層信號，幫助判斷人什么時候準備動作、什么時候意識到偏差；最后用 sEMG 捕捉肌肉激活和發力變化。

普通 egocentric data 主要記錄「人看到了什么、手做了什么、任務有沒有完成」。Ego-NeuroLoop 則進一步把這些信號放到同一條時間軸上，把動作拆成一條連續的閉環鏈路：視覺告訴系統世界狀態，視線告訴系統目標在哪里，EEG 提供注意力，意圖和狀態變化線索，sEMG 提供執行和發力線索，多模態反饋共同解釋人如何在操作中不斷修正。

如果說普通第一視角視頻是在錄一部「動作電影」，Ego-NeuroLoop 更像是在記錄一套人類閉環控制系統的運行日志。它真正想變成訓練資產的，是人類在真實操作中如何把事情一步步做對或者做錯修正的過程數據。

數據采集 NeuroMatrix：低成本采下關鍵閉環信號

第一層是數據采集裝置 NeuroMatrix，負責把視覺、視線、EEG、sEMG 等多模態信號采下來。NeuroMatrix 的核心設計邏輯，是先用高精度版本采集 EEG、sEMG 數據訓練基座模型，建立人類動作意圖、神經信號和肌肉執行之間的對應關系。

有了這張「人類閉環」的信號地圖，系統就能進一步找到與手臂、手指動作高度相關的腦區信號、頭皮電極通道，以及相關肌肉區域。隨后，量產硬件設計圍繞關鍵位置收縮：減少電極數量，壓縮傳感器點位，把采集裝置做成更低成本、更可部署的形態。

這一步解決的是采集半徑和采集成本問題。它把原本高門檻，價值數十萬的人類閉環采集能力，推向數千元級目標區間，也讓過去只有少數實驗室和大團隊才能負擔的數據生產能力，變得更可擴展、更高頻、更貼近真實世界。

數據增強 NeuroBooster：神經信號的 VLM

第二層是多模態基座模型 NeuroBooster。它可以理解為「神經信號的 VLM」。VLM 解決圖像和文本之間的對齊問題，NeuroBooster 解決視覺、視線、EEG、sEMG 之間的對齊、配對、映射和增強重建問題。

NeuroMatrix 把多模態信號采上來之后，下一步進入 NeuroBooster。

如果說 VLM 把圖像和文本映射到統一表征空間里，讓模型理解「一張圖對應什么語義」，那么 NeuroBooster 要做的，就是把視覺、視線、EEG、sEMG 映射到統一閉環表征空間里，讓模型理解一個動作如何從目標、意圖、執行到反饋修正一步步生成。

一個動作發生時，視覺里出現了什么目標，目光落在哪里，EEG 何時出現動作準備或狀態切換，sEMG 又如何對應到手臂、手指的肌肉激活。NeuroBooster 通過多模態配對映射，把這些信號組織成一組可學習的閉環樣本。

它的訓練路徑可以概括為三步：首先，基于高精度 NeuroMatrix 前期形成的高精度信號地圖，學習不同模態之間的時間對齊關系和語義對應關系；其次，圍繞手臂、手指動作，建立腦區信號、頭皮電極通道、肌肉區域和視覺目標區域之間的配對關系；最后，對低成本、低信噪比、多模態不同步的數據進行增強重建，把粗糙采集結果轉成可被模型消費的 Ego-NeuroLoop 數據。

這一步很關鍵，因為低成本設備天然會帶來噪聲。EEG 可能受到電極阻抗、接觸質量、頭動偽跡影響；sEMG 可能受到佩戴位置偏移、肌肉串擾和動作噪聲影響；視覺數據可能出現遮擋、模糊和視角變化；gaze 數據也可能漂移或短時丟失。

NeuroBooster 的價值，就在于利用多模態之間的互補關系做增強重建：當 EEG 信號較弱時，sEMG 和 gaze 可以補充動作執行與目標信息；當 sEMG 存在噪聲時，視覺和 EEG 可以提供動作階段和意圖線索；當 gaze 漂移時，world camera 和動作狀態可以幫助恢復目標上下文；當視覺被遮擋時，EEG 和 sEMG 可以補充動作意圖與執行狀態。

最終，模型看到的是一條經過同步、對齊、配對映射、信號增強和結構化處理的閉環時間軸：環境里有什么，目標在哪里，意圖何時出現，肌肉如何響應，動作如何展開，反饋如何發生，下一步又如何修正。

這才是 Ego-NeuroLoop 真正想提供給具身智能模型的東西。

從數據資產，到閉環策略

Ego-NeuroLoop 的價值，不是替代現有 ego-centric、human-centric 數據，而是在它們之上補上更完整的閉環信號。

現有第一視角數據已經很有價值。它提供真實場景、真實任務和真實人類行為，也讓世界模型能夠學習環境變化、動作軌跡和結果反饋。

但如果進一步加入視線、EEG、sEMG 等多模態信號，數據就不再只是「人做了什么」，而是更接近「人為什么這樣做，以及如何在反饋中把事情做對」。

通過 NeuroMatrix 和 NeuroBooster，低成本設備采集到的視覺、視線、EEG、sEMG 等多模態信號，可以被映射成更穩定的閉環語義。這給世界模型提供了更接近人類動作生成過程的數據：從環境感知，到目光鎖定目標，到神經層狀態變化，再到肌肉執行和反饋修正。

模型可以從這類數據里學習：如何在復雜環境中鎖定真正相關的目標，如何在動作發起前形成可執行意圖，如何在執行中依據反饋實時修正，如何在失敗時切換策略，避免機械重試。

這些能力需要目標、意圖、執行、反饋之間形成一條連續的環。這也是這套方案真正想采下來的東西：人類閉環策略。

最后

Loop Engineering 今天會火，是因為大家終于開始認真討論一個問題：智能系統不能只會答，還得會跑、會驗、會改。

但對具身智能來說，這個問題還要再往前走一步。關鍵不只是把 AI 放進 loop，也不只是把現有第一視角數據用得更高效，而是能不能進一步獲得更優質、更閉環的人類操作數據。

從這個角度看，臉譜心智提出 Ego-NeuroLoop，并做出 NeuroMatrix 和 NeuroBooster，真正想解決的是一個更底層的問題：如果未來機器人要像人一樣理解世界、組織動作、利用反饋、持續修正，那么訓練數據能不能先把「人如何做到這一切」記錄清楚？

這條路線從世界模型架構創新，走到了具身智能數據范式創新。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.