網易首頁 > 網易號 > 正文申請入駐

面向具身智能“南北極”的靈寶策略

2026-02-02 18:45:32　來源: 雷克智能

北京舉報

分享至

ROBOT INDUSTRY

在工業自動化的深水區，一場靜默而深刻的變革正在發生。隨著具身智能的光環逐漸褪去，其內核挑戰越發清晰：如何讓機器人在真實、復雜的物理世界中，同時掌握靈活應變的智慧與穩如磐石的精準能力，這被行業視為必須征服的“南北極”。

2023年以來，以大模型為代表的認知智能實現驚人跨越，其浪潮自然涌向物理世界，催生了具身智能的空前熱度。資本與人才密集涌入，各類機器人公司如雨后春筍般涌現，但行業很快在具身智能“如何實現”的路徑上產生分野：是依賴人類遙控的“增強四肢”，還是追求完全自主的“原生智能”？在喧囂之下，商業化正從技術演示轉向對真實場景的價值驗證與耐力比拼。

北京中科慧靈機器人技術有限公司（以下簡稱“靈寶”）成立于2023年，是中國科學院自動化研究所孵化的創新型高科技企業，專注于通用人形機器人和具身智能的研發與應用，聚焦“具身操作智能”這一核心方向深耕、發展。面對場景需求呈現出的“柔性交互”與“高精操作”兩極分化，靈寶并未選擇單一側，而是確立了同時征服“南北極”的“靈寶策略”，旨在為工業、特種等領域提供前所未有的自動化解決方案。

錨定VLA技術路徑的主航道

面對行業的路徑分化，靈寶堅定地選擇了名為“基于視覺-語言-動作模型（VLA）的通用操作智能”的主航道。靈寶脫胎于中國科學院自動化研究所，在視覺感知、多模態融合、工業視覺伺服等領域擁有數十年扎實積累，這為構建VLA模型所需的“眼睛”（識別）、“大腦”（決策）和“小腦”（控制）提供了得天獨厚的基礎。

靈寶具身操作中心負責人周明才指出，當前行業競爭的關鍵分水嶺，已從完成炫酷演示轉向構建能夠泛化、進化、應對開放場景的通用操作能力。遙操作雖能實現高難度演示，但其擴展性差、泛化成本高且始終需要人力在環上；而純粹的端到端模型則對數據、算力及“世界模型”的要求極高，距離工業落地尚遠。因此，VLA路線恰是尋求兩者平衡與突破的關鍵。

圖1 靈寶具身操作中心負責人周明才

更為關鍵的是，靈寶堅持了一條從機器人本體、底層驅動、運動控制到操作導航算法的全棧自研道路。這一選擇被周明才視為VLA技術能否真正落地的“生死線”。他解釋道，如果沒有全棧自研能力，VLA模型訓練得再好，在落地時也可能因底層控制延遲、傳感器噪聲或本體剛性不足而導致“手眼不協調”，最終無法在真實物理世界精準執行。全棧自研使得靈寶能夠從最底層的控制實時性、傳感器數據融合，到上層模型訓練與部署，進行一體化的深度優化與迭代，而這種軟硬件協同進化的能力，甚至能反過來倒逼和優化硬件本體的設計。

面對國內傳感器等核心零部件領域“百花齊放”的現狀，靈寶的全棧自研模式構成了獨特的“穩定器”和“放大器”。

作為穩定器，公司自研底層軟件算法，對核心零部件的需求是清晰的功能與性能定義，而非綁定特定品牌，從而擁有強大的供應鏈彈性，可通過軟件適配快速切換優質供應商。

作為放大器，靈寶以技術共創伙伴的身份與供應鏈深度合作。例如，在與3D視覺傳感器廠商的合作中，靈寶將自身先進的深度感知算法與廠商硬件深度結合，僅用一個融合了深度感知的四目相機，便替代了原本需要兩個獨立相機的方案，在提升性能的同時降低了成本，實現了與供應鏈的協同進化與相互賦能。

征服南北極——柔性交互與高精操作

在靈寶的技術體系中，“柔性交互”與“高精操作”并非割裂的概念，而是必須被同一系統攻克的兩大極點，二者共同定義了新一代工業自動化的能力邊界。

圖2 CASBOT 02表演擊鼓

“柔性”的核心是應對“不確定性”。以制鞋行業為例，機器人面臨的反光皮革、深色吸光布料、流水線上隨機堆疊的鞋體，以及鞋底鞋面各類柔性材料帶來的多變摩擦力，使得任何一套固定參數策略都束手無策。傳統自動化需要為各種可能性編寫海量“if-else”規則，過程繁瑣且無法泛化。

對此，靈寶的VLA模型通過“預訓練+微調”的組合拳來應對：首先，利用海量互聯網視頻與仿真數據進行預訓練，讓模型建立起對物體、場景和基礎物理常識的“通識”理解；其次，通過創新的“真機在線強化學習ConRFT”方法進行快速微調，僅需在現場采集幾十條到上百條數據，就能讓機器人安全地探索并習得針對當前特定產線的“肌肉記憶”，實現從“冷啟動”到“快速適應”的躍遷，從而有效應對極致的多品種、小批量、快換線的柔性生產需求。

而“高精操作”，則是在確定性環境下挑戰系統精度、響應與協同能力的極限。周明才將其比喻為一場精密的“協同作戰”，其成敗不能單靠VLA模型，而需依賴多模態控制系統的深度融合。

在這一體系中，VLA模型負責根據自然語言指令進行任務分解與宏觀規劃，視覺伺服則在其劃定的范圍內，基于實時視覺反饋進行毫米甚至亞毫米級的精確定位與閉環糾偏。當機器人與環境發生接觸、視覺可能被遮擋時，高精度力控與力位混合控制會立即接管，通過感知接觸力的細微變化來實時調整位置與姿態，實現“以力覺補視覺”。因此，高精操作的成敗關鍵不僅在于硬件提供的靜態精度上限，更在于操作過程中多模態感知與控制的在線、實時、自適應補償能力。

圖3 CASBOT W1執行模擬礦區的裝藥炸礦高危作業任務

為了將這套協同系統從理論變為現實，靈寶在工程化層面進行了大量創新。自主研發的QDepth-VLA，如同一位“專注而魯棒的觀察者”，它通過一個輔助分支進行深度估計，并利用量化監督增強模型對三維空間的幾何理解，使得模型即使僅輸入普通的RGB圖像，也能在面對噪聲、反光和局部遮擋時，魯棒地估計出對操作至關重要的深度信息——這項技術正是在礦山井下惡劣環境的倒逼下誕生的。

同時，為了確保VLA模型從“直覺”走向“可靠”，靈寶構建了完整的安全體系：ConRFT通過保留專家示教的行為克隆損失，為探索設定安全初始區，結合“人在回路”的實時干預機制作為安全護欄，并采用一致性策略確保策略切換平穩。這種方法允許機器人在安全邊界內進行有限探索，甚至發現優于人類示教的新策略，同時將所有干預數據反哺模型。

場景驅動與漸進式通用的閉環進化

靈寶構建了一個高效運轉的“數據-算法-場景”閉環系統，將每一次現場的成功與失敗都轉化為系統進化的養料。在客戶部署現場，機器人通過“機器人管理平臺”自動化收集海量操作數據，尤其是那些因反光、堆積、奇異形狀導致的“邊緣案例”；這些數據經由平行的“具身操作開發平臺”處理，用于持續優化VLA模型的感知泛化性與決策魯棒性。例如，針對制鞋廠綠色傳送帶嚴重反光的問題，靈寶進行的不是簡單調光，而是從成像端和算法端系統性地提升模型抗干擾能力，從而將具體問題抽象升維為通用挑戰的解決方案。

行業客戶在這個閉環中扮演著“共同定義者”與“極限考場”的雙重角色，與山東招金集團在礦山場景的合作尤為典型。從最初的井下巡檢，到客戶提出在掘進面進行炸藥裝填的極限需求，非結構化地形、粉塵、高危場景的復雜性直接催生了技術形態的創新——結合四足移動底盤與手臂操作的“半人馬”形態機器人，并對VLA模型的多模態融合可靠性、極端視覺缺失下的推理能力及絕對安全優先的決策邏輯提出了前所未有的要求。這些由真實痛點淬煉出的解決方案，最終被反哺至靈寶面向高危場景的標準產品庫中。

圖4 靈寶CASBOT亮相國際銅業協會（ICA）論壇

與消費電子玻璃蓋板龍頭藍思科技的戰略合作，則提供了一個在亞毫米級公差、萬級無塵環境下錘煉“高精操作”能力的頂級考場。雖然在此類場景中，VLA模型當前主要承擔高層規劃，極致精度仍依賴視覺伺服與力控的緊密協同，但由此收集的高價值、高精度數據，正為未來將更多精細控制能力“內化”到VLA模型本身積蓄力量，推動整個系統向更簡潔、更智能的架構演進。

基于扎實的場景深耕，靈寶對“通用性”有著務實而清晰的漸進式定義。在橫向拓展層，通用性意味著“同一套VLA‘大腦’與開發平臺，能高效適配不同形態的機器人‘身體’”，即通過構建標準化的感知-決策-控制接口，實現軟硬件解耦，讓技術體系能驅動從輪臂、四足到未來雙足人形的多樣本體，從而降低跨場景遷移成本。在縱向深化層，通用性則體現為“單臺機器人在一條產線上穩定完成多工序復合任務”，例如在制鞋線上，連貫完成抓取、涂膠、貼合、初檢，以提升單站價值密度。

閱讀更多內容，歡迎訂購《機器人產業》雜志。

點擊跳轉！圈內人都在看的專家觀點

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.