![]()
ROBOT INDUSTRY
以人形機器人為代表的具身智能在實驗室中的“場景理解”與“任務規劃”上進展顯著,但面對真實的工業產線任務時,往往面臨“想得到但抓不準、算得出但跟不上”的困境。這背后,是長期橫亙在實驗室環境與真實應用場景之間的鴻溝:人形機器人在空間層面的度量失準與時間層面的響應遲滯。優必選開發的具身智能大模型Thinker,旨在打造一個能為工業人形機器人提供快速反應與精準空間感知的下一代具身智能大腦,以應對動態工業場景的挑戰。Thinker將作為智能基座,為優必選的群腦網絡和協作智能體Co-Agent提供認知與決策支持,進而驅動單機自主與群體智能的協同進化。
![]()
1
視覺語言模型需求與現狀剖析
![]()
近年來,大型視覺-語言模型(VLM)在廣泛領域取得了顯著成果,這促使眾多研究人員將VLM應用于機器人領域。雖然VLM在場景理解方面表現出色,但它們在規劃方面面臨著重大挑戰。特別是,它們難以根據當前和過去的觀測來預測機器人的未來狀態。大多數VLM主要是在視覺問答(VQA)和圖像描述數據集上進行訓練的,這些數據集中的場景通常是從第三人稱視角描述的。缺乏針對機器人的訓練數據,從根本上限制了當前模型實現有效機器人任務規劃的能力。
當前,機器人領域大模型表現欠佳,尤其在空間理解、視覺感知等關鍵任務上精度不足;且模型參數量普遍較大,難以滿足機器人對實時性的高要求;互聯網上雖有海量數據,但質量參差不齊,制約了模型通過Data Scaling實現性能有效提升。
![]()
圖1 優必選具身智能大模型Thinker在9項權威基準評測中排名全球第一
優必選具身智能大模型Thinker以“小參數、高性能、全開源”突破具身大腦領域限制。如圖1所示,在涵蓋10B以下具身智能大腦模型的權威基準評測中,Thinker一舉拿下9項第一,重新定義了該領域的性能標桿。這些基準全面評估了具身智能的兩大核心能力:一是機器人第一視角下的場景認知與任務規劃能力;二是支撐物理交互的精準感知與空間理解能力。
具身智能的核心競爭力根植于高質量數據的支撐,但行業普遍面臨原始數據噪聲大、多模態對齊困難、標注成本高、小樣本泛化難等痛點。優必選以數據為核心,構建了覆蓋“精煉提純-自動化標注-數據驅動訓練”的全鏈路解決方案,通過極致的技術優化破解行業難題,為輕量化具身大模型的高性能表現筑牢數據基座。
2
Thinker模型技術解析
![]()
· 多樣化的數據
如圖2所示,Thinker在大規模和多樣化的數據集上進行了訓練,這些數據集增強了其在具身環境中的能力。具體來說,優必選精心制作了四類數據集,涵蓋空間和時間理解、第一人稱視角推理、規劃,以及優必選的內部工業數據集,該數據集專注于工業環境中的多對象操作和運輸任務。
![]()
圖2 該圖展示了制作的訓練數據集的分布情況,將其分為四類:視覺定位、第一人稱視角、路徑規劃、工業場景
視覺定位數據
為了發展強大的空間感知能力,優必選為邊界框和點級別的目標定位構建了視覺定位數據集。對于邊界框定位,優必選構建了Lvis-520K,其中包含由GPT-4o生成的關于物體功能的問答對。優必選還利用Sharerobot-affordance-6.5K訓練模型學習可抓取區域。對于點定位,優必選使用了Pixmopoint-570K和Robopoint-667K的精煉版本,去除了包含超過10個點的實例和室外場景。這些數據集共同支持了精確空間感知和指令理解的發展。
第一人稱視角推理數據
優必選通過仔細篩選和精煉Egoplan-it構建了Egoplan-it-100K,旨在推進時間推理和以自我為中心的任務規劃。每個項目包括一個視頻剪輯和最后一幀。優必選設計了兩種任務格式:開放式和多項選擇題。優必選使用標注的動作作為正確選項,并從其他序列中隨機抽樣至少三個動作作為多項選擇題的干擾項。
機器人操作規劃數據
優必選構建了一個大規模的機器人規劃數據集Robovideo-1.8M。Robovqa是一個大規模數據集,包含超過800K個問答對,涵蓋了多種具身形態,包括機器人、人類和工具輔助的人類交互。相比之下,Sharerobot包含1M個問答對,專為機器人操作任務中的細粒度規劃而設計,涵蓋了源自Open-x-embodiment的102種不同場景和12種機器人形態。通過在Robovideo-1.8M上進行訓練,Thinker獲得了在機器人任務場景中自發執行復雜推理的能力。
工業任務規劃數據
為了進一步加強在現實世界場景中的長程推理能力,優必選構建了Industroplan-200K數據集,該數據集專注于涉及多對象操作和運輸的工業環境中的任務規劃。每個實例包括視頻演示、任務目標和思維鏈注釋,涵蓋了多樣的布局、對象類型和動作序列。Industroplan明確為長程任務而設計,使其適用于訓練和評估復雜工廠環境中的機器人感知和規劃。
· THINKER模型
模型架構
優必選開發了Thinker基礎模型,這是一個具有百億參數級別的大型視覺語言模型。架構如圖3所示。Thinker包含四個模塊:文本分詞器、視覺編碼器、用于對齊視覺和語言空間的多層感知機,以及語言模型主干。這種設計實現了跨視覺、語言和時間的統一表示。這使得Thinker能夠準確捕捉視覺細節,理解任務指令,并在多種場景下進行推理,從而為具身智能提供可靠的基礎。
![]()
圖3 模型支持圖像、視頻和復雜的語言指令
訓練策略
Thinker采用兩步訓練策略,以發展在復雜場景下的穩健任務規劃能力。在第一階段,優必選專注于建立模型的基礎感知和推理能力。在第二階段,優必選對下游規劃任務進行監督微調,使其推理能力與任務特定目標對齊。這種策略使模型能夠將其推理能力擴展到多樣化的場景,適應下游任務,并最終在現實世界環境中生成可執行的計劃。
第一階段:專注于建立Thinker的基礎具身能力。優必選在通用數據集、空間理解數據集和大規模規劃數據集的組合上對Thinker進行微調,這使其具備了強大的空間感知和推理技能,從而為下游任務對齊和復雜場景下的長程規劃提供了堅實基礎。此外,在視頻理解訓練期間,優必選將每個視頻剪輯的最后一幀作為輔助輸入,這進一步增強了模型的性能。
第二階段:專注于將Thinker的推理能力與復雜的工業規劃任務對齊。優必選在Industroplan-200K數據集上進行監督微調。這個過程使模型能夠將其從第一階段繼承的推理能力適應于序列依賴關系、多樣的對象布局和糾正性反饋。因此,Thinker能夠在現實工業場景中生成可執行的計劃,有效地將空間理解與實際任務執行連接起來。
· 基礎設施
優必選建立了支持Thinker訓練、微調和推理的基礎設施。該技術棧旨在(i)在異構數據集上聯合訓練,(ii)在優必選提出的模型之一Thinker-7B上執行參數高效的微調,以及(iii)在基準測試協議下以可靠性和可觀測性進行部署。
大規模多任務訓練基礎設施
優必選解決了多任務、多模態訓練中的三個實際挑戰:(1)數據源間的異構性(帶時間上下文的視頻 vs. 單圖像VQA);(2)從大型預訓練主干高效且可復現地初始化;(3)大規模下的穩定吞吐量。優必選采用統一的采樣模式,將所有示例規范化到一個任務感知的結構中,涵蓋視覺輸入、文本輸入、監督目標和任務類型。通過一個根據驗證反饋進行調整的動態采樣器實現了平衡的任務混合,確保所有數據集在訓練過程中都能有意義地貢獻。此外,優必選采用分片加載和選擇性凍結來最小化內存壓力和預熱時間。
微調模型的推理基礎設施
一個任務感知的推理流程規范了EgoPlan-Bench2和RoboVQA的輸入和輸出。視頻輸入被轉換為用于規劃的簡潔時間視覺表示,而靜態圖像VQA輸入則被格式化為用于緊湊推理。輸出被規范化以符合每個基準的評估協議,從而實現無縫且可重復的評估。
容錯與監控
優必選持續跟蹤優化信號(每個任務的損失)、吞吐量、加速器內存和設備利用率。自動警報會提示異常情況(例如,利用率下降或損失漂移),使操作員能夠快速干預,最大限度地減少計算浪費。長周期訓練運行采用周期性檢查點(模型、優化器和數據加載器游標),以便在節點故障時快速恢復。當發生中斷時,啟動器從最新的一致狀態恢復,無需重新處理數據集的大部分內容。
3
優必選THINKER模型創新性
![]()
優必選自主研發的Thinker架構與訓練框架通過多項關鍵技術創新性整合,系統化提升了人形機器人的感知與推理規劃能力,為工業場景的規模化應用奠定基礎。
第一,自研視覺編碼器基座,構建精準環境感知。優必選以ViT作為視覺編碼器原型,結合Co-DETR檢測頭,依托Object 365等開源數據在通用視覺任務上進行預訓練,并通過多階段模態對齊機制實現了視覺-語言模態的高效融合。最終,在優必選機器人數據集上進行微調,顯著提升機器人在工業場景中對物體、障礙和操作上下文的識別能力,為復雜環境下穩定可靠的多模態環境感知奠定了堅實基礎。
第二,超大規模參數架構,提供強大語義理解基礎。優必選自研了具有百億參數的多模態大模型Thinker基座,實現視覺-語言-時間的跨域統一表征,使機器人能夠在多場景中準確捕捉環境細節、理解任務指令,并做出推理,為自動化操作提供可靠的認知基礎。
第三,時序增強算法與強化學習方法,增強長程任務規劃連貫可靠。通過大模型蒸餾技術,將百億參數模型效果濃縮至7B參數模型中,在保持高性能的同時,增強多步驟任務分解與連續決策能力。該優化使模型可以在端側部署,用機器人自身搭載的算力就可實時自主拆解復雜流程,避免規劃中斷或邏輯混亂,在流程嚴格、環環相扣的工業場景中展現出關鍵價值,將有力保障生產連貫性和操作安全性。
4
預期成果與社會效益
![]()
工業場景的精調策略正成為推動多模態大模型邁向實際應用的關鍵力量,為人形機器人在生產線上的穩定、高效部署奠定了技術基礎,加速其從技術驗證走向規模化實戰應用的進程。
優必選創新性地采用“通用基礎能力打造+工業場景精調”的微調策略,基于超200萬條視頻數據構成的大規模訓練集進行預訓練,隨后引入優必選在工廠實訓中積累的億級工業數據集進行微調,并對工業場景任務規劃數據加以清洗與整合,構建高效多模態大模型學習閉環。通過這一流程,模型能夠快速學習工業場景的視覺特征、任務規則與操作偏好,最終顯著提升人形機器人在工業場景中的理解準確率、規劃適配性與決策可靠性,實現在多種復雜場景中的泛化性與穩定性。
在Thinker大模型技術體系的全方位賦能下,優必選新一代工業人形機器人Walker S2實現“最強大腦”再進化,不僅具備高精準環境感知能力,更能夠在動態場景中高效完成任務分解、實時調整與穩定規劃。借助Thinker,Walker S2可精準識別設備、物料與障礙物,深度理解場景語義及操作前后邏輯關聯,顯著提升長周期任務的執行穩定性。在復雜流水線環境中,機器人展現出持續連貫的規劃能力,大幅降低對人工干預的依賴。
實際應用數據顯示,相比僅基于通用數據微調的模型,采用工業數據集進行二次微調后,Walker S2在拆碼垛規劃等典型任務中的規劃精度提升超過 20%,有力驗證了該技術方案的產業化價值。
5
行業前景與展望
![]()
當前,人形機器人正在進入大規模應用的關鍵階段,其發展亟需與開發者共同構建開放、協同的應用生態。為此,優必選將逐步開源一系列業界稀缺的工業場景數據集與通用基礎大模型,為全行業提供源自實際應用一線的高質量合規數據資源。開發者可基于優必選多模態大模型Thinker,面向各類新場景開展精調與二次開發,助力提升開發效率。優必選期待與全球開發者攜手,共創工業人形機器人的應用生態,為具身智能行業的加速發展注入持續動能。
6
結論
![]()
具身智能正加速滲透工業智造、商用服務等千行百業,但技術門檻與成本限制成為行業普及的關鍵瓶頸。優必選堅持開源共享理念,將模型權重、訓練工具鏈與應用案例全量開放,希望與更多開發者和企業共同擁抱具身智能的浪潮。
本文作者:
曾 泉 深圳市優必選科技股份有限公司技術開發工程師
林 亮 廣東理工學院
鐘汶峻 惠州學院
閱讀更多內容,歡迎訂購《機器人產業》雜志。
點擊跳轉!圈內人都在看的專家觀點
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.