網易首頁 > 網易號 > 正文申請入駐

時隔4年，小米新款人形機器人亮相！

2026-04-28 14:11:59　來源: 人形大講堂

北京舉報

分享至

2026年的春天，科技圈的目光再次聚焦于小米。時隔四年，在萬眾期待中，小米在4月27日的投資者日活動上，揭開了其新款人形機器人的神秘面紗。現場，這款機器人能夠與參會者親切互動，輕松地遞上紙袋，俏皮地做出“比心”手勢，其靈巧與親和力讓不少在場的人眼前一亮。

不過，如果只被這些“賣萌”動作吸引，恐怕會錯過小米真正的底牌。

從“比心”到進廠“打工”，小米機器人四年磨一劍

回看2022年8月，小米第一代人形機器人CyberOne發布時也曾引發熱議。但隨后很長一段時間里，小米在人形機器人領域幾乎“靜音”——這不是停滯，而是一場漫長的積累。

這次的新款機器人，外觀上延續了CyberOne的暗灰色調和小米標志，但真正的進化藏在手上。現場演示的“比心”、分發紙袋等動作，看起來簡單，背后卻是一套基于觸覺抓取的微調模型，讓機器人擁有了更精細的物理交互能力。

今年3月，雷軍對外透露，小米的機器人已經悄悄進了自家的汽車工廠“上班”——不是做樣子，而是真的在產線上干活，比如搬運料箱、給自攻螺母上件等。

小米集團合伙人、總裁、手機部總裁盧偉冰在不久前對此進行了解讀，小米在機器人方向已經投入了五六年，這次能真正進廠干活，靠的是大模型上的突破。

他點出了兩項核心支撐：一是前面提到的靈巧手（基于觸覺抓取的微調模型），另一個就是VLA大模型Xiaomi-Robotics-0。根據盧偉冰透露，“這臺機器人進廠打螺絲，能夠自主運行3小時，安裝成功率超過了90%，并滿足產線76秒最快節拍的要求。”

當時，盧偉冰也強調，機器人剛剛進入工廠，離大規模應用還需時間。今年大家會在不同階段看到機器人方面的一些成果展示。

▍20小時速成精細活：Xiaomi-Robotics-0的“絲滑”之道

Xiaomi-Robotics-0是小米在2026年2月發布的VLA（視覺-語言-動作）模型，參數規模4.7B，專門解決機器人在真實作業中容易出現的推理延遲、動作卡頓、能力遺忘等問題。發布首月，它就在HuggingFace全球VLA模型下載榜上沖到了第六名。

為了展示這套模型的真實能力，小米設計了一個相當“刁鉆”的測試任務：讓機器人把耳機塞回耳機盒。

聽起來簡單，但對機器人來說挑戰不小——耳機和槽位的尺寸幾乎嚴絲合縫，任何微小偏差都會導致對不準，這意味著模型必須具備亞毫米級的空間判斷力。更麻煩的是，耳機和盒子表面都極其光滑（表面粗糙度低至Ra0.03μm），輕輕一碰就容易滑偏，模型得在操作過程中不斷自我修正，否則根本放不進去。

而Xiaomi-Robotics-0僅需20小時任務數據，就能讓機器人拿下這個高難度動作，還能連續、絲滑地完成多組耳機的收納。

20小時速成的背后，是基于小米預先構建的龐大預訓練模型，它包含了約2億步的機器人運動軌跡數據和超過8000萬條的視覺及語言樣本。真機后訓練（Post-training）的作用，就是在這基礎上，用少量真實機器人操作數據進行針對性微調，打通模型走向實際應用的“最后一公里”。

多視角展示裝配細節

▍開源獨門絕技：小米如何攻克機器人“偷懶效應”

在通往機器人動作“絲滑連貫”的道路上，一個行業通病始終是繞不開的攔路虎——“偷懶效應”。而小米此次開源的核心，正是其攻克這一頑疾的“獨門絕技”。

為了讓機器人的動作看起來無縫銜接，而不是一頓一頓的機械式操作，小米團隊工程師采用了異步推理（Asynchronous Execution）方案，即讓機器人在執行當前動作時，就同步開始推理下一步的動作。同時，為了保證前后兩個動作能夠平滑過渡，引入了動作前綴（Action Prefixing）技術，讓新動作基于已有動作軌跡 “生長”出來，就像接力賽選手在接棒前需要一段助跑區一樣。

然而，這套組合拳帶來了一個行業通病：模型變得“懶惰”了。它發現，只要順著已有的動作慣性去預測，就能輕松完成任務，從而過度依賴動作慣性，而選擇性地忽視了實時視覺反饋

為了根治這種“偷懶效應”，小米團隊獨創性地引入了三項關鍵技術：

自適應加權機制 (Adaptive Loss Re-weighting)：根據模型預測值與真實軌跡的偏差，動態調整 Loss 權重，引導模型針對性地修正關鍵誤差、補齊能力短板。

自適應加權機制 (Adaptive Loss Re-weighting)

Λ型掩碼 (Λ-Shape Attention Mask)：通過特殊的注意力機制，確保模型在參考前段動作末尾的同時，保持對當前視覺信號的高度專注，防止陷入單純的“路徑依賴”。

Λ 型掩碼 (Λ-Shape Attention Mask)

前綴動作隨機遮蔽 (Random Masking)：在訓練中對既有的動作前綴進行隨機 Dropout，倒逼模型深入挖掘攝像頭畫面與傳感器信號，而非盲目跟從動作慣性。

前綴動作隨機遮蔽 (Random Masking)

小米已經將包含這三大核心技術在內的整套真機后訓練流程——從數據處理、訓練方法到推理代碼全面開放。這意味著，全球的開發者都可以利用Xiaomi-Robotics-0這個基座，以及這套被驗證行之有效的“反偷懶”方法論，以極低的成本，在各種場景下訓練出屬于自己的“專屬機器人”。

▍結語

時隔四年，小米重回牌桌，但江湖已不是那個江湖。賽道上，不僅有特斯拉Optimus、Figure AI的持續進化，更有國內眾多新銳的強勢崛起。行業的評判標準也早已從“技術炫技”轉向“價值肉搏”，比的不再是誰先走上舞臺，而是誰能創價值、跑通商業閉環。

在此背景下，小米將核心的“反偷懶”技術開源，這步棋比單純發布一款新機器人更具深意。用開放換生態，用標準搏未來。這或許既是小米“先學習、再超越”打法的延續，也是在激烈競爭中，為自己爭取“換道超車”可能性的關鍵一搏。

當越來越多的巨頭攜制造經驗和資本涌入，小米的開源為這場競賽注入了催化劑。一個機器人不再“偷懶”，且人人皆可參與創造的時代，或許正被加速推開大門。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.