![]()
對話微億智造:工業 具身智能的終局可能在哪里。
作者|Li Yuan
編輯|鄭玄
過去兩年,人形機器人和具身智能持續升溫,融資、Demo、技術敘事共同推動行業進入高關注周期。但熱潮向前推進的同時,另一個問題也越來越清晰:工業場景并不會因為一個新概念的出現而自動降低門檻。
直到今年,一批喊出「進工廠」的公司真正走到工業現場后,行業才更清楚地看到:Demo 能跑通,不等于系統能在工廠里長期、穩定、低故障地運行。Figure AI 這樣的明星公司也開始從展示技術想象,轉向證明連續作業能力。
資本和產業端的關注點正在發生變化:企業到底有哪些可復制的落地場景?客戶為什么愿意買單?ROI 能不能算得過來?
極客公園最近接觸到的微億智造,正是一家在這個階段更值得我們研究的公司。
微億智造是一家工業具身智能公司,從公司早期開始將當時的先進生產力——有AI感知的機械臂帶進工廠。此后,微億智造持續沿著真實產線需求升級具身能力:從感知到執行,再進一步補上決策與反饋,讓機器人不只是完成固定動作,而是能在復雜、非標、高約束的工業現場中理解任務、判斷狀態并穩定作業。
目前,微億智造的具身智能機器人已經在工業場景中落地外觀檢測、焊接、打磨、裝配等環節,今年以來,也在向最前沿的物流場景的分揀、碼籠、碼垛等任務上延伸。
在這一波具身智能的浪潮中,很多人看不懂微億智造,以為產品用了機械臂的形態就等于不是具身智能。不過,近年來共識正在收斂——工業場景需要最適合它的物理形態,而這并不一定是人形。
2023年以來,微億智造的訂單規模持續增長,研發投入也不輸許多通用機器人公司。
2023 年至 2025 年,公司研發投入分別為 1.78 億元、1.65 億元和 2.35 億元,占各期總收益的比例分別為 41.1%、27.5% 和 29.6%。近三年算力投入從0.52億元增至1.51億元。
這組數據指向的,正是工業具身智能需求正在被真實驗證的現實場景:一方面,訂單增長說明工廠端確實在為這類能力買單;另一方面,持續高比例的研發與算力投入,也說明微億智造并不是在做傳統自動化項目,而是在圍繞感知、決策、執行和反饋能力持續加碼。
![]()
我們采訪了微億智造董事長兼 CEO 張志琦。他聊到了從 2018 年起,公司如何一步步把 AI 技術落到工業現場;也聊到了在真實工廠里,VLA 哪些能做,哪些暫時還不能做,以及工業具身智能的終局可能在哪里。
01
從 2018 年開始,把 AI 引入傳統機械臂
極客公園:微億智造把自己的產品稱為“工業具身智能機器人”。但從外形上看,它似乎仍然是機械臂、相機、工裝和產線設備的組合。比如外觀檢測,傳統機械臂也能做,工業具身智能機器人也能做。兩者到底有什么區別?
張志琦:是的,兩個產品都能做外觀檢測,但它們應用的技術不一樣,最后給客戶帶來的價值也不一樣。
微億智造 2018 年剛成立時,主要產品其實更像是傳統自動化產品:一個定焦相機負責拍產品,把圖像采集完之后,再用 AI 模型判斷它屬于哪一類缺陷,最后把不同缺陷的產品分開處理。
這雖然也是使用 AI 賦能了檢測,但還不能稱之為工業具身智能,因為本質上,機器做的每一步仍然是被編程設定好的。
到 2022 年左右,微億智造接到一個大客戶項目:為兩米多長的大型一體化壓鑄件做檢測和打磨。
這個零件有近 3000 個拍攝點位,客戶要求整套流程在 10 分鐘以內完成。但傳統機械臂很難做到——光是按照固定軌跡打磨一遍,就要一個小時,而熟練工人只需要七八分鐘。
差距不在機械臂速度,而在判斷能力。人會先看哪里有問題,再只處理有缺陷的位置;傳統機械臂則只能按預設路徑把所有位置走完。這個客戶此前花了兩年多找服務商,都沒能解決。
微億智造后來重新設計了一套「查打一體」的工業具身智能機器人。它的基礎,是公司從 2018 年到 2020 年逐步做出的飛拍技術,讓機械臂能夠不停歇地連續拍攝,在 5 分鐘以內拍攝 3000 個點位。
更關鍵的是,在這套系統里,點位和軌跡開始能由算法自動生成。
![]()
因為軌跡不再需要提前設計好,系統可以做到像人一樣先識別目標和缺陷,再決定哪些地方需要打磨,生成軌跡。最后,這套設備把檢測和打磨節拍壓到了 7 到 10 分鐘之間,接近人工水平。
「看見—判斷—處理」的能力,正是傳統自動化和工業具身智能的分界。
極客公園:如果說在檢測和打磨里,具身智能解決的是“先看見,再判斷,再處理”的問題,那么其他場景里,它和傳統機械臂的差別會體現在哪里?
張志琦:比如2024年我們展示的具身智能裝配機器人為例,差別變得更加明顯。
在一些簡單裝配任務里,我們現在可以做到:人做一遍,機器人看一遍,然后機器人理解人是怎么做的,再用雙臂協同完成整個裝配過程。
對工業客戶來說,示教成本非常關鍵。在真實工廠里,因為每臺設備安裝時都有公差,傳統機械臂需要每臺設備都分別示教,沒辦法符合柔性生產的需求,太麻煩了工廠寧愿選擇直接用人。
但我們現在可以做到通過一次視覺示范,讓機器人理解人是怎么做的,這會大大縮短客戶導入的時間。
![]()
除此之外,機器人開始能處理現場里的不確定性。
比如零件已經抓到了,你把它拿走,它會自己再去找;它本來要沿著一條路徑去取料,你把軌跡擋住,它會想辦法繞開。過去傳統機械臂更多是把工程師預編程的動作執行出來,而有「大腦」的機器人,可以根據現場變化重新做判斷。
我們現在也在做物流行業的碼籠場景,機器人能兼容各類箱體和包裹,設計放置策略智能分籠。這都是傳統機械臂做不到的。
02
當 VLA 撞上 0.1 毫米的工廠現實
極客公園:做到這些,我們使用的是VLA的技術嗎?普遍印象里,VLA的技術才能帶來泛化性。
張志琦:我們認為在工廠現場,大體可以分為兩類工種:一類叫技術工種,一類叫普工。
技術工種的知識,很多時候只在老師傅身上,必須到具體現場里才能獲得。比如打磨、焊接、檢測,在技術工種這一層,我們使用的不是 VLA架構,甚至我們認為未來也不一定會使用 VLA 架構。
它可能基于規則引擎,基于目標對象理解、認知、軌跡規劃和執行,甚至在執行過程中形成有效糾偏,不斷優化軌跡,就能夠更快速、更高效地實現。它仍然是AI技術,但模型參數可能不需要太大——百億、大幾十億就能解決問題。
微億智造已經積累由真實工業場景產生的、業內規模最大的非結構化精標數據庫,數據量超過23TB,形成數據飛輪。現在微億智造利用過往項目類似工藝中積累的海量精標數據及模型,生成高效的預訓練模型,可以大幅縮短新項目AI模型的訓練時間及成本,將部署周期從傳統模式下的數月壓縮至數周。
而普工類,比如碼垛、上下料、分揀。普通人來了都能三十分鐘上崗,只要對物理世界有認知就可以。
我們認為需要去開始部署端到端的技術,用大量生活數據灌出一個操作泛化性更強的模型,然后再通過工廠特定場景進行一定的模型泛化,再去落地實現。我們從二三年前開始前瞻性地去看VLA這樣的技術,今年開始項目POC。
極客公園:我們目前POC的項目情況如何?
張志琦:我們目前在 POC 幾個不同的場景。
物流場景比如無序碼籠。無序碼籠指的是箱體大小不一致,要把它碼到一個大的籠子里,供下一步物流處理。
![]()
今天,我們對箱體目標對象的認知,軌跡規劃怎么有效處理,異常情況怎么通過人機配合處理完畢,還不能全部算作端到端,需要一些兜底策略。
但我們在過程中也在不斷積累數據。客戶也愿意和我們共建這個場景。我們正在試圖解決的問題和通用機器人公司在工業領域試圖解決的問題是類似的。
甚至我們自己看起來,像無序碼籠這樣的任務,技術難度甚至比供料更高,因為箱子本身需要一定的策略去堆疊,而不是簡單的把快遞翻面。大箱子鋪底,小箱子找地方插進去。如果箱子有破損、異形件、易損件,都需要特殊處理,這里面有大量人的經驗在起作用,對感知和決策都提出了更高的需求。
極客公園:會不會存在一種情況,VLA未來發展的足夠好,把所有原來的專用場景的小模型覆蓋的領域都覆蓋掉了?
張志琦:未來的技術發展很難判斷。至少最近三五年內,不太可能在技術工種場景里用 VLA 把它替代掉,即使普工場景也很難馬上替代。
原因之一是 VLA 目前的精度不夠,就算強優化完,也大概是厘米級,或者幾毫米級。但像 CNC 上下料這樣的場景,雖然屬于普工范疇,需要的誤差在0.1 毫米以內,而且不允許出錯,那就仍然沒法用 VLA做。
![]()
不是所有場景都需要上一個最大的模型,也不是所有場景都應該被 VLA 覆蓋。
我們 2018 年開始做的,前面說的偏自動化設備的「AI 賦能的智能化產品」,到今天仍然還是有收入。就是因為那些場景下,原有自動化配合簡單的 AI 能力已經能解決好問題了,那就應該繼續做。
極客公園:如果 VLA 不是唯一答案,物理 AI 會不會是一個更大的技術框架?您怎么理解它和工業具身智能之間的關系?
張志琦:如果從技術實現來看,業內講物理 AI,很大概率是在講世界模型。也就是讓 AI 能夠理解物理空間、物理場景、物體之間的關系,以及物理規則本身。
具身智能更強調「本體」和「模型」的深度結合,物理 AI 承載的可能比具身智能更大。它不一定必須綁定某一種機器人本體。未來如果世界模型足夠強,機器人本體反而可能沒有那么重要。
我們認為工業場景會是物理 AI 相對更早落地的方向之一。原因很簡單:工業場景中的對象相對有限、任務邊界相對清晰,所以技術上更容易達到可用狀態。
03
競爭對手將是越來越不像人的人形機器人
極客公園:今年以來,微億智造的客戶情況有什么變化?
張志琦:客戶在行業層面一直在擴展。新能源汽車、3C 消費電子這些原有客戶,每年都持續下單,包括原有場景的復制和新場景的落地。
工業場景,客戶信賴是很重要的。客戶會覺得原來這個很好用,就會問這個新場景還有一堆人,能不能換。我們跟著客戶的需求再往前推進。
今年比較欣喜的是海外也開始從 0 到 1。未來兩三年,我們希望海外收入做到 20% 到 30%。一方面,把國內打磨過的成熟產品通過海外渠道快速推;另一方面,海外也有自己的需求。有些項目在國內 ROI 算不過來,在海外可能能算過來。
極客公園:下一步技術能力上,更關注什么部分?
張志琦:下一步是把觸覺能力進一步打通。今天很多項目不太敢碰,核心就在觸覺。比如插拔、理線,都和觸覺有關。
但觸覺的技術發展遠低于視覺。把觸覺加進去,整個模型會發生很大變化,甚至不一定是語言模型。
我們的判斷是:觸覺模型加入后,視覺仍然會起重要作用。純觸覺能做的事情很少,但結合視覺判斷后,能做的事情會多很多。
從去年開始,我們已經在做觸覺方面的前沿研究,更多是把觸覺模型做深度融合。兩套技術都在看:霍爾和視觸覺。
極客公園:未來三年,你認為工業具身智能哪些細分賽道會進一步爆發?
張志琦:人多的地方都有機會。哪怕具身側收入每年翻番,我也不覺得離天花板接近了。技術還要繼續提升。
但我覺得現在還離真正爆發很遠。如果真要說爆發,那應該是工廠里人明顯減少,甚至下降 4/5 還能生產。
以前工廠是把人當機器。質檢對眼睛傷害很大,強光下看產品,20 多歲的小姑娘看兩年,眼睛可能就不行了。拆碼垛這種重體力活,對人的腰和身體也有不可逆損傷。
極客公園:未來的競爭中,傳統工業機械臂公司、微億智造這樣的工業具身智能公司,以及追求泛化 AGI 的具身智能公司,各自優勢和短板是什么?
張志琦:我們的優勢還是場景理解。很多公司說「我也能干」,那就來試試。具身最好玩的地方就是,是騾子是馬,牽出來遛遛,客戶買不買單最清楚。
![]()
在 ROI 可計算的情況下能不能完成,這是最基本的工業第一性原理。
今天我們的競爭對手可能很多還是自動化公司。坦白講,自動化公司里也有能工巧匠,可以做出一些結構和構型,滿足柔性生產需求。
但中長期看,大概率是做得越來越不像人的人形機器人公司。
對于追求AGI的具身智能公司而言,估值核心還是生活場景,但生活場景又太難。走著走著就會偏向工業,又發現純人形不是合適架構,于是開始做泛人形。泛人形在生活場景里又有問題。
這兩年人形公司已經開始講,我們的產品叫泛人形。泛人形的問題是它還要加個「人形」,因為有人形公司的包袱,還得加個頭。你說有啥差異?沒啥差異。
我覺得這些都是最早堅持全人形結構時,大家講給投資人聽的故事。到今天實操上,大家都會覺得有成本。多一個關節、多一個自由度,計算算力要求就會很高。一個全身四五十個自由度,要多少算力才能完成?
回到工廠場景里,還是那句話,工廠在意的是能解決問題。
極客公園:只做工業的話,外界會不會擔心你們在一個個的項目交付中損耗了精力,沒有更多的技術力量往更高的目標上去走?
張志琦:這個擔心有點多。今天在 AI 技術投入上,微億和國內絕大多數 AI 公司是比較接近的。我們不是以項目交付為根本,而是以研發為核心。
我們這一代 AI 公司和上一代AI公司相比,最大的差異是:物理 AI 世界里一定有一個載體。有載體,就有和物理世界的交互,就有反饋機制,有新的數據出來。所以也一定會有一批新公司出來。
極客公園:你覺得市場宣傳或投資人敘事里,最不靠譜的是什么?
張志琦:以前發一個機械本體、一個人形外觀,大家就覺得這家公司能做人形。到今天,二級市場上這類公司也很多,但再發一個人形外觀,大家已經不信了。
以前很多演示背后有人遙操,大家還不知道。現在大家慢慢理解,有些是自主,有些是遙操。這個變化的核心,是大家越來越認識到 AI 在這里面是核心,也知道有些公司做的是運動控制,不做大腦。
所以對我們來說,過去可能吃虧的是外形看起來像機械臂。但現在我們更希望大家理解,有腦和沒腦的機械臂差別很大。
*頭圖來源:微億智造
本文為極客公園原創文章,轉載請聯系極客君微信 geekparkGO
極客一問
你如何看待工業具身智能?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.