谷歌深夜大招！機(jī)器人學(xué)會看儀表盤干活，成功率飆升300%

2026-04-15 11:22:40　來源: 智東西

北京舉報(bào)

分享至

機(jī)器人前瞻（公眾號：robot_pro）
作者許麗思
編輯漠影

智東西4月15日報(bào)道，昨天深夜，谷歌推出Gemini Robotics-ER 1.6。

去年9月，谷歌發(fā)布Gemini Robotics-ER 1.5。時(shí)隔半年多，谷歌機(jī)器人模型終于迎來一次大升級。

Gemini Robotics-ER 1.6能夠讓機(jī)器人以前所未有的精度理解周圍環(huán)境，在多項(xiàng)關(guān)鍵推理能力上進(jìn)行了升級，包括視覺與空間理解、任務(wù)規(guī)劃以及任務(wù)完成判斷。它可以作為機(jī)器人的高層推理模型，原生調(diào)用Google Search、VLA以及其他第三方自定義功能，自主完成復(fù)雜作業(yè)任務(wù)。

谷歌提到，與Gemini Robotics-ER 1.5和Gemini 3.0 Flash相比，Gemini Robotics-ER 1.6在空間與物理推理能力上都有明顯提升，尤其是在點(diǎn)位定位、計(jì)數(shù)和任務(wù)成功判斷等方面。

與此同時(shí)，Gemini Robotics-ER 1.6還新增了一項(xiàng)能力——儀表讀數(shù)，這使機(jī)器人能夠讀取復(fù)雜的壓力表和液位觀察窗等設(shè)備。該功能是谷歌與波士頓動(dòng)力合作開發(fā)的，特別適合用于高精度工業(yè)任務(wù)。

如圖，在指向與計(jì)數(shù)任務(wù)上，Gemini Robotics-ER 1.6的成功率為80%；在單視角成功檢測任務(wù)中，其成功率為90%；在多視角成功檢測任務(wù)中，其成功率為84%；在結(jié)合Agentic Vision的儀表讀數(shù)任務(wù)中，其成功率達(dá)到93%，相比Gemini Robotics-ER 1.523%的成功率，飆升了300%。

即日起，開發(fā)者就可以通過Gemini API和Google AI Studio使用Gemini Robotics-ER 1.6。

一、升級點(diǎn)位定位和多視角推理能力，提升機(jī)器人干活自主性

點(diǎn)位定位是具身推理模型的一項(xiàng)基礎(chǔ)能力，可以讓模型實(shí)現(xiàn)不同類型的推理任務(wù)，包括空間推理、關(guān)系邏輯、運(yùn)動(dòng)推理、約束理解等。

Gemini Robotics-ER 1.6可以把點(diǎn)位作為中間推理步驟，來完成更復(fù)雜的任務(wù)。它可以先通過點(diǎn)位來計(jì)數(shù)圖像中的物體，或者通過識別關(guān)鍵位置，再結(jié)合數(shù)學(xué)計(jì)算提高尺寸或距離估算的準(zhǔn)確性。

如圖，Gemini Robotics-ER 1.6知道什么時(shí)候該指出目標(biāo)、什么時(shí)候不該亂指。它能正確識別圖中有2把錘子、1把剪刀、1把油漆刷、6把鉗子，以及一組園藝工具。對于圖中并不存在的手推車和電鉆，它也不會錯(cuò)誤標(biāo)注。

相比之下，Gemini Robotics-ER 1.5就沒法正確識別錘子和油漆刷的數(shù)量，完全漏掉了剪刀，還會產(chǎn)生幻覺，指出了并不存在的手推車，鉗子的定位精度也較差。

Gemini 3.0 Flash的表現(xiàn)已經(jīng)比較接近Gemini Robotics-ER 1.6，但在鉗子的處理上還不夠理想。

Gemini Robotics-ER 1.6還提升了多視角推理能力，能夠更好地理解多路攝像頭畫面以及它們之間的關(guān)系，即便在動(dòng)態(tài)變化或存在遮擋的環(huán)境中，也能保持較高的判斷能力。

Gemini Robotics-ER 1.6可以綜合多個(gè)攝像頭視角的信息，判斷“把藍(lán)色筆放進(jìn)黑色筆筒”這一任務(wù)是否已經(jīng)完成。

像這樣的任務(wù)成功判斷（Success Detection）是機(jī)器人實(shí)現(xiàn)自主性的關(guān)鍵一環(huán)，因?yàn)樗鼪Q定了機(jī)器人在執(zhí)行任務(wù)過程中，是應(yīng)該重新嘗試一次，還是可以進(jìn)入下一步。

二、儀表識別成功率達(dá)93%，機(jī)器人可執(zhí)行設(shè)備巡檢任務(wù)

工業(yè)廠區(qū)遍布溫度計(jì)、壓力表、化學(xué)液位觀測窗等各類精密儀器，需要長期持續(xù)監(jiān)測。想要解決真實(shí)工業(yè)場景中這些復(fù)雜難題，就必須讓機(jī)器人學(xué)會儀器讀數(shù)識別。

Gemini Robotics-ER 1.6讓機(jī)器人能夠讀懂多種儀表，包括圓形壓力表、垂直液位計(jì)以及現(xiàn)代數(shù)字讀數(shù)設(shè)備。

讀取儀表并不是簡單的識別任務(wù)，而是一個(gè)復(fù)雜的視覺推理過程。系統(tǒng)必須精確感知多種視覺元素，例如指針、液位、容器邊界、刻度線等，并理解它們之間的關(guān)系。

以液位觀察窗為例，模型需要結(jié)合相機(jī)拍攝角度帶來的畸變，估算液體實(shí)際填充了多少。對于壓力表，系統(tǒng)還需要讀取并理解文字標(biāo)注的單位；有些表盤甚至有多根指針，對應(yīng)不同的小數(shù)位，必須綜合后才能得出正確讀數(shù)。

依托儀器讀數(shù)識別與升級后的任務(wù)推理能力，波士頓動(dòng)力的Spot四足機(jī)器人可以實(shí)現(xiàn)全自主巡檢，獨(dú)立感知、理解并應(yīng)對各類工業(yè)實(shí)景挑戰(zhàn)。

Gemini Robotics-ER 1.6之所以能夠?qū)崿F(xiàn)高精度儀表讀數(shù)，是因?yàn)樗褂昧?strong>Agentic Vision技術(shù)，也就是把視覺推理與代碼執(zhí)行結(jié)合起來。

具體來說，模型會先采取一系列中間步驟：比如先放大圖像，更清楚地觀察儀表細(xì)節(jié)；再通過點(diǎn)位標(biāo)注和代碼執(zhí)行估算比例與區(qū)間，最終得到精確讀數(shù)，并結(jié)合世界知識理解其含義。

在儀表讀數(shù)任務(wù)上，四種模型的成功率依次提升：Gemini Robotics-ER 1.5成功率為23%；Gemini 3.0 Flash成功率為67%；Gemini Robotics-ER 1.6成功率為86%；Gemini Robotics-ER 1.6（啟用 agentic vision）成功率為93%。

結(jié)語：機(jī)器人走入現(xiàn)實(shí)應(yīng)用，還需要具備足夠安全性

在機(jī)器人規(guī)模化落地民用與工業(yè)場景的當(dāng)下，安全性早已和智能化、自主性同等重要，成為制約具身智能落地的核心門檻。

谷歌稱，Gemini Robotics-ER 1.6不僅在環(huán)境感知、空間推理、工業(yè)儀表識別等核心能力全面進(jìn)階，更完成了安全能力的系統(tǒng)性升級，也是其目前安全表現(xiàn)最優(yōu)的機(jī)器人專用模型。

在對抗性空間推理任務(wù)中，Gemini Robotics-ER 1.6對Gemini安全策略的遵守程度優(yōu)于此前所有版本。同時(shí)，Gemini Robotics-ER 1.6在遵守物理安全約束方面也有明顯提升。

比如，在涉及點(diǎn)位輸出的任務(wù)中，它能更安全地判斷哪些物體可以被機(jī)械夾爪抓取，哪些不能碰，從而滿足夾持器限制或材料約束，比如“不要處理液體”“不要抓取超過20公斤的物體”等。

谷歌還測試了模型在文本和視頻場景中識別安全隱患的能力，測試依據(jù)來自真實(shí)世界的傷害事故報(bào)告。在這些任務(wù)中，Gemini Robotics-ER 1.6相比Gemini 3.0 Flash也有所提升：文本場景提升6%，視頻場景提升10%，說明它在識別潛在傷害風(fēng)險(xiǎn)方面更加準(zhǔn)確。

對具身智能而言，真正決定機(jī)器人能否走出實(shí)驗(yàn)室、走進(jìn)大規(guī)模真實(shí)場景的，除了更強(qiáng)的大腦，還需要每一次感知、判斷與動(dòng)作背后，都足夠安全可靠。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.