千尋智能高陽團(tuán)隊(duì)提出 Point-VLA：視覺定位實(shí)現(xiàn)語言指令精準(zhǔn)執(zhí)行

2026-03-31 13:48:18　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

設(shè)想這樣一個(gè)場景：你打電話讓同事去辦公室某個(gè)地方拿東西，僅憑語言描述位置是多么困難。在辦公室里，從一堆已經(jīng)喝過的礦泉水瓶中，讓對面同學(xué)遞過來你之前喝過的那個(gè)，只用語言幾乎無法準(zhǔn)確描述——「左邊第二個(gè)」？「有點(diǎn)舊的那個(gè)」？這時(shí)候，人們更傾向于用手指一下，或者拿出圖片來指代。

這揭示了一個(gè)根本問題：人類在面對面交流時(shí)，會自然地通過手勢、指點(diǎn)來完成對物體或位置的定位（grounding），而不是依賴復(fù)雜的文本描述。即使對于人類這樣強(qiáng)大的多模態(tài)大腦，純語言指令也存在歧義，難以準(zhǔn)確傳達(dá)空間信息。在雜亂場景、相似物體眾多的環(huán)境中，語言描述往往力不從心。

同理，當(dāng)我們只用語言給視覺-語言-動(dòng)作（Vision-Language-Action，VLA）模型下達(dá)指令時(shí)，就如同讓人在電話里描述復(fù)雜場景，面臨兩個(gè)根本性困境：

第一，語言在某些場景下根本無法精確表達(dá)。比如在無參考點(diǎn)的桌面上精確放置物體——「把杯子放在距離左邊緣 15 cm、前方 10 cm 的位置」，這種絕對坐標(biāo)式的描述既不自然又難以準(zhǔn)確傳達(dá)。再比如雜亂場景中的特定目標(biāo)，或者形狀不規(guī)則的物體，語言的表達(dá)能力觸及了邊界。

第二，即使可以用復(fù)雜詳細(xì)的語言描述，VLA 模型也難以泛化理解。研究發(fā)現(xiàn)，雖然先進(jìn)的視覺-語言模型（VLM）能以 60-70% 的準(zhǔn)確率定位復(fù)雜描述的目標(biāo)，但 text-only VLA 在執(zhí)行時(shí)的成功率卻只有 25% 左右。復(fù)雜的空間關(guān)系描述超出了 VLA 模型的泛化能力范圍。

千尋智能高陽團(tuán)隊(duì)的研究人員注意到這兩個(gè)根本性瓶頸，在最新論文《Point What You Mean: Visually Grounded Instruction Policy》中提出了 Point-VLA 方法。該方法通過在圖像上疊加邊界框（bounding box）提供明確的視覺定位線索，讓機(jī)器人能像人一樣「看著圖、指著點(diǎn)」來理解指令，在真實(shí)機(jī)器人操作任務(wù)中實(shí)現(xiàn)了高達(dá) 92.5% 的成功率，相比純文本 VLA 的 32.4% 提升了近 3 倍。

論文標(biāo)題：Point What You Mean: Visually Grounded Instruction Policy
論文鏈接：https://arxiv.org/pdf/2512.18933
項(xiàng)目主頁：https://yuhang-harry.github.io/Point-VLA

圖 1：Point-VLA 通過在圖像上疊加邊界框，解決了雜亂場景抓取、OOD 物體操作、無參考點(diǎn)精確放置等語言指令難以勝任的任務(wù)

語言的邊界：VLA 模型面臨的根本挑戰(zhàn)

視覺-語言-動(dòng)作（VLA）模型近年來在具身智能領(lǐng)域取得了顯著進(jìn)展，能夠?qū)⒆匀徽Z言指令直接轉(zhuǎn)化為機(jī)器人動(dòng)作。然而，研究團(tuán)隊(duì)發(fā)現(xiàn)，VLA 模型仍然受制于語言本身的固有局限性。

兩大核心問題：

1. 語言無法表達(dá)的場景（Inexpressible References）

在真實(shí)世界中，有些場景語言根本無法精確描述，無論你怎么努力：

無參考點(diǎn)的精確位置：「把杯子放在桌面上距離左邊緣 15 cm、前方 10 cm 的位置」——這種絕對坐標(biāo)式的描述，語言表達(dá)起來既不自然又容易出錯(cuò)。
不規(guī)則 / 無定形物體：一個(gè)形狀復(fù)雜、紋理獨(dú)特的陶土塊，用語言描述「紅藍(lán)條紋、頂部方形底部圓形」仍然模糊不清。
雜亂場景中的特定目標(biāo)：在八個(gè)相同瓶子的桌面上，即使你說「右側(cè)第二排中間偏左的那個(gè)」，聽者依然難以確定。

這些場景的共同特點(diǎn)是：語言的表達(dá)能力觸及了邊界。而人類在這種情況下會自然地用手指一下，或者拿出圖片指給對方看。

2. 復(fù)雜描述的泛化困境（Limited Generalization）

即使在某些場景下，我們可以通過非常詳細(xì)、復(fù)雜的語言描述來補(bǔ)全信息，但這又帶來了新的問題：VLA 模型難以泛化理解這些復(fù)雜的空間描述。

研究團(tuán)隊(duì)的實(shí)驗(yàn)揭示了一個(gè)令人驚訝的現(xiàn)象：

先進(jìn)的 VLM（如 GPT-4V）在面對詳細(xì)的文本描述時(shí)，能夠以 60-70% 的準(zhǔn)確率定位目標(biāo)。
但 text-only VLA 在相同場景下的操作成功率卻只有 25% 左右。

這說明，即使 VLM「看懂」了復(fù)雜的語言描述，VLA 模型在將其轉(zhuǎn)化為精確動(dòng)作時(shí)仍然力不從心。復(fù)雜的空間關(guān)系描述超出了 VLA 模型的泛化能力范圍，導(dǎo)致在雜亂場景、OOD 物體、精確放置等任務(wù)中表現(xiàn)急劇下降。這兩個(gè)問題共同構(gòu)成了 VLA 模型在真實(shí)世界部署的根本瓶頸。

圖 2：VLM 能以 60-70% 準(zhǔn)確率定位復(fù)雜文本描述的目標(biāo)（左兩例），但 text-only VLA 執(zhí)行成功率僅 25%，揭示了語言-動(dòng)作對齊的鴻溝。右側(cè)展示了語言根本無法描述的場景（無參考點(diǎn)平面），Point-VLA 通過視覺定位解決了這兩類問題

Point-VLA：像人一樣「指著說」

為了突破語言的固有局限，千尋智能高陽團(tuán)隊(duì)提出了 Point-VLA 方法，其核心思想簡單而有效：既然語言無法精確表達(dá)，那就像人類一樣，用「指」的方式來明確目標(biāo)。

視覺定位指令（Visually Grounded Instruction）

Point-VLA 的關(guān)鍵創(chuàng)新在于引入了視覺定位指令。具體而言，系統(tǒng)在機(jī)器人觀察到的第一幀圖像上疊加一個(gè)邊界框（bounding box），明確標(biāo)注出目標(biāo)物體或位置。這個(gè)邊界框就像人類用手指指向目標(biāo)一樣，提供了明確的像素級空間線索。

例如，對于「拿起瓶子」這個(gè)指令：

純文本模式：「Pick up the bottle to the right of the leftmost bottles, in the middle of the desk」（信息完整但過于復(fù)雜，VLA 難以準(zhǔn)確執(zhí)行）
Point-VLA 模式：「Pick up」+ 圖像上的紅色邊界框（信息完整且簡單直接）

這種方式將高層意圖（pick up, place）保留在語言中，而將精確的空間信息（哪個(gè)物體、什么位置）編碼在視覺線索中，完美結(jié)合了語言的抽象性和視覺的精確性。

圖 3：Point-VLA 推理流程——用戶通過 GUI 在俯視圖上繪制邊界框，或通過手勢由 MLLM 自動(dòng)生成邊界框，結(jié)合簡短文本指令，機(jī)器人即可精確執(zhí)行操作

統(tǒng)一的策略架構(gòu)

Point-VLA 采用統(tǒng)一的策略架構(gòu)，能夠同時(shí)處理純文本指令和視覺定位指令。在訓(xùn)練時(shí)，模型以 1:1 的比例接收兩種模態(tài)的數(shù)據(jù)：

純文本指令：保持模型對常規(guī)語言指令的理解能力。
視覺定位指令：學(xué)習(xí)利用像素級視覺線索進(jìn)行精確操作。

這種聯(lián)合訓(xùn)練策略使得 Point-VLA 既能處理簡單的語言指令（如「向前移動(dòng)」），也能在需要時(shí)接受視覺定位來完成復(fù)雜任務(wù)，實(shí)現(xiàn)了靈活的「即插即用」能力。

視頻展示 Point-VLA 在真實(shí)機(jī)器人上的操作效果，包括雜亂場景抓取、精確放置等任務(wù)

可擴(kuò)展的自動(dòng)數(shù)據(jù)標(biāo)注 Pipeline

視覺定位指令需要為每個(gè)演示標(biāo)注邊界框，這可能帶來數(shù)據(jù)標(biāo)注成本的挑戰(zhàn)。千尋智能團(tuán)隊(duì)開發(fā)了一套自動(dòng)數(shù)據(jù)標(biāo)注 Pipeline，利用多模態(tài)大語言模型（MLLM）自動(dòng)生成視覺定位監(jiān)督信號。

Pipeline 的工作流程很直接：給定一段演示視頻和文本指令，MLLM 分析視頻內(nèi)容，自動(dòng)識別關(guān)鍵幀并在第一幀上標(biāo)注目標(biāo)物體的邊界框。為了提升模型的泛化能力，研究團(tuán)隊(duì)還設(shè)計(jì)了兩種數(shù)據(jù)增強(qiáng)策略——隨機(jī)平移和局部 CutMix。隨機(jī)平移鼓勵(lì)模型關(guān)注目標(biāo)的相對位置而非絕對坐標(biāo)，局部 CutMix 則防止模型過擬合特定物體的視覺特征。

這套 Pipeline 使得研究團(tuán)隊(duì)能夠從現(xiàn)有的演示數(shù)據(jù)中高效生成大量視覺定位監(jiān)督信號，無需額外的人工標(biāo)注成本，支持無縫的數(shù)據(jù)集成和擴(kuò)展。

圖 4：Point-VLA 訓(xùn)練流程——MLLM 自動(dòng)從演示視頻中生成邊界框標(biāo)注，結(jié)合隨機(jī)平移和 CutMix 增強(qiáng)，與純文本數(shù)據(jù)聯(lián)合訓(xùn)練統(tǒng)一策略

實(shí)驗(yàn)驗(yàn)證：從 32.4% 到 92.5% 的跨越

千尋智能團(tuán)隊(duì)在真實(shí)機(jī)器人平臺上進(jìn)行了全面的實(shí)驗(yàn)驗(yàn)證，涵蓋 6 個(gè)具有挑戰(zhàn)性的操作任務(wù)，包括不規(guī)則物體抓取、OOD 物體抓取、雜亂場景抓取、蛋槽精確放置、平面精確放置和蛋槽精確插入。實(shí)驗(yàn)結(jié)果令人振奮：Point-VLA 在所有任務(wù)上的平均成功率達(dá)到 92.5%，相比純文本 VLA 的 32.4% 提升了近 3 倍

在最具挑戰(zhàn)性的雜亂場景抓取任務(wù)中，Point-VLA 的成功率從 43.3% 提升到 94.3%，在精確放置任務(wù)中從 23.3% 提升到 90.0%。這些結(jié)果充分證明了視覺定位在消除歧義和實(shí)現(xiàn)精確操作方面的強(qiáng)大能力。

圖 5：6 個(gè)評估任務(wù)的真實(shí)機(jī)器人實(shí)驗(yàn)場景，涵蓋目標(biāo)物體指代（不規(guī)則物體、OOD 物體）和目標(biāo)位置指代（雜亂抓取、蛋槽、平面放置）等挑戰(zhàn)

表 1：六個(gè)真實(shí)機(jī)器人操作任務(wù)的成功率（%）對比，其中text-vla和interleave-vla均經(jīng)過與Point-vla同樣數(shù)據(jù)量，精細(xì)文本方位詞標(biāo)注訓(xùn)練至收斂，保證對比公平性，數(shù)據(jù)集信息見論文fig5

語言邊界場景的突破

研究團(tuán)隊(duì)特別設(shè)計(jì)了兩類「語言邊界」場景來驗(yàn)證 Point-VLA 的能力：

場景 1：語言根本無法表達(dá)的任務(wù)

在無參考點(diǎn)的平面桌面上精確放置物體：「把杯子放在距離左邊緣 15 cm、前方 10 cm 的位置」。這種絕對坐標(biāo)式的描述，語言表達(dá)既不自然又難以準(zhǔn)確傳達(dá)。純文本 VLA 在這類任務(wù)上的成功率僅 30%。

而 Point-VLA 通過在圖像上直接標(biāo)注目標(biāo)位置的邊界框，繞過了語言表達(dá)的邊界，成功率達(dá)到95%

場景 2：復(fù)雜描述難以泛化

在包含 8 個(gè)相同瓶子的雜亂桌面上，需要用「拿起右側(cè)、最左邊那排瓶子中間的那個(gè)」這樣復(fù)雜的描述。雖然 VLM 能以 60-70% 準(zhǔn)確率定位，但 text-only VLA 在執(zhí)行時(shí)成功率僅 43.3%——模型難以泛化理解如此復(fù)雜的空間關(guān)系描述。

Point-VLA 通過視覺定位提供明確的像素級線索，使模型無需理解復(fù)雜的語言描述就能準(zhǔn)確執(zhí)行，成功率提升到94.3%

此外，研究團(tuán)隊(duì)還在多個(gè)機(jī)器人平臺和 VLA 模型骨架上進(jìn)行了驗(yàn)證，包括 π0.5 和 π0 兩個(gè)不同的基礎(chǔ)模型，以及雙臂機(jī)器人和全身人形機(jī)器人。結(jié)果顯示 Point-VLA 在不同模型和硬件配置下均能保持高成功率，證明了其作為通用接口的可擴(kuò)展性。

在與純文本指令的兼容性測試中，Point-VLA 即使在純文本模式下（不使用視覺定位），也能匹配甚至超越純文本 VLA baseline。研究團(tuán)隊(duì)在三種空間指代任務(wù)上進(jìn)行了對比：相對位置指代、矩陣布局指代和基于參考的指代。結(jié)果顯示，Point-VLA 在純文本模式下的表現(xiàn)與 baseline 相當(dāng)或更好，而在使用視覺定位時(shí)則在復(fù)雜空間指代任務(wù)上取得最高成功率。這說明視覺定位訓(xùn)練提升了模型對空間關(guān)系的理解能力，即使在不使用視覺定位時(shí)也能受益。

在數(shù)據(jù)擴(kuò)展性實(shí)驗(yàn)中，隨著訓(xùn)練數(shù)據(jù)量的增加，Point-VLA 的性能持續(xù)提升，而純文本 VLA 很快達(dá)到飽和。在 OOD 物體抓取任務(wù)中，當(dāng)訓(xùn)練數(shù)據(jù)從 3 個(gè)場景增加到 12 個(gè)場景時(shí)，Point-VLA 的準(zhǔn)確率從約 0.8 提升到 0.95，而純文本 VLA 在約 0.27 處就停止增長，表明視覺定位提供的明確監(jiān)督信號使模型能夠更有效地從數(shù)據(jù)中學(xué)習(xí)。

圖 6：（上）Point-VLA 在三種指令模式下的成功率對比——即使在純文本模式下，Point-VLA 也能匹配或超越 baseline，使用視覺定位時(shí)在復(fù)雜空間指代上取得最高成功率。（下）隨訓(xùn)練數(shù)據(jù)增加，Point-VLA 性能持續(xù)提升，而純文本 VLA 很快飽和

技術(shù)意義與未來展望

Point-VLA 的提出具有重要的理論和實(shí)踐意義。首先，它揭示并解決了 VLA 領(lǐng)域的一個(gè)根本性問題：語言本身的表達(dá)能力限制了模型的性能上限。通過引入視覺定位，Point-VLA 繞過了這一瓶頸，為 VLA 模型開辟了新的發(fā)展路徑。

其次，自動(dòng)數(shù)據(jù)標(biāo)注 Pipeline 使得視覺定位監(jiān)督信號的獲取成本大幅降低，支持從現(xiàn)有演示數(shù)據(jù)中無縫生成訓(xùn)練數(shù)據(jù)，為大規(guī)模 VLA 模型的訓(xùn)練提供了可行的技術(shù)路線。

92.5% 的成功率使得 VLA 模型首次在復(fù)雜真實(shí)場景中達(dá)到了實(shí)用化的門檻。Point-VLA 展示的精確操作能力，為機(jī)器人在工業(yè)、服務(wù)等領(lǐng)域的實(shí)際應(yīng)用提供了技術(shù)基礎(chǔ)。更重要的是，Point-VLA 驗(yàn)證了「指著說」這種人類自然交互方式在人機(jī)交互中的有效性，啟發(fā)了未來具身智能系統(tǒng)在多模態(tài)交互方面的探索。

關(guān)于千尋智能 Spirit AI

千尋智能致力于推動(dòng)具身智能和機(jī)器人技術(shù)的發(fā)展，通過創(chuàng)新的 AI 算法使機(jī)器人能夠更好地理解和執(zhí)行人類指令。高陽團(tuán)隊(duì)專注于視覺-語言-動(dòng)作模型的研究，在多模態(tài)學(xué)習(xí)、機(jī)器人操作等領(lǐng)域取得了一系列突破性成果。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.