![]()
設(shè)想這樣一個(gè)場景:你打電話讓同事去辦公室某個(gè)地方拿東西,僅憑語言描述位置是多么困難。在辦公室里,從一堆已經(jīng)喝過的礦泉水瓶中,讓對面同學(xué)遞過來你之前喝過的那個(gè),只用語言幾乎無法準(zhǔn)確描述——「左邊第二個(gè)」?「有點(diǎn)舊的那個(gè)」?這時(shí)候,人們更傾向于用手指一下,或者拿出圖片來指代。
這揭示了一個(gè)根本問題:人類在面對面交流時(shí),會自然地通過手勢、指點(diǎn)來完成對物體或位置的定位(grounding),而不是依賴復(fù)雜的文本描述。即使對于人類這樣強(qiáng)大的多模態(tài)大腦,純語言指令也存在歧義,難以準(zhǔn)確傳達(dá)空間信息。在雜亂場景、相似物體眾多的環(huán)境中,語言描述往往力不從心。
同理,當(dāng)我們只用語言給視覺-語言-動(dòng)作(Vision-Language-Action,VLA)模型下達(dá)指令時(shí),就如同讓人在電話里描述復(fù)雜場景,面臨兩個(gè)根本性困境:
第一,語言在某些場景下根本無法精確表達(dá)。比如在無參考點(diǎn)的桌面上精確放置物體——「把杯子放在距離左邊緣 15 cm、前方 10 cm 的位置」,這種絕對坐標(biāo)式的描述既不自然又難以準(zhǔn)確傳達(dá)。再比如雜亂場景中的特定目標(biāo),或者形狀不規(guī)則的物體,語言的表達(dá)能力觸及了邊界。
第二,即使可以用復(fù)雜詳細(xì)的語言描述,VLA 模型也難以泛化理解。研究發(fā)現(xiàn),雖然先進(jìn)的視覺-語言模型(VLM)能以 60-70% 的準(zhǔn)確率定位復(fù)雜描述的目標(biāo),但 text-only VLA 在執(zhí)行時(shí)的成功率卻只有 25% 左右。復(fù)雜的空間關(guān)系描述超出了 VLA 模型的泛化能力范圍。
千尋智能高陽團(tuán)隊(duì)的研究人員注意到這兩個(gè)根本性瓶頸,在最新論文《Point What You Mean: Visually Grounded Instruction Policy》中提出了 Point-VLA 方法。該方法通過在圖像上疊加邊界框(bounding box)提供明確的視覺定位線索,讓機(jī)器人能像人一樣「看著圖、指著點(diǎn)」來理解指令,在真實(shí)機(jī)器人操作任務(wù)中實(shí)現(xiàn)了高達(dá) 92.5% 的成功率,相比純文本 VLA 的 32.4% 提升了近 3 倍。
- 論文標(biāo)題:Point What You Mean: Visually Grounded Instruction Policy
- 論文鏈接:https://arxiv.org/pdf/2512.18933
- 項(xiàng)目主頁:https://yuhang-harry.github.io/Point-VLA
![]()
圖 1:Point-VLA 通過在圖像上疊加邊界框,解決了雜亂場景抓取、OOD 物體操作、無參考點(diǎn)精確放置等語言指令難以勝任的任務(wù)
語言的邊界:VLA 模型面臨的根本挑戰(zhàn)
視覺-語言-動(dòng)作(VLA)模型近年來在具身智能領(lǐng)域取得了顯著進(jìn)展,能夠?qū)⒆匀徽Z言指令直接轉(zhuǎn)化為機(jī)器人動(dòng)作。然而,研究團(tuán)隊(duì)發(fā)現(xiàn),VLA 模型仍然受制于語言本身的固有局限性。
兩大核心問題:
1. 語言無法表達(dá)的場景(Inexpressible References)
在真實(shí)世界中,有些場景語言根本無法精確描述,無論你怎么努力:
- 無參考點(diǎn)的精確位置:「把杯子放在桌面上距離左邊緣 15 cm、前方 10 cm 的位置」——這種絕對坐標(biāo)式的描述,語言表達(dá)起來既不自然又容易出錯(cuò)。
- 不規(guī)則 / 無定形物體:一個(gè)形狀復(fù)雜、紋理獨(dú)特的陶土塊,用語言描述「紅藍(lán)條紋、頂部方形底部圓形」仍然模糊不清。
- 雜亂場景中的特定目標(biāo):在八個(gè)相同瓶子的桌面上,即使你說「右側(cè)第二排中間偏左的那個(gè)」,聽者依然難以確定。
這些場景的共同特點(diǎn)是:語言的表達(dá)能力觸及了邊界。而人類在這種情況下會自然地用手指一下,或者拿出圖片指給對方看。
2. 復(fù)雜描述的泛化困境(Limited Generalization)
即使在某些場景下,我們可以通過非常詳細(xì)、復(fù)雜的語言描述來補(bǔ)全信息,但這又帶來了新的問題:VLA 模型難以泛化理解這些復(fù)雜的空間描述。
研究團(tuán)隊(duì)的實(shí)驗(yàn)揭示了一個(gè)令人驚訝的現(xiàn)象:
- 先進(jìn)的 VLM(如 GPT-4V)在面對詳細(xì)的文本描述時(shí),能夠以 60-70% 的準(zhǔn)確率定位目標(biāo)。
- 但 text-only VLA 在相同場景下的操作成功率卻只有 25% 左右。
這說明,即使 VLM「看懂」了復(fù)雜的語言描述,VLA 模型在將其轉(zhuǎn)化為精確動(dòng)作時(shí)仍然力不從心。復(fù)雜的空間關(guān)系描述超出了 VLA 模型的泛化能力范圍,導(dǎo)致在雜亂場景、OOD 物體、精確放置等任務(wù)中表現(xiàn)急劇下降。這兩個(gè)問題共同構(gòu)成了 VLA 模型在真實(shí)世界部署的根本瓶頸。
![]()
圖 2:VLM 能以 60-70% 準(zhǔn)確率定位復(fù)雜文本描述的目標(biāo)(左兩例),但 text-only VLA 執(zhí)行成功率僅 25%,揭示了語言-動(dòng)作對齊的鴻溝。右側(cè)展示了語言根本無法描述的場景(無參考點(diǎn)平面),Point-VLA 通過視覺定位解決了這兩類問題
Point-VLA:像人一樣「指著說」
為了突破語言的固有局限,千尋智能高陽團(tuán)隊(duì)提出了 Point-VLA 方法,其核心思想簡單而有效:既然語言無法精確表達(dá),那就像人類一樣,用「指」的方式來明確目標(biāo)。
視覺定位指令(Visually Grounded Instruction)
Point-VLA 的關(guān)鍵創(chuàng)新在于引入了視覺定位指令。具體而言,系統(tǒng)在機(jī)器人觀察到的第一幀圖像上疊加一個(gè)邊界框(bounding box),明確標(biāo)注出目標(biāo)物體或位置。這個(gè)邊界框就像人類用手指指向目標(biāo)一樣,提供了明確的像素級空間線索。
例如,對于「拿起瓶子」這個(gè)指令:
- 純文本模式:「Pick up the bottle to the right of the leftmost bottles, in the middle of the desk」(信息完整但過于復(fù)雜,VLA 難以準(zhǔn)確執(zhí)行)
- Point-VLA 模式:「Pick up」+ 圖像上的紅色邊界框(信息完整且簡單直接)
這種方式將高層意圖(pick up, place)保留在語言中,而將精確的空間信息(哪個(gè)物體、什么位置)編碼在視覺線索中,完美結(jié)合了語言的抽象性和視覺的精確性。
![]()
圖 3:Point-VLA 推理流程——用戶通過 GUI 在俯視圖上繪制邊界框,或通過手勢由 MLLM 自動(dòng)生成邊界框,結(jié)合簡短文本指令,機(jī)器人即可精確執(zhí)行操作
統(tǒng)一的策略架構(gòu)
Point-VLA 采用統(tǒng)一的策略架構(gòu),能夠同時(shí)處理純文本指令和視覺定位指令。在訓(xùn)練時(shí),模型以 1:1 的比例接收兩種模態(tài)的數(shù)據(jù):
- 純文本指令:保持模型對常規(guī)語言指令的理解能力。
- 視覺定位指令:學(xué)習(xí)利用像素級視覺線索進(jìn)行精確操作。
這種聯(lián)合訓(xùn)練策略使得 Point-VLA 既能處理簡單的語言指令(如「向前移動(dòng)」),也能在需要時(shí)接受視覺定位來完成復(fù)雜任務(wù),實(shí)現(xiàn)了靈活的「即插即用」能力。
視頻展示 Point-VLA 在真實(shí)機(jī)器人上的操作效果,包括雜亂場景抓取、精確放置等任務(wù)
可擴(kuò)展的自動(dòng)數(shù)據(jù)標(biāo)注 Pipeline
視覺定位指令需要為每個(gè)演示標(biāo)注邊界框,這可能帶來數(shù)據(jù)標(biāo)注成本的挑戰(zhàn)。千尋智能團(tuán)隊(duì)開發(fā)了一套自動(dòng)數(shù)據(jù)標(biāo)注 Pipeline,利用多模態(tài)大語言模型(MLLM)自動(dòng)生成視覺定位監(jiān)督信號。
Pipeline 的工作流程很直接:給定一段演示視頻和文本指令,MLLM 分析視頻內(nèi)容,自動(dòng)識別關(guān)鍵幀并在第一幀上標(biāo)注目標(biāo)物體的邊界框。為了提升模型的泛化能力,研究團(tuán)隊(duì)還設(shè)計(jì)了兩種數(shù)據(jù)增強(qiáng)策略——隨機(jī)平移和局部 CutMix。隨機(jī)平移鼓勵(lì)模型關(guān)注目標(biāo)的相對位置而非絕對坐標(biāo),局部 CutMix 則防止模型過擬合特定物體的視覺特征。
這套 Pipeline 使得研究團(tuán)隊(duì)能夠從現(xiàn)有的演示數(shù)據(jù)中高效生成大量視覺定位監(jiān)督信號,無需額外的人工標(biāo)注成本,支持無縫的數(shù)據(jù)集成和擴(kuò)展。
![]()
圖 4:Point-VLA 訓(xùn)練流程——MLLM 自動(dòng)從演示視頻中生成邊界框標(biāo)注,結(jié)合隨機(jī)平移和 CutMix 增強(qiáng),與純文本數(shù)據(jù)聯(lián)合訓(xùn)練統(tǒng)一策略
實(shí)驗(yàn)驗(yàn)證:從 32.4% 到 92.5% 的跨越
千尋智能團(tuán)隊(duì)在真實(shí)機(jī)器人平臺上進(jìn)行了全面的實(shí)驗(yàn)驗(yàn)證,涵蓋 6 個(gè)具有挑戰(zhàn)性的操作任務(wù),包括不規(guī)則物體抓取、OOD 物體抓取、雜亂場景抓取、蛋槽精確放置、平面精確放置和蛋槽精確插入。實(shí)驗(yàn)結(jié)果令人振奮:Point-VLA 在所有任務(wù)上的平均成功率達(dá)到 92.5%,相比純文本 VLA 的 32.4% 提升了近 3 倍
在最具挑戰(zhàn)性的雜亂場景抓取任務(wù)中,Point-VLA 的成功率從 43.3% 提升到 94.3%,在精確放置任務(wù)中從 23.3% 提升到 90.0%。這些結(jié)果充分證明了視覺定位在消除歧義和實(shí)現(xiàn)精確操作方面的強(qiáng)大能力。
![]()
圖 5:6 個(gè)評估任務(wù)的真實(shí)機(jī)器人實(shí)驗(yàn)場景,涵蓋目標(biāo)物體指代(不規(guī)則物體、OOD 物體)和目標(biāo)位置指代(雜亂抓取、蛋槽、平面放置)等挑戰(zhàn)
![]()
表 1:六個(gè)真實(shí)機(jī)器人操作任務(wù)的成功率(%)對比,其中text-vla和interleave-vla均經(jīng)過與Point-vla同樣數(shù)據(jù)量,精細(xì)文本方位詞標(biāo)注訓(xùn)練至收斂,保證對比公平性,數(shù)據(jù)集信息見論文fig5
語言邊界場景的突破
研究團(tuán)隊(duì)特別設(shè)計(jì)了兩類「語言邊界」場景來驗(yàn)證 Point-VLA 的能力:
- 場景 1:語言根本無法表達(dá)的任務(wù)
在無參考點(diǎn)的平面桌面上精確放置物體:「把杯子放在距離左邊緣 15 cm、前方 10 cm 的位置」。這種絕對坐標(biāo)式的描述,語言表達(dá)既不自然又難以準(zhǔn)確傳達(dá)。純文本 VLA 在這類任務(wù)上的成功率僅 30%。
而 Point-VLA 通過在圖像上直接標(biāo)注目標(biāo)位置的邊界框,繞過了語言表達(dá)的邊界,成功率達(dá)到95%
- 場景 2:復(fù)雜描述難以泛化
在包含 8 個(gè)相同瓶子的雜亂桌面上,需要用「拿起右側(cè)、最左邊那排瓶子中間的那個(gè)」這樣復(fù)雜的描述。雖然 VLM 能以 60-70% 準(zhǔn)確率定位,但 text-only VLA 在執(zhí)行時(shí)成功率僅 43.3%——模型難以泛化理解如此復(fù)雜的空間關(guān)系描述。
Point-VLA 通過視覺定位提供明確的像素級線索,使模型無需理解復(fù)雜的語言描述就能準(zhǔn)確執(zhí)行,成功率提升到94.3%
此外,研究團(tuán)隊(duì)還在多個(gè)機(jī)器人平臺和 VLA 模型骨架上進(jìn)行了驗(yàn)證,包括 π0.5 和 π0 兩個(gè)不同的基礎(chǔ)模型,以及雙臂機(jī)器人和全身人形機(jī)器人。結(jié)果顯示 Point-VLA 在不同模型和硬件配置下均能保持高成功率,證明了其作為通用接口的可擴(kuò)展性。
在與純文本指令的兼容性測試中,Point-VLA 即使在純文本模式下(不使用視覺定位),也能匹配甚至超越純文本 VLA baseline。研究團(tuán)隊(duì)在三種空間指代任務(wù)上進(jìn)行了對比:相對位置指代、矩陣布局指代和基于參考的指代。結(jié)果顯示,Point-VLA 在純文本模式下的表現(xiàn)與 baseline 相當(dāng)或更好,而在使用視覺定位時(shí)則在復(fù)雜空間指代任務(wù)上取得最高成功率。這說明視覺定位訓(xùn)練提升了模型對空間關(guān)系的理解能力,即使在不使用視覺定位時(shí)也能受益。
在數(shù)據(jù)擴(kuò)展性實(shí)驗(yàn)中,隨著訓(xùn)練數(shù)據(jù)量的增加,Point-VLA 的性能持續(xù)提升,而純文本 VLA 很快達(dá)到飽和。在 OOD 物體抓取任務(wù)中,當(dāng)訓(xùn)練數(shù)據(jù)從 3 個(gè)場景增加到 12 個(gè)場景時(shí),Point-VLA 的準(zhǔn)確率從約 0.8 提升到 0.95,而純文本 VLA 在約 0.27 處就停止增長,表明視覺定位提供的明確監(jiān)督信號使模型能夠更有效地從數(shù)據(jù)中學(xué)習(xí)。
![]()
圖 6:(上)Point-VLA 在三種指令模式下的成功率對比——即使在純文本模式下,Point-VLA 也能匹配或超越 baseline,使用視覺定位時(shí)在復(fù)雜空間指代上取得最高成功率。(下)隨訓(xùn)練數(shù)據(jù)增加,Point-VLA 性能持續(xù)提升,而純文本 VLA 很快飽和
技術(shù)意義與未來展望
Point-VLA 的提出具有重要的理論和實(shí)踐意義。首先,它揭示并解決了 VLA 領(lǐng)域的一個(gè)根本性問題:語言本身的表達(dá)能力限制了模型的性能上限。通過引入視覺定位,Point-VLA 繞過了這一瓶頸,為 VLA 模型開辟了新的發(fā)展路徑。
其次,自動(dòng)數(shù)據(jù)標(biāo)注 Pipeline 使得視覺定位監(jiān)督信號的獲取成本大幅降低,支持從現(xiàn)有演示數(shù)據(jù)中無縫生成訓(xùn)練數(shù)據(jù),為大規(guī)模 VLA 模型的訓(xùn)練提供了可行的技術(shù)路線。
92.5% 的成功率使得 VLA 模型首次在復(fù)雜真實(shí)場景中達(dá)到了實(shí)用化的門檻。Point-VLA 展示的精確操作能力,為機(jī)器人在工業(yè)、服務(wù)等領(lǐng)域的實(shí)際應(yīng)用提供了技術(shù)基礎(chǔ)。更重要的是,Point-VLA 驗(yàn)證了「指著說」這種人類自然交互方式在人機(jī)交互中的有效性,啟發(fā)了未來具身智能系統(tǒng)在多模態(tài)交互方面的探索。
關(guān)于千尋智能 Spirit AI
千尋智能致力于推動(dòng)具身智能和機(jī)器人技術(shù)的發(fā)展,通過創(chuàng)新的 AI 算法使機(jī)器人能夠更好地理解和執(zhí)行人類指令。高陽團(tuán)隊(duì)專注于視覺-語言-動(dòng)作模型的研究,在多模態(tài)學(xué)習(xí)、機(jī)器人操作等領(lǐng)域取得了一系列突破性成果。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.