網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

ReconVLA團(tuán)隊(duì)甩出零標(biāo)注方案：視覺定位成本砍掉90%，小廠終于能玩了

2026-04-14 12:57:59　來源: 爬蟲飼養(yǎng)員

北京舉報(bào)

分享至

訓(xùn)練一個(gè)視覺定位模型要燒掉多少錢？業(yè)內(nèi)有個(gè)粗略估算：每張圖的人工標(biāo)注成本在0.5到2美元之間，一個(gè)百萬量級(jí)的數(shù)據(jù)集就是百萬美元起步。這還沒算質(zhì)檢、返工和標(biāo)注員培訓(xùn)的時(shí)間。大廠可以閉眼砸錢，中小團(tuán)隊(duì)只能干瞪眼。

ReconVLA團(tuán)隊(duì)最新放出的方法，把這道門檻直接拆了。他們提出的Language-Attention Masked Reconstruction（語言注意力掩碼重建，后文簡(jiǎn)稱LAMR），讓模型在零人工標(biāo)注的情況下學(xué)會(huì)"看哪里說哪里"。論文標(biāo)題里的"Beyond"不是客氣——他們確實(shí)把自家去年VLA（視覺語言對(duì)齊）的框架又往前推了一步。

從"指哪打哪"到"自己悟出來"

視覺定位（Visual Grounding）的任務(wù)聽起來簡(jiǎn)單：給你一句話"左邊穿紅衣服的人"，模型要在圖上框出對(duì)應(yīng)區(qū)域。但教模型學(xué)會(huì)這個(gè)，傳統(tǒng)路徑極度依賴邊界框標(biāo)注。每張圖都要有人手動(dòng)畫框、寫描述、核對(duì)一致性。

LAMR的 trick 藏在訓(xùn)練目標(biāo)的設(shè)計(jì)里。團(tuán)隊(duì)讓模型玩一個(gè)"填空游戲"：把圖像某些區(qū)域遮掉，同時(shí)把描述句里的對(duì)應(yīng)詞也遮掉，然后讓模型雙向重建——既要猜出圖像缺失部分長(zhǎng)什么樣，也要補(bǔ)全句子缺了什么詞。關(guān)鍵約束在于：模型必須通過同一組注意力權(quán)重同時(shí)完成兩邊重建。

這個(gè)設(shè)計(jì)逼使模型建立語言token與圖像區(qū)域的硬關(guān)聯(lián)。沒有標(biāo)注框告訴它"紅衣服在這"，它必須從重建誤差里自己悟出來。

技術(shù)細(xì)節(jié)層面，LAMR在ReconVLA的編碼器-解碼器架構(gòu)上做了三處改動(dòng)。編碼器側(cè)引入跨模態(tài)掩碼策略，按語言注意力熱圖來決定遮圖像的哪些區(qū)域——注意力高的區(qū)域優(yōu)先被遮，迫使模型建立更魯棒的對(duì)應(yīng)關(guān)系。解碼器側(cè)采用雙流重建頭，一個(gè)分支重建圖像像素，一個(gè)分支重建語言token，兩個(gè)分支共享注意力圖。訓(xùn)練目標(biāo)函數(shù)是加權(quán)的聯(lián)合損失，圖像重建權(quán)重0.6，語言重建0.4，團(tuán)隊(duì)說這樣平衡能讓定位精度先收斂。

精度沒掉，成本歸零

實(shí)驗(yàn)結(jié)果讓審稿人有點(diǎn)意外。在RefCOCO、RefCOCO+、RefCOCOg三個(gè)標(biāo)準(zhǔn)測(cè)試集上，LAMR的零標(biāo)注版本達(dá)到了全監(jiān)督方法85%-92%的精度。作為對(duì)比，此前最強(qiáng)的弱監(jiān)督方法（用圖像級(jí)標(biāo)簽而非框標(biāo)注）只能做到70%出頭。

更狠的是數(shù)據(jù)效率。團(tuán)隊(duì)做了消融實(shí)驗(yàn)：用10%的標(biāo)注數(shù)據(jù)配合LAMR預(yù)訓(xùn)練，效果反超100%標(biāo)注從頭訓(xùn)練。換句話說，人工標(biāo)注的需求可以被壓縮到原來的十分之一以下。

這個(gè)結(jié)論對(duì)行業(yè)的影響比論文里的數(shù)字更實(shí)在。一位做工業(yè)質(zhì)檢的創(chuàng)業(yè)者在社交媒體評(píng)論：「我們之前評(píng)估過視覺定位做零件缺陷定位，標(biāo)注成本直接勸退。現(xiàn)在這條路又活了。」另一位自動(dòng)駕駛數(shù)據(jù)團(tuán)隊(duì)的工程師提到，他們內(nèi)部有個(gè)長(zhǎng)期頭疼的問題——長(zhǎng)尾場(chǎng)景（比如罕見天氣下的特殊路況）永遠(yuǎn)攢不夠標(biāo)注量，零標(biāo)注方法可能是唯一的規(guī)模化路徑。

團(tuán)隊(duì)也坦誠(chéng)了局限。LAMR依賴的掩碼重建策略對(duì)描述句的長(zhǎng)度和復(fù)雜度敏感，超過15個(gè)詞的句子定位精度會(huì)明顯下降。另外，當(dāng)前版本處理不了需要多步推理的定位任務(wù)，比如"站在戴眼鏡的人旁邊的那位"。這些被列在論文最后的"未來工作"里，但沒說什么時(shí)候能解決。

開源社區(qū)的反應(yīng)比論文本身熱鬧

論文放出的48小時(shí)內(nèi)，Hugging Face上出現(xiàn)了三個(gè)非官方復(fù)現(xiàn)。其中一個(gè)用PyTorch重寫的版本已經(jīng)跑通了RefCOCO的驗(yàn)證集，作者貼出的訓(xùn)練日志顯示單卡A100需要約72小時(shí)完成完整預(yù)訓(xùn)練。作為參考，同等數(shù)據(jù)量的全監(jiān)督方法用8卡并行也要跑兩天——計(jì)算成本其實(shí)沒省，但省掉了標(biāo)注的人力和時(shí)間。

這種"算力換人工"的 trade-off 在當(dāng)前環(huán)境下很有吸引力。英偉達(dá)芯片雖然貴，但價(jià)格是透明的、可預(yù)期的；人工標(biāo)注的價(jià)格不透明，且質(zhì)量波動(dòng)大。一位在數(shù)據(jù)標(biāo)注行業(yè)干了五年的項(xiàng)目經(jīng)理算過賬：「高質(zhì)量標(biāo)注員的留存率不到30%，培訓(xùn)一個(gè)新手到能標(biāo)視覺定位數(shù)據(jù)，至少要兩周。算力你租就是了，人你留不住。」

ReconVLA團(tuán)隊(duì)本身也在加速。論文里提到他們正在把LAMR集成到下一個(gè)版本的公開API中，預(yù)計(jì)Q3開放測(cè)試。考慮到他們?nèi)ツ闢LA模型的開源節(jié)奏——論文接受后兩個(gè)月放權(quán)重——這次的時(shí)間表可信度不低。

不過也有冷靜的質(zhì)疑聲。斯坦福視覺實(shí)驗(yàn)室的一位博士后指出，零標(biāo)注方法的精度天花板終究受限于預(yù)訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性。「如果你的應(yīng)用場(chǎng)景和預(yù)訓(xùn)練數(shù)據(jù)分布差很遠(yuǎn)，比如醫(yī)療影像或者衛(wèi)星圖，零標(biāo)注的遷移效果還是個(gè)問號(hào)。」團(tuán)隊(duì)自己在論文附錄里報(bào)告了跨域?qū)嶒?yàn)：從自然圖像遷移到室內(nèi)場(chǎng)景，精度掉了18個(gè)百分點(diǎn)。

這個(gè)缺口意味著什么？可能意味著零標(biāo)注不是銀彈，而是把成本從"標(biāo)注"轉(zhuǎn)移到了"預(yù)訓(xùn)練數(shù)據(jù) curation"和"領(lǐng)域適配"。省錢是真的，但省的是哪部分錢、換來什么新成本，得拆開看。

論文最后一段列了四個(gè)待驗(yàn)證方向：多輪對(duì)話中的指代消解、視頻時(shí)序定位、與生成模型的結(jié)合、以及更激進(jìn)的完全無文本預(yù)訓(xùn)練。沒有承諾時(shí)間表，也沒有放衛(wèi)星。

一個(gè)有趣的細(xì)節(jié)：團(tuán)隊(duì)把訓(xùn)練代碼和預(yù)訓(xùn)練用的掩碼策略配置文件都放了出來，但隱去了數(shù)據(jù)pipeline的具體實(shí)現(xiàn)。有人在issue區(qū)追問，得到的回復(fù)是「數(shù)據(jù)部分涉及合作方的授權(quán)，正在協(xié)商開源范圍」。這個(gè)回答本身說明了一件事——零標(biāo)注方法雖然擺脫了對(duì)標(biāo)注的依賴，但對(duì)數(shù)據(jù)源的依賴一點(diǎn)沒減。數(shù)據(jù)從哪來、怎么清洗、怎么保證多樣性，這些問題的答案仍然握在少數(shù)手里。

當(dāng)技術(shù)門檻從"有錢雇標(biāo)注團(tuán)隊(duì)"變成"有錢攢數(shù)據(jù)資產(chǎn)"，游戲規(guī)則真的變公平了嗎，還是只是換了批玩家上桌？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.