訓(xùn)練一個(gè)視覺定位模型要燒掉多少錢?業(yè)內(nèi)有個(gè)粗略估算:每張圖的人工標(biāo)注成本在0.5到2美元之間,一個(gè)百萬量級(jí)的數(shù)據(jù)集就是百萬美元起步。這還沒算質(zhì)檢、返工和標(biāo)注員培訓(xùn)的時(shí)間。大廠可以閉眼砸錢,中小團(tuán)隊(duì)只能干瞪眼。
ReconVLA團(tuán)隊(duì)最新放出的方法,把這道門檻直接拆了。他們提出的Language-Attention Masked Reconstruction(語言注意力掩碼重建,后文簡(jiǎn)稱LAMR),讓模型在零人工標(biāo)注的情況下學(xué)會(huì)"看哪里說哪里"。論文標(biāo)題里的"Beyond"不是客氣——他們確實(shí)把自家去年VLA(視覺語言對(duì)齊)的框架又往前推了一步。
從"指哪打哪"到"自己悟出來"
視覺定位(Visual Grounding)的任務(wù)聽起來簡(jiǎn)單:給你一句話"左邊穿紅衣服的人",模型要在圖上框出對(duì)應(yīng)區(qū)域。但教模型學(xué)會(huì)這個(gè),傳統(tǒng)路徑極度依賴邊界框標(biāo)注。每張圖都要有人手動(dòng)畫框、寫描述、核對(duì)一致性。
LAMR的 trick 藏在訓(xùn)練目標(biāo)的設(shè)計(jì)里。團(tuán)隊(duì)讓模型玩一個(gè)"填空游戲":把圖像某些區(qū)域遮掉,同時(shí)把描述句里的對(duì)應(yīng)詞也遮掉,然后讓模型雙向重建——既要猜出圖像缺失部分長(zhǎng)什么樣,也要補(bǔ)全句子缺了什么詞。關(guān)鍵約束在于:模型必須通過同一組注意力權(quán)重同時(shí)完成兩邊重建。
這個(gè)設(shè)計(jì)逼使模型建立語言token與圖像區(qū)域的硬關(guān)聯(lián)。沒有標(biāo)注框告訴它"紅衣服在這",它必須從重建誤差里自己悟出來。
技術(shù)細(xì)節(jié)層面,LAMR在ReconVLA的編碼器-解碼器架構(gòu)上做了三處改動(dòng)。編碼器側(cè)引入跨模態(tài)掩碼策略,按語言注意力熱圖來決定遮圖像的哪些區(qū)域——注意力高的區(qū)域優(yōu)先被遮,迫使模型建立更魯棒的對(duì)應(yīng)關(guān)系。解碼器側(cè)采用雙流重建頭,一個(gè)分支重建圖像像素,一個(gè)分支重建語言token,兩個(gè)分支共享注意力圖。訓(xùn)練目標(biāo)函數(shù)是加權(quán)的聯(lián)合損失,圖像重建權(quán)重0.6,語言重建0.4,團(tuán)隊(duì)說這樣平衡能讓定位精度先收斂。
精度沒掉,成本歸零
實(shí)驗(yàn)結(jié)果讓審稿人有點(diǎn)意外。在RefCOCO、RefCOCO+、RefCOCOg三個(gè)標(biāo)準(zhǔn)測(cè)試集上,LAMR的零標(biāo)注版本達(dá)到了全監(jiān)督方法85%-92%的精度。作為對(duì)比,此前最強(qiáng)的弱監(jiān)督方法(用圖像級(jí)標(biāo)簽而非框標(biāo)注)只能做到70%出頭。
更狠的是數(shù)據(jù)效率。團(tuán)隊(duì)做了消融實(shí)驗(yàn):用10%的標(biāo)注數(shù)據(jù)配合LAMR預(yù)訓(xùn)練,效果反超100%標(biāo)注從頭訓(xùn)練。換句話說,人工標(biāo)注的需求可以被壓縮到原來的十分之一以下。
這個(gè)結(jié)論對(duì)行業(yè)的影響比論文里的數(shù)字更實(shí)在。一位做工業(yè)質(zhì)檢的創(chuàng)業(yè)者在社交媒體評(píng)論:「我們之前評(píng)估過視覺定位做零件缺陷定位,標(biāo)注成本直接勸退。現(xiàn)在這條路又活了。」另一位自動(dòng)駕駛數(shù)據(jù)團(tuán)隊(duì)的工程師提到,他們內(nèi)部有個(gè)長(zhǎng)期頭疼的問題——長(zhǎng)尾場(chǎng)景(比如罕見天氣下的特殊路況)永遠(yuǎn)攢不夠標(biāo)注量,零標(biāo)注方法可能是唯一的規(guī)模化路徑。
團(tuán)隊(duì)也坦誠(chéng)了局限。LAMR依賴的掩碼重建策略對(duì)描述句的長(zhǎng)度和復(fù)雜度敏感,超過15個(gè)詞的句子定位精度會(huì)明顯下降。另外,當(dāng)前版本處理不了需要多步推理的定位任務(wù),比如"站在戴眼鏡的人旁邊的那位"。這些被列在論文最后的"未來工作"里,但沒說什么時(shí)候能解決。
開源社區(qū)的反應(yīng)比論文本身熱鬧
論文放出的48小時(shí)內(nèi),Hugging Face上出現(xiàn)了三個(gè)非官方復(fù)現(xiàn)。其中一個(gè)用PyTorch重寫的版本已經(jīng)跑通了RefCOCO的驗(yàn)證集,作者貼出的訓(xùn)練日志顯示單卡A100需要約72小時(shí)完成完整預(yù)訓(xùn)練。作為參考,同等數(shù)據(jù)量的全監(jiān)督方法用8卡并行也要跑兩天——計(jì)算成本其實(shí)沒省,但省掉了標(biāo)注的人力和時(shí)間。
這種"算力換人工"的 trade-off 在當(dāng)前環(huán)境下很有吸引力。英偉達(dá)芯片雖然貴,但價(jià)格是透明的、可預(yù)期的;人工標(biāo)注的價(jià)格不透明,且質(zhì)量波動(dòng)大。一位在數(shù)據(jù)標(biāo)注行業(yè)干了五年的項(xiàng)目經(jīng)理算過賬:「高質(zhì)量標(biāo)注員的留存率不到30%,培訓(xùn)一個(gè)新手到能標(biāo)視覺定位數(shù)據(jù),至少要兩周。算力你租就是了,人你留不住。」
ReconVLA團(tuán)隊(duì)本身也在加速。論文里提到他們正在把LAMR集成到下一個(gè)版本的公開API中,預(yù)計(jì)Q3開放測(cè)試。考慮到他們?nèi)ツ闢LA模型的開源節(jié)奏——論文接受后兩個(gè)月放權(quán)重——這次的時(shí)間表可信度不低。
不過也有冷靜的質(zhì)疑聲。斯坦福視覺實(shí)驗(yàn)室的一位博士后指出,零標(biāo)注方法的精度天花板終究受限于預(yù)訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性。「如果你的應(yīng)用場(chǎng)景和預(yù)訓(xùn)練數(shù)據(jù)分布差很遠(yuǎn),比如醫(yī)療影像或者衛(wèi)星圖,零標(biāo)注的遷移效果還是個(gè)問號(hào)。」團(tuán)隊(duì)自己在論文附錄里報(bào)告了跨域?qū)嶒?yàn):從自然圖像遷移到室內(nèi)場(chǎng)景,精度掉了18個(gè)百分點(diǎn)。
這個(gè)缺口意味著什么?可能意味著零標(biāo)注不是銀彈,而是把成本從"標(biāo)注"轉(zhuǎn)移到了"預(yù)訓(xùn)練數(shù)據(jù) curation"和"領(lǐng)域適配"。省錢是真的,但省的是哪部分錢、換來什么新成本,得拆開看。
論文最后一段列了四個(gè)待驗(yàn)證方向:多輪對(duì)話中的指代消解、視頻時(shí)序定位、與生成模型的結(jié)合、以及更激進(jìn)的完全無文本預(yù)訓(xùn)練。沒有承諾時(shí)間表,也沒有放衛(wèi)星。
一個(gè)有趣的細(xì)節(jié):團(tuán)隊(duì)把訓(xùn)練代碼和預(yù)訓(xùn)練用的掩碼策略配置文件都放了出來,但隱去了數(shù)據(jù)pipeline的具體實(shí)現(xiàn)。有人在issue區(qū)追問,得到的回復(fù)是「數(shù)據(jù)部分涉及合作方的授權(quán),正在協(xié)商開源范圍」。這個(gè)回答本身說明了一件事——零標(biāo)注方法雖然擺脫了對(duì)標(biāo)注的依賴,但對(duì)數(shù)據(jù)源的依賴一點(diǎn)沒減。數(shù)據(jù)從哪來、怎么清洗、怎么保證多樣性,這些問題的答案仍然握在少數(shù)手里。
當(dāng)技術(shù)門檻從"有錢雇標(biāo)注團(tuán)隊(duì)"變成"有錢攢數(shù)據(jù)資產(chǎn)",游戲規(guī)則真的變公平了嗎,還是只是換了批玩家上桌?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.