IT之家 5 月 30 日消息,英偉達昨日(5 月 29 日)發布博文,宣布攜手香港理工大學、南京大學等,推出 LocateAnything 模型,主打高速、高精度檢測對象。
該模型可以從照片或截圖中找出指定對象,并用檢測框標出位置,重點服務機器人感知、電腦自動操作等需要快速定位的場景。
![]()
NVIDIA 在介紹中強調,機器人和 AI Agent(智能體)僅能“看見”還不夠,還必須足夠快地確認目標位置。LocateAnything 圍繞檢測框預測重新設計,讓視覺語言檢測更適合即時交互任務。
![]()
LocateAnything 提出 Parallel Box Decoding(并行框解碼),把邊界框或點作為固定長度原子單元,在 1 步內預測 x1、y1、x2、y2。
該框架提供 Fast Mode、Slow Mode 與 Hybrid Mode:
- Fast Mode 面向端側機器人和具身智能,強調吞吐;
- Slow Mode 偏向離線標注和高精度評測;
- Hybrid Mode 默認快速輸出,遇到格式異常或空間歧義時切回自回歸解碼。
團隊還構建 LocateAnything-Data,包含 12M 獨立圖像、138M 語言查詢和 785M 邊界框。數據覆蓋通用檢測、GUI 元素定位、指代表達理解、OCR 文字定位、版面定位和點定位,顯著擴展訓練場景。
![]()
![]()
在單張 NVIDIA H100 GPU 上,LocateAnything 默認 Hybrid Mode 達到 12.7 Boxes Per Second(每秒框數),超過 Qwen3-VL 的 1.1 BPS,也高于 Rex-Omni 的 5.0 BPS。
![]()
高精度任務中,LocateAnything 在 LVIS 的 IoU=0.95 下得分 31.1,高于 Rex-Omni 的 20.7;ScreenSpot-Pro 平均 F1 達 60.3;DocLayNet 和 M6Doc 分別達 76.8 與 70.1。
IT之家附上參考地址
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.