LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding

📄 arXiv: 2605.27365v1 📥 PDF

作者: Shihao Wang, Shilong Liu, Yuanguo Kuang, Xinyu Wei, Yangzhou Liu, Zhiqi Li, Yunze Man, Guo Chen, Andrew Tao, Guilin Liu, Jan Kautz, Lei Zhang, Zhiding Yu

分类: cs.CV, cs.AI, cs.LG, cs.RO

发布日期: 2026-05-26


💡 一句话要点

LocateAnything:提出并行框解码,加速并提升视觉-语言定位质量。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言定位 视觉-语言检测 并行框解码 跨模态学习 生成式模型

📋 核心要点

  1. 现有视觉-语言模型串行解码边界框,效率低且忽略了框内几何结构的关联性。
  2. LocateAnything通过并行解码边界框,保留几何一致性,显著提升解码速度和定位精度。
  3. 构建大规模数据集LocateAnything-Data,包含1.38亿训练样本,进一步提升定位精度。

📝 摘要(中文)

本文提出LocateAnything,一个基于并行框解码(PBD)的统一生成式定位和检测框架。现有视觉-语言模型(VLMs)通常将视觉定位和检测问题建模为坐标-token生成问题,将每个2D框串行化为多个1D token,独立学习和解码。这种token-by-token的解码方式与框几何结构的耦合性不匹配,并由于严格的顺序生成造成实际的推理瓶颈。LocateAnything通过单步解码边界框和点等几何元素,保留了框内几何一致性并实现了高度并行化。实验表明,PBD提高了解码吞吐量和定位精度。此外,本文还开发了一个可扩展的数据引擎,并整理了LocateAnything-Data,一个包含超过1.38亿个训练样本的大规模数据集,显著增加了数据多样性,从而实现高精度定位。大量评估表明,LocateAnything提高了速度-精度边界,在各种基准测试中实现了显著更高的解码吞吐量,同时提高了高IoU定位质量。结果突出了并行框解码和大规模训练数据在实现高效和精确的统一视觉定位和检测方面的互补优势。

🔬 方法详解

问题定义:现有视觉-语言模型在进行视觉定位和检测时,通常将边界框的坐标信息分解为多个独立的token进行串行解码。这种方式忽略了边界框内部坐标之间的几何关联性,导致解码效率低下,并且容易产生定位误差。现有方法的痛点在于解码过程的串行性和对几何信息的忽略。

核心思路:LocateAnything的核心思路是采用并行框解码(Parallel Box Decoding, PBD),将整个边界框作为一个原子单元进行解码,而不是将其分解为多个独立的token。通过一次性预测整个边界框的坐标,保留了框内坐标的几何一致性,并实现了高度的并行化,从而提高了解码效率和定位精度。

技术框架:LocateAnything是一个统一的生成式定位和检测框架。其整体架构包括以下几个主要模块:1) 视觉编码器:用于提取输入图像的视觉特征。2) 文本编码器:用于提取输入文本描述的语义特征。3) 跨模态融合模块:将视觉特征和文本特征进行融合,得到融合后的特征表示。4) 并行框解码器:基于融合后的特征表示,并行预测边界框的坐标。整个流程可以概括为:图像和文本输入 -> 特征提取 -> 跨模态融合 -> 并行框解码 -> 边界框输出。

关键创新:LocateAnything最重要的技术创新点是并行框解码(PBD)。与现有方法中串行解码边界框坐标的方式不同,PBD将整个边界框作为一个原子单元进行解码,从而保留了框内坐标的几何一致性,并实现了高度的并行化。这种并行解码的方式显著提高了解码效率和定位精度。此外,大规模数据集LocateAnything-Data的构建也是一个重要的贡献。

关键设计:在并行框解码器中,可以使用不同的网络结构来实现边界框的预测,例如多层感知机(MLP)或Transformer。损失函数的设计也至关重要,常用的损失函数包括L1损失、IoU损失等。此外,为了提高模型的泛化能力,可以采用数据增强技术,例如随机裁剪、旋转等。LocateAnything-Data数据集包含超过1.38亿个训练样本,涵盖了各种场景和目标,为模型的训练提供了充足的数据。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LocateAnything在多个视觉-语言定位和检测基准测试中取得了显著的性能提升。例如,在RefCOCOg数据集上,LocateAnything在高IoU定位精度方面优于现有方法。此外,LocateAnything的解码吞吐量也显著高于现有方法,实现了速度和精度的双重提升。大规模数据集LocateAnything-Data的训练也进一步提升了模型的性能。

🎯 应用场景

LocateAnything在视觉-语言导航、图像编辑、智能监控、自动驾驶等领域具有广泛的应用前景。它可以用于根据文本描述定位图像中的特定目标,实现更智能的人机交互。此外,该技术还可以应用于机器人领域,帮助机器人理解人类指令并执行相应的任务。未来,LocateAnything有望成为视觉-语言理解领域的重要组成部分。

📄 摘要(原文)

Vision-language models (VLMs) commonly formulate visual grounding and detection as a coordinate-token generation problem, serializing each 2D box into multiple 1D tokens that are learned and decoded largely independently. This token-by-token decoding mismatches the coupled structure of box geometry and creates a practical inference bottleneck due to strictly sequential generation. We introduce LocateAnything, a unified generative grounding and detection framework based on Parallel Box Decoding (PBD). By decoding geometric elements such as bounding boxes and points as atomic units in a single step, LocateAnything preserves intra-box geometric coherence and unlocks substantial parallelism. We show that PBD improves both decoding throughput and localization accuracy. We further develop a scalable data engine and curate LocateAnything-Data, a large-scale dataset with more than 138 million training samples, substantially increasing data diversity for high-precision localization. Extensive evaluations show that LocateAnything advances the speed-accuracy frontier, achieving significantly higher decoding throughput while improving high-IoU localization quality across diverse benchmarks. The results highlight the complementary benefits of Parallel Box Decoding and large-scale training data in enabling efficient and precise unified visual grounding and detection.