Beyond Quantity: Distribution-Aware Labeling for Visual Grounding
作者: Yichi Zhang, Gongwei Chen, Jun Zhu, Jia Wan, Liqiang Nie
分类: cs.CV
发布日期: 2025-05-30 (更新: 2025-09-25)
备注: 18pages, 8figures
💡 一句话要点
提出DAL框架,通过分布感知的伪标签方法提升视觉定位性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉定位 伪标签 分布感知 数据增强 开放集学习
📋 核心要点
- 现有视觉定位伪标签方法易过拟合于有偏分布,导致数据质量和泛化性不足。
- DAL框架通过双驱动标注和分布外表达扩展,有效扩展语义覆盖,提升数据多样性。
- 实验表明,DAL在多个基准测试中超越现有方法,验证了分布感知标注的重要性。
📝 摘要(中文)
视觉定位需要大量且多样的区域-文本对。然而,手动标注成本高昂,且固定词汇表限制了可扩展性和泛化性。现有的伪标签生成流程通常过拟合于有偏的分布,并生成噪声或冗余样本。通过对数据质量和分布覆盖的系统分析,我们发现性能提升更多来自于有效的分布扩展,而非原始数据量。受此启发,我们提出了一种用于视觉定位的分布感知标注框架DAL。该方法首先采用双驱动标注模块,其中闭集路径提供可靠的伪标签,而开放集路径丰富词汇并引入新概念;同时,它进一步执行显式的分布外(OOD)表达扩展,以拓宽语义覆盖。然后,我们提出了一个一致性和分布感知的过滤模块,以丢弃噪声或冗余的区域-文本对,并重新平衡代表性不足的语言和视觉内容,从而提高数据质量和训练效率。在三个基准数据集上的大量实验表明,我们的方法始终优于强大的基线,并实现了最先进的结果,突出了分布感知标注在构建可扩展和鲁棒的视觉定位数据集中的关键作用。
🔬 方法详解
问题定义:视觉定位任务需要大量高质量的区域-文本对训练数据。然而,人工标注成本高昂,且固定词汇表限制了模型的可扩展性和泛化能力。现有的伪标签生成方法容易过拟合于训练数据的固有偏见,导致生成的伪标签数据存在噪声和冗余,最终影响模型的性能。
核心思路:论文的核心思路是通过分布感知的伪标签方法,更有效地利用无标注数据。核心在于扩展数据的分布,而非仅仅增加数据量。通过有策略地引入新的词汇和概念,并过滤掉噪声和冗余数据,从而提升训练数据的质量和多样性。
技术框架:DAL框架包含两个主要模块:双驱动标注模块和一致性与分布感知过滤模块。双驱动标注模块包含一个闭集路径和一个开放集路径,分别用于生成可靠的伪标签和引入新的词汇和概念。此外,还包含一个分布外(OOD)表达扩展模块,用于进一步拓宽语义覆盖。一致性与分布感知过滤模块用于过滤掉噪声和冗余的区域-文本对,并重新平衡代表性不足的语言和视觉内容。
关键创新:DAL框架的关键创新在于其分布感知的标注和过滤机制。与传统的伪标签方法不同,DAL更加关注数据的分布,通过显式地扩展数据的分布范围,并过滤掉不符合分布的数据,从而提升数据的质量和多样性。这种分布感知的思想是DAL能够取得优异性能的关键。
关键设计:双驱动标注模块中,闭集路径使用预训练的视觉定位模型生成伪标签,保证标签的可靠性;开放集路径则利用外部知识库或语言模型生成新的文本描述,从而引入新的词汇和概念。OOD表达扩展模块通过生成与训练数据分布不同的文本描述,进一步拓宽语义覆盖。一致性与分布感知过滤模块则利用一致性损失和分布距离等指标,过滤掉噪声和冗余数据。
🖼️ 关键图片
📊 实验亮点
DAL框架在RefCOCO、RefCOCO+和GRef数据集上均取得了state-of-the-art的结果。例如,在RefCOCO数据集上,DAL的性能显著优于现有基线方法,证明了分布感知标注的有效性。实验结果表明,DAL不仅提升了模型的准确率,还提高了模型的泛化能力。
🎯 应用场景
该研究成果可应用于智能图像搜索、视觉问答、机器人导航等领域。通过提升视觉定位模型的性能,可以更准确地理解图像内容,并实现更智能的人机交互。未来,该方法有望应用于自动驾驶、智能安防等更广泛的场景。
📄 摘要(原文)
Visual grounding requires large and diverse region-text pairs. However, manual annotation is costly and fixed vocabularies restrict scalability and generalization. Existing pseudo-labeling pipelines often overfit to biased distributions and generate noisy or redundant samples. Through our systematic analysis of data quality and distributional coverage, we find that performance gains come less from raw data volume and more from effective distribution expansion. Motivated by this insight, we propose DAL, a distribution-aware labeling framework for visual grounding. The proposed method first employs a dual-driven annotation module, where a closed-set path provides reliable pseudo labels and an open-set path enriches vocabulary and introduces novel concepts; meanwhile, it further performs explicit out-of-distribution (OOD) expression expansion to broaden semantic coverage. We then propose a consistency- and distribution-aware filtering module to discard noisy or redundant region-text pairs and rebalance underrepresented linguistic and visual content, thereby improving both data quality and training efficiency. Extensive experiments on three benchmarks demonstrate that our method consistently outperforms strong baselines and achieves state-of-the-art results, underscoring the critical role of distribution-aware labeling in building scalable and robust visual grounding datasets.