LABELING COPILOT: A Deep Research Agent for Automated Data Curation in Computer Vision
作者: Debargha Ganguly, Sumit Kumar, Ishwar Balappanawar, Weicong Chen, Shashank Kambhatla, Srinivasan Iyengar, Shivkumar Kalyanaraman, Ponnurangam Kumaraguru, Vipin Chaudhary
分类: cs.CV, cs.CL
发布日期: 2025-09-26
💡 一句话要点
提出Labeling Copilot,用于计算机视觉中自动化数据标注的深度研究Agent。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自动化数据标注 计算机视觉 多模态学习 深度学习Agent 主动学习
📋 核心要点
- 高质量、特定领域数据集的标注是部署鲁棒视觉系统的主要瓶颈,需要在数据质量、多样性和成本之间进行权衡。
- Labeling Copilot通过多模态语言模型驱动的Agent,结合校准发现、可控合成和共识标注,实现自动化数据标注。
- 实验表明,Labeling Copilot在COCO和Open Images数据集上表现出色,且校准发现工具的计算效率显著提升。
📝 摘要(中文)
本文介绍Labeling Copilot,这是首个用于计算机视觉的数据标注深度研究Agent。该Agent由大型多模态语言模型驱动的中心协调器组成,通过多步骤推理来执行跨三个核心功能的专用工具:(1)校准发现:从大型存储库中获取相关的、分布内的数据;(2)可控合成:为罕见场景生成具有鲁棒性过滤的新数据;(3)共识标注:通过结合非极大值抑制和投票的新型共识机制,协调多个基础模型以产生准确的标签。大规模验证证明了Labeling Copilot组件的有效性。共识标注模块擅长目标发现:在密集的COCO数据集上,它平均每张图像产生14.2个候选提议,几乎是7.4个真实目标的2倍,最终标注mAP达到37.1%。在网络规模的Open Images数据集上,它克服了极端的类别不平衡,发现了903个新的边界框类别,将其能力扩展到超过1500个。同时,我们的校准发现工具在1000万样本规模下进行了测试,其主动学习策略比具有同等样本效率的替代方案的计算效率高出40倍。这些实验验证了具有优化、可扩展工具的Agent工作流程为标注工业规模数据集提供了强大的基础。
🔬 方法详解
问题定义:现有计算机视觉系统依赖于大量标注数据,但人工标注成本高昂且耗时。现有方法在处理大规模、长尾分布的数据集时,难以保证标注质量和效率,尤其是在发现新类别和处理罕见场景时面临挑战。
核心思路:Labeling Copilot的核心思路是利用大型多模态语言模型作为Agent的协调器,通过多步骤推理来自动化数据标注流程。它将数据标注分解为校准发现、可控合成和共识标注三个模块,每个模块使用专门的工具进行优化,从而提高标注效率和质量。
技术框架:Labeling Copilot包含三个主要模块:(1) 校准发现:从大型数据集中选择与目标任务相关的、分布内的数据,采用主动学习策略提高样本效率。(2) 可控合成:为罕见场景生成新的数据,并使用鲁棒的过滤机制保证数据质量。(3) 共识标注:通过协调多个基础模型,并结合非极大值抑制和投票机制,生成准确的标注结果。这三个模块由一个中心协调器Agent进行管理和控制。
关键创新:Labeling Copilot的关键创新在于将大型多模态语言模型应用于自动化数据标注流程,并设计了一个包含校准发现、可控合成和共识标注的完整Agent框架。通过模块化的设计和专门的工具优化,实现了高效、高质量的数据标注。共识标注模块通过结合多个基础模型的输出来提高标注的准确性,并使用非极大值抑制来减少冗余的候选框。
关键设计:在共识标注模块中,采用了非极大值抑制(NMS)来减少冗余的候选框,并使用投票机制来融合多个基础模型的输出。具体参数设置和损失函数等技术细节在论文中未明确说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
Labeling Copilot在COCO数据集上实现了37.1%的mAP,并且平均每张图像产生14.2个候选提议,接近真实目标的2倍。在Open Images数据集上,发现了903个新的边界框类别,将其能力扩展到超过1500个。校准发现工具的计算效率比其他主动学习策略高出40倍。
🎯 应用场景
Labeling Copilot可应用于各种计算机视觉任务,例如目标检测、图像分割和图像分类。它可以显著降低数据标注的成本和时间,加速视觉系统的开发和部署。该研究对于自动驾驶、智能安防、医疗影像分析等领域具有重要意义,能够促进这些领域中更强大、更鲁棒的视觉系统的发展。
📄 摘要(原文)
Curating high-quality, domain-specific datasets is a major bottleneck for deploying robust vision systems, requiring complex trade-offs between data quality, diversity, and cost when researching vast, unlabeled data lakes. We introduce Labeling Copilot, the first data curation deep research agent for computer vision. A central orchestrator agent, powered by a large multimodal language model, uses multi-step reasoning to execute specialized tools across three core capabilities: (1) Calibrated Discovery sources relevant, in-distribution data from large repositories; (2) Controllable Synthesis generates novel data for rare scenarios with robust filtering; and (3) Consensus Annotation produces accurate labels by orchestrating multiple foundation models via a novel consensus mechanism incorporating non-maximum suppression and voting. Our large-scale validation proves the effectiveness of Labeling Copilot's components. The Consensus Annotation module excels at object discovery: on the dense COCO dataset, it averages 14.2 candidate proposals per image-nearly double the 7.4 ground-truth objects-achieving a final annotation mAP of 37.1%. On the web-scale Open Images dataset, it navigated extreme class imbalance to discover 903 new bounding box categories, expanding its capability to over 1500 total. Concurrently, our Calibrated Discovery tool, tested at a 10-million sample scale, features an active learning strategy that is up to 40x more computationally efficient than alternatives with equivalent sample efficiency. These experiments validate that an agentic workflow with optimized, scalable tools provides a robust foundation for curating industrial-scale datasets.