Synthetic Industrial Object Detection: GenAI vs. Feature-Based Methods

📄 arXiv: 2511.23241v1 📥 PDF

作者: Jose Moises Araya-Martinez, Adrián Sanchis Reig, Gautham Mohan, Sarvenaz Sardari, Jens Lambrecht, Jörg Krüger

分类: cs.CV

发布日期: 2025-11-28


💡 一句话要点

对比GenAI与传统方法,高效合成工业目标检测数据,提升Sim-to-Real性能。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 合成数据 目标检测 领域自适应 Sim-to-Real 生成式AI 特征对齐 工业应用

📋 核心要点

  1. 工业场景中机器学习部署面临数据生成和标注成本高昂的挑战,现有方法难以有效弥合Sim-to-Real差距。
  2. 论文对比了基于特征的方法、生成式AI和经典渲染方法,探索高效创建上下文合成数据以提升模型泛化能力。
  3. 实验表明,在具备足够变异性的渲染数据基础上,简单的特征方法优于复杂的GenAI方法,且资源效率更高。

📝 摘要(中文)

在工业和机器人领域,降低数据生成和标注的负担是机器学习经济高效部署的关键挑战。虽然合成渲染是一种有前景的解决方案,但弥合Sim-to-Real的差距通常需要专家干预。本文对一系列领域随机化(DR)和领域自适应(DA)技术进行了基准测试,包括基于特征的方法、生成式AI(GenAI)和经典渲染方法,用于创建无需手动标注的上下文合成数据。评估侧重于低级和高级特征对齐的有效性和效率,以及由真实世界上下文生成的提示引导的受控扩散DA方法。在工业数据集(汽车和物流)和公共机器人数据集上验证了方法。结果表明,如果渲染数据具有足够的变异性作为种子,则更简单的基于特征的方法(如基于亮度的过滤和感知哈希过滤)在准确性和资源效率方面优于更复杂的基于GenAI的方法。感知哈希始终实现最高的性能,在工业和机器人数据集上的mAP50得分分别为98%和67%。此外,与更简单的方法相比,GenAI方法在数据生成方面存在显著的时间开销,且Sim-to-Real mAP值没有明显改善。研究结果为有效弥合Sim-to-Real差距提供了可操作的见解,从而使仅在合成数据上训练的模型能够实现较高的真实世界性能。

🔬 方法详解

问题定义:论文旨在解决工业和机器人领域中,目标检测模型训练所需的大量标注数据的获取问题。现有方法,如人工标注成本高昂,而直接使用合成数据又存在Sim-to-Real的差距,导致模型在真实场景下性能下降。GenAI方法虽然可以生成更逼真的图像,但计算成本高,且效果提升有限。

核心思路:论文的核心思路是,在已有一定质量的渲染数据基础上,通过简单的特征对齐方法,例如亮度过滤和感知哈希,来筛选和优化合成数据,从而有效弥合Sim-to-Real的差距。这种方法旨在以较低的计算成本,实现与复杂GenAI方法相当甚至更好的性能。

技术框架:论文的技术框架主要包括以下几个阶段:1) 使用经典渲染方法生成初始的合成数据集;2) 应用不同的领域随机化(DR)和领域自适应(DA)技术,包括基于特征的方法(亮度过滤、感知哈希)和基于GenAI的方法;3) 在合成数据上训练目标检测模型;4) 在真实数据集上评估模型性能,并比较不同方法的Sim-to-Real效果。

关键创新:论文的关键创新在于,证明了在特定场景下,简单的基于特征的领域自适应方法,在合成数据生成方面,可以优于复杂的GenAI方法。这挑战了以往认为必须使用复杂模型才能有效弥合Sim-to-Real差距的观点。

关键设计:论文的关键设计包括:1) 详细对比了不同DR/DA方法的性能,包括基于亮度的过滤、感知哈希和基于扩散模型的GenAI方法;2) 使用了两个数据集进行验证,一个是专有的工业数据集,另一个是公共机器人数据集,以保证结论的泛化性;3) 评估指标主要为mAP50,用于衡量目标检测模型的准确率。

📊 实验亮点

实验结果表明,在工业数据集和机器人数据集上,感知哈希方法分别取得了98%和67%的mAP50,显著优于其他方法,包括更复杂的GenAI方法。同时,GenAI方法在数据生成方面存在显著的时间开销,且Sim-to-Real mAP值没有明显改善。这些结果表明,简单的特征对齐方法在特定场景下更具优势。

🎯 应用场景

该研究成果可应用于工业自动化、智能物流、机器人等领域,降低目标检测模型部署的成本和难度。通过高效生成高质量的合成数据,可以减少对人工标注数据的依赖,加速相关技术的落地应用,例如在生产线上进行产品缺陷检测、在仓库中进行货物识别等。

📄 摘要(原文)

Reducing the burden of data generation and annotation remains a major challenge for the cost-effective deployment of machine learning in industrial and robotics settings. While synthetic rendering is a promising solution, bridging the sim-to-real gap often requires expert intervention. In this work, we benchmark a range of domain randomization (DR) and domain adaptation (DA) techniques, including feature-based methods, generative AI (GenAI), and classical rendering approaches, for creating contextualized synthetic data without manual annotation. Our evaluation focuses on the effectiveness and efficiency of low-level and high-level feature alignment, as well as a controlled diffusion-based DA method guided by prompts generated from real-world contexts. We validate our methods on two datasets: a proprietary industrial dataset (automotive and logistics) and a public robotics dataset. Results show that if render-based data with enough variability is available as seed, simpler feature-based methods, such as brightness-based and perceptual hashing filtering, outperform more complex GenAI-based approaches in both accuracy and resource efficiency. Perceptual hashing consistently achieves the highest performance, with mAP50 scores of 98% and 67% on the industrial and robotics datasets, respectively. Additionally, GenAI methods present significant time overhead for data generation at no apparent improvement of sim-to-real mAP values compared to simpler methods. Our findings offer actionable insights for efficiently bridging the sim-to-real gap, enabling high real-world performance from models trained exclusively on synthetic data.