Sim-to-Real Fruit Detection Using Synthetic Data: Quantitative Evaluation and Embedded Deployment with Isaac Sim
作者: Martina Hutter-Mironovova
分类: cs.CV, cs.RO
发布日期: 2026-03-30
备注: 18 pages, 6 figures
💡 一句话要点
利用Isaac Sim合成数据,实现Sim-to-Real水果检测,并在嵌入式设备上部署。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: Sim-to-Real 合成数据 目标检测 YOLO 嵌入式部署 Isaac Sim Jetson Orin NX 混合训练
📋 核心要点
- 现实场景数据标注成本高昂,且数据量受限,难以训练出鲁棒性强的目标检测模型。
- 利用NVIDIA Isaac Sim生成合成数据,结合少量真实数据,采用混合训练策略,降低对大量真实标注数据的依赖。
- 实验表明,混合训练策略在域偏移情况下表现出更好的鲁棒性,并在Jetson Orin NX上实现了实时推理。
📝 摘要(中文)
本研究探讨了在数据受限和嵌入式部署要求下,使用合成数据进行目标检测中Sim-to-Real迁移的有效性。在NVIDIA Isaac Sim中生成合成数据集,并结合少量真实水果图像,在仅使用真实数据、仅使用合成数据和混合模式下训练基于YOLO的检测模型。在两个测试数据集上评估性能:一个与训练数据条件匹配的同域数据集和一个包含真实水果和不同背景条件的域偏移数据集。结果表明,仅使用真实数据训练的模型实现了最高的准确率,而仅使用合成数据的模型由于域差距而表现下降。与仅使用合成数据的方法相比,混合训练策略显著提高了性能,并在减少手动标注需求的同时,获得了接近仅使用真实数据训练的结果。在域偏移条件下,所有模型都表现出性能下降,但混合模型提供了更好的鲁棒性。训练后的模型使用TensorRT优化成功部署在Jetson Orin NX上,实现了实时推理性能。研究结果表明,合成数据与真实数据结合使用时效果最佳,并且部署约束必须与检测精度一起考虑。
🔬 方法详解
问题定义:论文旨在解决在数据量有限的情况下,如何利用合成数据提升水果目标检测模型在真实场景中的泛化能力,并将其部署到嵌入式设备上的问题。现有方法依赖大量真实标注数据,成本高昂且难以获取,而直接使用合成数据训练的模型在真实场景中表现不佳,存在较大的域差距。
核心思路:论文的核心思路是利用NVIDIA Isaac Sim生成高质量的合成数据,并将其与少量真实数据结合,通过混合训练的方式,弥合合成数据和真实数据之间的域差距,从而提升模型在真实场景中的检测精度和鲁棒性。同时,考虑嵌入式部署的需求,对模型进行优化,以满足实时性要求。
技术框架:整体框架包括三个主要阶段:1) 合成数据生成:使用NVIDIA Isaac Sim创建逼真的水果场景,并生成带有标注的合成图像数据集。2) 模型训练:采用YOLO系列目标检测模型,分别使用真实数据、合成数据和混合数据进行训练。3) 模型部署:将训练好的模型使用TensorRT进行优化,并部署到Jetson Orin NX嵌入式设备上。
关键创新:论文的关键创新在于探索了合成数据与真实数据混合训练策略在水果目标检测中的有效性,并验证了其在域偏移情况下的鲁棒性。此外,论文还考虑了嵌入式部署的约束,对模型进行了优化,实现了实时推理。
关键设计:论文采用了YOLO系列目标检测模型,具体型号未知。损失函数采用YOLO默认的损失函数。在混合训练中,真实数据和合成数据的比例需要根据具体情况进行调整,以达到最佳效果。TensorRT优化主要包括量化、剪枝等技术,以减小模型大小和提高推理速度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,混合训练策略显著优于仅使用合成数据训练的方法,并且在域偏移情况下表现出更好的鲁棒性。在Jetson Orin NX上,经过TensorRT优化后,模型能够实现实时推理,满足实际应用的需求。具体性能数据未知,但论文强调了混合训练策略的有效性和嵌入式部署的可行性。
🎯 应用场景
该研究成果可应用于智能农业领域,例如水果采摘机器人、果园巡检无人机等,实现对水果的自动检测和定位,提高农业生产效率。此外,该方法也可推广到其他目标检测任务中,尤其是在数据获取困难或标注成本高昂的场景下,具有重要的应用价值。
📄 摘要(原文)
This study investigates the effectiveness of synthetic data for sim-to-real transfer in object detection under constrained data conditions and embedded deployment requirements. Synthetic datasets were generated in NVIDIA Isaac Sim and combined with limited real-world fruit images to train YOLO-based detection models under real-only, synthetic-only, and hybrid regimes. Performance was evaluated on two test datasets: an in-domain dataset with conditions matching the training data and a domain shift dataset containing real fruit and different background conditions. Results show that models trained exclusively on real data achieve the highest accuracy, while synthetic-only models exhibit reduced performance due to a domain gap. Hybrid training strategies significantly improve performance compared to synthetic-only approaches and achieve results close to real-only training while reducing the need for manual annotation. Under domain shift conditions, all models show performance degradation, with hybrid models providing improved robustness. The trained models were successfully deployed on a Jetson Orin NX using TensorRT optimization, achieving real-time inference performance. The findings highlight that synthetic data is most effective when used in combination with real data and that deployment constraints must be considered alongside detection accuracy.