Leveraging Synthetic Data for Enhancing Egocentric Hand-Object Interaction Detection

作者: Rosario Leonardi, Antonino Furnari, Francesco Ragusa, Giovanni Maria Farinella

分类: cs.CV

发布日期: 2026-03-31

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

利用合成数据增强以自我为中心的视角下人-物交互检测

🎯 匹配领域: 支柱五：交互与反应 (Interaction & Reaction) 支柱六：视频提取与匹配 (Video Extraction)

关键词: 人-物交互检测 合成数据 自中心视角 数据增强 深度学习

📋 核心要点

现有的以自我为中心的人-物交互检测方法在真实标注数据不足时性能受限，难以泛化。
论文提出利用合成数据来增强HOI检测，核心思想是通过合成数据弥补真实数据的不足，提升模型鲁棒性。
实验表明，使用合成数据结合少量真实数据，在多个数据集上显著提升了HOI检测的平均精度。

📝 摘要（中文）

本文探讨了合成数据在提升以自我为中心的图像中人-物交互（Hand-Object Interaction, HOI）检测方面的作用。通过在VISOR、EgoHOS和ENIGMA-51数据集上进行广泛的实验和对比分析，我们的研究结果表明，合成数据具有显著提升HOI检测的潜力，尤其是在真实标注数据稀缺或不可用的情况下。通过使用合成数据和仅10%的真实标注数据，我们实现了优于仅在真实数据上训练的模型的总体平均精度（Overall AP）的提升，在VISOR上提升了+5.67%，在EgoHOS上提升了+8.24%，在ENIGMA-51上提升了+11.69%。此外，我们系统地研究了如何将合成数据在对象、抓取和环境方面与特定的真实世界基准对齐，结果表明，合成数据与真实数据的对齐程度越高，其有效性就越好。作为这项工作的结果，我们发布了一个新的数据生成流程和新的HOI-Synth基准，该基准通过合成的人-物交互图像来扩充现有的数据集。这些数据被自动标注了手-物接触状态、边界框和像素级分割掩码。所有数据、代码和合成数据生成工具均可在https://fpv-iplab.github.io/HOI-Synth/上找到。

🔬 方法详解

问题定义：论文旨在解决以自我为中心视角下人-物交互检测中，由于真实标注数据稀缺导致模型性能受限的问题。现有方法依赖大量真实标注数据，获取成本高昂，且模型泛化能力较差。

核心思路：论文的核心思路是利用合成数据来扩充训练数据集，弥补真实数据的不足。通过精心设计的合成数据生成流程，生成包含丰富人-物交互信息的图像，并自动标注相关信息，从而提升模型的训练效果和泛化能力。

技术框架：整体框架包含两个主要部分：一是合成数据生成流程，包括场景建模、手部和物体建模、交互动画生成、图像渲染和自动标注；二是HOI检测模型训练，利用合成数据和少量真实数据进行混合训练，提升模型性能。

关键创新：论文的关键创新在于提出了一种有效且可控的合成数据生成流程，能够生成高质量的HOI图像，并自动标注手-物接触状态、边界框和像素级分割掩码。此外，论文还系统地研究了合成数据与真实数据对齐的重要性，并提出了相应的对齐策略。

关键设计：在数据生成方面，论文考虑了对象、抓取和环境等因素，力求使合成数据尽可能接近真实数据。在模型训练方面，论文采用了混合训练策略，即同时使用合成数据和少量真实数据进行训练，并调整损失函数的权重，以平衡两种数据的影响。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用合成数据和仅10%的真实标注数据，在VISOR、EgoHOS和ENIGMA-51数据集上，总体平均精度（Overall AP）分别提升了+5.67%、+8.24%和+11.69%，显著优于仅在真实数据上训练的模型。这表明合成数据在数据稀缺场景下具有重要的应用价值。

🎯 应用场景

该研究成果可应用于机器人操作、虚拟现实、增强现实等领域。例如，在机器人操作中，可以利用该技术提升机器人对人-物交互的理解能力，从而实现更自然、更智能的人机协作。在虚拟现实和增强现实中，可以提升虚拟对象与用户手的交互体验，增强沉浸感。

📄 摘要（原文）

In this work, we explore the role of synthetic data in improving the detection of Hand-Object Interactions from egocentric images. Through extensive experimentation and comparative analysis on VISOR, EgoHOS, and ENIGMA-51 datasets, our findings demonstrate the potential of synthetic data to significantly improve HOI detection, particularly when real labeled data are scarce or unavailable. By using synthetic data and only 10% of the real labeled data, we achieve improvements in Overall AP over models trained exclusively on real data, with gains of +5.67% on VISOR, +8.24% on EgoHOS, and +11.69% on ENIGMA-51. Furthermore, we systematically study how aligning synthetic data to specific real-world benchmarks with respect to objects, grasps, and environments, showing that the effectiveness of synthetic data consistently improves with better synthetic-real alignment. As a result of this work, we release a new data generation pipeline and the new HOI-Synth benchmark, which augments existing datasets with synthetic images of hand-object interaction. These data are automatically annotated with hand-object contact states, bounding boxes, and pixel-wise segmentation masks. All data, code, and tools for synthetic data generation are available at: https://fpv-iplab.github.io/HOI-Synth/.

Leveraging Synthetic Data for Enhancing Egocentric Hand-Object Interaction Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理