InterAct: Advancing Large-Scale Versatile 3D Human-Object Interaction Generation

作者: Sirui Xu, Dongting Li, Yucheng Zhang, Xiyan Xu, Qi Long, Ziyin Wang, Yunzhi Lu, Shuchang Dong, Hezi Jiang, Akshat Gupta, Yu-Xiong Wang, Liang-Yan Gui

分类: cs.CV

发布日期: 2025-09-11

备注: CVPR 2025

🔗 代码/项目: GITHUB

💡 一句话要点

InterAct：提出大规模通用3D人-物交互生成基准与方法

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion) 支柱五：交互与反应 (Interaction & Reaction) 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation)

关键词: 人-物交互 3D生成 数据集构建 数据增强 运动捕捉

📋 核心要点

现有HOI数据集规模有限、质量不高，存在伪影和手部运动不准确等问题，阻碍了3D人-物交互生成的发展。
InterAct通过整合标准化多源数据，提出统一优化框架，利用接触不变性扩充数据集，提升数据质量并丰富了标注信息。
InterAct定义了六个基准测试任务，并提出了统一的HOI生成建模方法，实验结果表明该数据集能有效提升HOI生成性能。

📝 摘要（中文）

由于数据集的限制，建模和生成动态3D人-物交互（HOI）仍然具有挑战性。现有数据集通常缺乏广泛、高质量的运动和标注，并且存在接触穿透、漂浮和不正确的手部运动等伪影。为了解决这些问题，我们推出了InterAct，这是一个大规模的3D HOI基准，具有数据集和方法上的进步。首先，我们整合并标准化了来自不同来源的21.81小时的HOI数据，并用详细的文本注释丰富了它。其次，我们提出了一个统一的优化框架，通过减少伪影和纠正手部运动来提高数据质量。利用接触不变性原则，我们在保持人-物关系的同时引入运动变化，将数据集扩展到30.70小时。第三，我们定义了六个基准测试任务，并开发了一个统一的HOI生成建模视角，实现了最先进的性能。大量的实验验证了我们的数据集作为推进3D人-物交互生成的基础资源的效用。为了支持该领域的持续研究，该数据集已在https://github.com/wzyabcas/InterAct上公开提供，并将得到积极维护。

🔬 方法详解

问题定义：现有3D人-物交互（HOI）数据集规模小、质量差，存在接触穿透、漂浮、手部运动不自然等问题，严重制约了HOI生成模型的发展。缺乏高质量、大规模的数据集是当前HOI研究的主要瓶颈。

核心思路：InterAct的核心思路是构建一个大规模、高质量的3D HOI数据集，并通过统一的生成建模框架来提升HOI生成的性能。通过整合多源数据、优化数据质量、并利用接触不变性进行数据增强，从而克服现有数据集的局限性。

技术框架：InterAct的整体框架包含三个主要部分：1) 数据集构建：整合来自不同来源的HOI数据，进行标准化处理，并添加详细的文本标注。2) 数据优化：提出统一的优化框架，减少数据中的伪影，纠正手部运动，提高数据质量。3) 数据增强：利用接触不变性原则，在保持人-物关系不变的前提下，引入运动变化，扩充数据集。此外，还定义了六个基准测试任务，并提出了统一的HOI生成建模视角。

关键创新：InterAct的关键创新在于：1) 构建了一个大规模、高质量的3D HOI数据集，解决了数据稀缺的问题。2) 提出了一个统一的优化框架，有效减少了数据中的伪影，提高了数据质量。3) 利用接触不变性进行数据增强，在不破坏人-物关系的前提下，扩充了数据集。4) 提出了统一的HOI生成建模视角，为HOI生成任务提供了一个新的研究方向。

关键设计：InterAct在数据优化阶段，设计了基于接触不变性的优化策略，具体来说，通过优化人体和物体的位置和姿态，使得它们之间的接触关系更加自然合理。在数据增强阶段，利用接触不变性，通过改变人体和物体的运动轨迹，生成新的HOI数据。具体的参数设置和损失函数细节在论文中进行了详细描述（未知）。

🖼️ 关键图片

📊 实验亮点

InterAct数据集包含21.81小时的原始HOI数据，经过优化和增强后扩展到30.70小时。论文在六个基准测试任务上验证了InterAct数据集的有效性，并表明基于InterAct训练的模型能够取得state-of-the-art的性能。具体性能提升数据未知，但实验结果表明InterAct是HOI生成研究的重要资源。

🎯 应用场景

InterAct数据集和方法可以广泛应用于虚拟现实、增强现实、机器人控制、游戏开发等领域。高质量的HOI数据能够提升虚拟角色的交互真实感，帮助机器人更好地理解和执行与物体的交互任务，并为游戏开发者提供更丰富的动画资源。该研究有望推动人机交互和智能体行为建模的发展。

📄 摘要（原文）

While large-scale human motion capture datasets have advanced human motion generation, modeling and generating dynamic 3D human-object interactions (HOIs) remain challenging due to dataset limitations. Existing datasets often lack extensive, high-quality motion and annotation and exhibit artifacts such as contact penetration, floating, and incorrect hand motions. To address these issues, we introduce InterAct, a large-scale 3D HOI benchmark featuring dataset and methodological advancements. First, we consolidate and standardize 21.81 hours of HOI data from diverse sources, enriching it with detailed textual annotations. Second, we propose a unified optimization framework to enhance data quality by reducing artifacts and correcting hand motions. Leveraging the principle of contact invariance, we maintain human-object relationships while introducing motion variations, expanding the dataset to 30.70 hours. Third, we define six benchmarking tasks and develop a unified HOI generative modeling perspective, achieving state-of-the-art performance. Extensive experiments validate the utility of our dataset as a foundational resource for advancing 3D human-object interaction generation. To support continued research in this area, the dataset is publicly available at https://github.com/wzyabcas/InterAct, and will be actively maintained.

InterAct: Advancing Large-Scale Versatile 3D Human-Object Interaction Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理