CARI4D: Category Agnostic 4D Reconstruction of Human-Object Interaction
作者: Xianghui Xie, Bowen Wen, Yan Chang, Hesam Rabeti, Jiefeng Li, Ye Yuan, Gerard Pons-Moll, Stan Birchfield
分类: cs.CV
发布日期: 2025-12-12
备注: 14 pages, 8 figures, 4 tables. Project page: https://nvlabs.github.io/CARI4D/
💡 一句话要点
CARI4D:提出一种类别无关的4D人-物交互重建方法,解决单目RGB视频重建难题。
🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction)
关键词: 4D重建 人-物交互 类别无关 单目视觉 渲染-比较 物理约束 基础模型
📋 核心要点
- 现有方法在4D人-物交互重建中,依赖物体模板或限制物体类别,难以处理真实场景的复杂性和多样性。
- CARI4D通过整合基础模型的预测,并利用渲染-比较范例进行联合优化,实现空间、时间和像素级别的一致性。
- 实验结果表明,CARI4D在重建精度上显著优于现有技术,并在未见数据集上表现出良好的泛化能力。
📝 摘要(中文)
本文提出CARI4D,一种类别无关的方法,用于从单目RGB视频中以度量尺度重建空间和时间上一致的4D人-物交互。由于未知物体和人体信息、深度模糊、遮挡和复杂运动,从单个RGB视图推断4D交互极具挑战性,阻碍了一致的3D和时间重建。先前的方法通过假设ground truth物体模板或限制于有限的物体类别来简化设置。CARI4D通过稳健地整合来自基础模型的个体预测,并通过学习到的渲染-比较范例联合细化它们,以确保空间、时间和像素对齐,最后推理复杂的接触以进一步细化,从而满足物理约束。实验表明,我们的方法在同分布数据集上优于现有技术38%,在未见数据集上优于现有技术36%。我们的模型可以泛化到训练类别之外,因此可以零样本应用于野外互联网视频。代码和预训练模型将公开发布。
🔬 方法详解
问题定义:现有方法在单目RGB视频中重建4D人-物交互时,面临物体类别未知、深度模糊、遮挡以及复杂运动等挑战,导致重建结果在空间和时间上不一致。之前的研究通常依赖于已知的物体模板或者将物体类别限制在一个较小的集合内,这限制了它们在真实世界场景中的应用。
核心思路:CARI4D的核心思路是利用预训练的基础模型提供初始的人体和物体姿态估计,然后通过一个可学习的渲染-比较框架,对这些估计进行联合优化,以确保重建结果在空间、时间和像素级别上的一致性。此外,模型还显式地推理人与物体之间的接触关系,并利用物理约束进一步提升重建质量。
技术框架:CARI4D的整体框架包含以下几个主要模块:1) 姿态假设生成:利用预训练的基础模型(如人体姿态估计器和物体检测器)生成初始的人体和物体姿态假设。2) 联合优化:通过一个可学习的渲染-比较框架,对人体和物体的姿态进行联合优化。该框架通过渲染重建结果,并将其与原始图像进行比较,计算损失函数,从而驱动姿态的优化。3) 接触推理:显式地推理人与物体之间的接触关系,并利用物理约束进一步提升重建质量。
关键创新:CARI4D的关键创新在于其类别无关的重建能力和端到端的优化框架。与以往依赖物体模板或限制物体类别的方法不同,CARI4D可以处理任意类别的物体,从而具有更强的泛化能力。此外,CARI4D通过端到端的优化框架,将人体和物体的姿态估计、渲染和比较以及接触推理整合在一起,从而实现更准确和一致的重建结果。
关键设计:在渲染-比较框架中,使用了可微分渲染器,允许梯度从像素空间反向传播到姿态参数。损失函数包括像素级别的图像重建损失、3D几何一致性损失和时间一致性损失。此外,还设计了一个接触损失,用于鼓励模型学习人与物体之间的合理接触关系。网络结构方面,使用了Transformer网络来建模人体和物体之间的关系,并利用图神经网络来推理接触关系。
📊 实验亮点
CARI4D在同分布数据集上相比现有技术提升了38%的重建精度,在未见数据集上提升了36%。这表明CARI4D不仅在训练数据上表现出色,而且具有良好的泛化能力,能够处理各种真实世界的场景。该模型还能够零样本应用于互联网视频,无需针对特定场景进行训练。
🎯 应用场景
CARI4D在人机交互、游戏、机器人学习等领域具有广泛的应用前景。例如,可以用于创建更逼真和自然的虚拟现实体验,训练机器人进行复杂的人-物交互任务,以及分析人类行为和姿态。该研究的突破为更智能、更具适应性的人工智能系统铺平了道路。
📄 摘要(原文)
Accurate capture of human-object interaction from ubiquitous sensors like RGB cameras is important for applications in human understanding, gaming, and robot learning. However, inferring 4D interactions from a single RGB view is highly challenging due to the unknown object and human information, depth ambiguity, occlusion, and complex motion, which hinder consistent 3D and temporal reconstruction. Previous methods simplify the setup by assuming ground truth object template or constraining to a limited set of object categories. We present CARI4D, the first category-agnostic method that reconstructs spatially and temporarily consistent 4D human-object interaction at metric scale from monocular RGB videos. To this end, we propose a pose hypothesis selection algorithm that robustly integrates the individual predictions from foundation models, jointly refine them through a learned render-and-compare paradigm to ensure spatial, temporal and pixel alignment, and finally reasoning about intricate contacts for further refinement satisfying physical constraints. Experiments show that our method outperforms prior art by 38% on in-distribution dataset and 36% on unseen dataset in terms of reconstruction error. Our model generalizes beyond the training categories and thus can be applied zero-shot to in-the-wild internet videos. Our code and pretrained models will be publicly released.