CHOIR: Contact-aware 4D Hand-Object Interaction Reconstruction
作者: Hao Xu, Yilin Liu, Yinqiao Wang, Chi-Wing Fu, Niloy J. Mitra
分类: cs.CV
发布日期: 2026-05-20
💡 一句话要点
CHOIR:提出接触感知的4D手-物交互重建框架,从单目视频中提取可复用的交互原语。
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱五:交互与反应 (Interaction & Reaction)
关键词: 手-物交互 4D重建 单目视觉 接触感知 联合优化
📋 核心要点
- 现有HOI重建方法在开放场景单目视频中表现不佳,主要受限于对已知物体的假设和手-物体的易错位问题。
- CHOIR框架利用接触作为手和物体之间的显式耦合信号,通过接触感知的联合优化来提升重建效果。
- 实验结果表明,CHOIR在物体重建、物理合理性和时间一致性方面优于现有技术水平的方法。
📝 摘要(中文)
本文旨在将日常开放场景的单目视频转化为可复用的4D交互原语,包括:铰接手部运动、物体形状及其随时间的6D姿态,以及接触发生的时间和位置。这种能力将支持真实交互的可扩展挖掘,并超越重建,支持场景感知的合成和规划。然而,从具有挑战性的单目视频中重建手-物交互(HOI)仍然很困难:现有方法通常假设已知物体或精心设计的场景,并且单独估计的手和物体在杂乱、遮挡和未见过的物体几何形状下容易错位。针对这种情况,我们提出了CHOIR,一个接触感知的HOI重建框架,用于单目相机,使用接触作为手和物体之间的显式耦合信号。CHOIR首先从开放世界的视觉先验中初始化一个粗略的、接触无关的4D HOI序列。然后,它引入了一个生成式HOI空间校正模块来预测光线深度校正并校正手-物相对位置,然后推导出校正几何体上的初始每帧接触对应关系。最后,一个接触感知的联合优化,通过动态更新的接触约束,强制执行几何、时间和接触一致性。在受控和具有挑战性的视频上的实验表明,与最先进的方法相比,CHOIR提高了物体重建、物理合理性和时间一致性。
🔬 方法详解
问题定义:论文旨在解决从开放世界单目视频中精确重建4D手-物交互(HOI)的问题。现有方法通常依赖于已知物体模型或在受控环境中进行,难以处理真实场景中的遮挡、杂乱和未见过的物体几何形状,导致手和物体重建结果错位,缺乏物理合理性和时间一致性。
核心思路:论文的核心思路是将手和物体之间的“接触”作为显式的耦合信号,通过接触感知的联合优化来约束手和物体的相对位置和运动。利用接触信息可以有效地减少重建过程中的歧义性,提高重建的准确性和鲁棒性。
技术框架:CHOIR框架包含三个主要模块:1) 粗略HOI序列初始化:利用开放世界的视觉先验知识,初始化一个粗略的、接触无关的4D HOI序列。2) HOI空间校正模块:通过生成式模型预测光线深度校正,校正手和物体的相对位置,并推导出初始的每帧接触对应关系。3) 接触感知的联合优化:通过动态更新的接触约束,强制执行几何、时间和接触一致性,最终得到精确的4D HOI重建结果。
关键创新:该论文的关键创新在于将接触信息显式地融入到HOI重建过程中,并设计了相应的接触感知的联合优化方法。与现有方法相比,CHOIR能够更好地处理遮挡、杂乱和未见过的物体几何形状等挑战,从而提高重建的准确性和鲁棒性。
关键设计:HOI空间校正模块使用生成式模型预测光线深度校正,具体网络结构未知。接触感知的联合优化使用动态更新的接触约束,具体约束形式未知。损失函数包括几何一致性损失、时间一致性损失和接触一致性损失,具体形式未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CHOIR在受控和具有挑战性的视频上均取得了显著的性能提升。与现有最先进的方法相比,CHOIR在物体重建、物理合理性和时间一致性方面均有明显改善,但具体量化数据未知。
🎯 应用场景
该研究成果可应用于机器人操作、虚拟现实/增强现实、人机交互等领域。例如,可以利用重建的4D HOI数据训练机器人,使其能够更好地理解和执行复杂的操作任务。此外,还可以将该技术应用于虚拟现实/增强现实游戏中,增强用户的交互体验。
📄 摘要(原文)
We ask whether everyday open-world monocular videos can be turned into reusable 4D interaction primitives: articulated hand motion, object shape with 6D pose over time, and the when/where of contact. Such a capability would enable scalable mining of real interactions and, beyond reconstruction, support scene-aware synthesis and planning. However, reconstructing hand-object interaction (HOI) from challenging monocular videos remains difficult: methods often assume known objects or curated scenes, and separately estimated hands and objects easily become misaligned under clutter, occlusion, and unseen object geometries. Targeting this setting, we present CHOIR, a Contact-aware HOI Reconstruction framework for a monocular camera, using contact as an explicit coupling signal between hands and objects. CHOIR first initializes a coarse, contact-agnostic 4D HOI sequence from open-world visual priors. It then introduces a generative HOI spatial rectification module to predict ray-depth corrections and rectify hand-object relative placement, then derive initial per-frame contact correspondences on the rectified geometry. Last, a contact-aware joint optimization with dynamically updated contact constraints enforces geometric, temporal, and contact consistency. Experiments on controlled and challenging videos show that CHOIR improves object reconstruction, physical plausibility, and temporal consistency over state-of-the-art methods.