ArtHOI: Taming Foundation Models for Monocular 4D Reconstruction of Hand-Articulated-Object Interactions
作者: Zikai Wang, Zhilu Zhang, Yiqing Wang, Hui Li, Wangmeng Zuo
分类: cs.CV
发布日期: 2026-03-26
备注: Accepted to CVPR 2026
💡 一句话要点
ArtHOI:利用基础模型进行单目4D手部-可动物体交互重建
🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 4D重建 手部-物体交互 基础模型 单目视频 多模态学习
📋 核心要点
- 现有HOI方法难以处理可动物体,且4D重建常依赖预扫描或多视角视频,单目RGB视频重建4D交互是挑战。
- ArtHOI框架整合并优化多个基础模型的先验知识,解决不准确性和物理不真实性问题。
- 提出自适应采样细化(ASR)和多模态大型语言模型(MLLM)引导的对齐方法,并在新数据集上验证有效性。
📝 摘要(中文)
现有的手部-物体交互(HOI)方法主要局限于刚性物体,而可动物体的4D重建方法通常需要预先扫描物体,甚至需要多视角视频。从单个单目RGB视频中重建4D人手-可动物体交互仍然是一个未被探索但意义重大的挑战。幸运的是,最近基础模型的进步为解决这个高度不适定的问题提供了一个新的机会。为此,我们提出了ArtHOI,一个基于优化的框架,它整合和细化了来自多个基础模型的先验知识。我们的主要贡献是一套新颖的方法,旨在解决这些先验知识中固有的不准确性和物理不真实性。特别地,我们引入了一种自适应采样细化(ASR)方法来优化物体的度量尺度和姿态,以便将其归一化的网格在世界坐标系中定位。此外,我们提出了一种多模态大型语言模型(MLLM)引导的手部-物体对齐方法,利用接触推理信息作为手部-物体网格组合优化的约束。为了方便全面的评估,我们还贡献了两个新的数据集,ArtHOI-RGBD和ArtHOI-Wild。大量的实验验证了我们的ArtHOI在不同的物体和交互中的鲁棒性和有效性。
🔬 方法详解
问题定义:论文旨在解决从单目RGB视频中重建人手与可动物体交互的4D模型问题。现有方法主要局限于刚性物体,或者需要预先扫描物体模型,无法有效处理单目视频中的复杂交互场景。痛点在于缺乏有效的先验知识和约束,导致重建结果不准确、物理不真实。
核心思路:论文的核心思路是利用近年来发展迅速的基础模型,从中提取有用的先验知识,并通过优化方法来修正这些先验知识中的不准确性和物理不真实性。通过结合多种模态的信息,例如视觉信息和语言信息,来提升重建的准确性和鲁棒性。
技术框架:ArtHOI框架主要包含以下几个阶段:1) 从基础模型中提取初始的物体形状、姿态和手部姿态等先验信息;2) 使用自适应采样细化(ASR)方法优化物体的度量尺度和姿态,将物体网格定位到世界坐标系中;3) 利用多模态大型语言模型(MLLM)引导手部-物体对齐,使用接触推理信息作为约束,优化手部和物体的网格组合;4) 通过优化算法,迭代地更新手部和物体的姿态和形状,最终得到高质量的4D重建结果。
关键创新:论文的关键创新在于:1) 提出了一种自适应采样细化(ASR)方法,能够有效地优化物体的尺度和姿态,解决基础模型输出的尺度不确定性问题;2) 提出了一种多模态大型语言模型(MLLM)引导的手部-物体对齐方法,利用语言信息作为约束,提升了手部和物体对齐的准确性;3) 构建了两个新的数据集ArtHOI-RGBD和ArtHOI-Wild,为该领域的研究提供了新的benchmark。
关键设计:ASR方法通过采样不同的尺度和姿态参数,并计算相应的损失函数,选择最优的参数。MLLM引导的对齐方法,使用预训练的MLLM模型来预测手部和物体之间的接触关系,并将这些接触关系作为约束条件,加入到优化目标函数中。损失函数包括形状损失、姿态损失、接触损失等,用于约束重建结果的准确性和物理真实性。具体参数设置未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ArtHOI在ArtHOI-RGBD和ArtHOI-Wild两个数据集上都取得了显著的性能提升。与现有方法相比,ArtHOI能够更准确地重建手部和可动物体的4D模型,尤其是在处理复杂交互场景时。具体性能数据未知,但论文强调了其在不同物体和交互上的鲁棒性和有效性。
🎯 应用场景
该研究成果可应用于人机交互、虚拟现实、增强现实、机器人操作等领域。例如,可以用于创建更逼真的虚拟环境,让用户能够与虚拟物体进行自然交互。在机器人领域,可以帮助机器人理解和模仿人类的手部动作,从而实现更复杂的操作任务。此外,该技术还可以用于康复训练,帮助患者恢复手部功能。
📄 摘要(原文)
Existing hand-object interactions (HOI) methods are largely limited to rigid objects, while 4D reconstruction methods of articulated objects generally require pre-scanning the object or even multi-view videos. It remains an unexplored but significant challenge to reconstruct 4D human-articulated-object interactions from a single monocular RGB video. Fortunately, recent advancements in foundation models present a new opportunity to address this highly ill-posed problem. To this end, we introduce ArtHOI, an optimization-based framework that integrates and refines priors from multiple foundation models. Our key contribution is a suite of novel methodologies designed to resolve the inherent inaccuracies and physical unreality of these priors. In particular, we introduce an Adaptive Sampling Refinement (ASR) method to optimize object's metric scale and pose for grounding its normalized mesh in world space. Furthermore, we propose a Multimodal Large Language Model (MLLM) guided hand-object alignment method, utilizing contact reasoning information as constraints of hand-object mesh composition optimization. To facilitate a comprehensive evaluation, we also contribute two new datasets, ArtHOI-RGBD and ArtHOI-Wild. Extensive experiments validate the robustness and effectiveness of our ArtHOI across diverse objects and interactions. Project: https://arthoi-reconstruction.github.io.