HOIGS: Human-Object Interaction Gaussian Splatting
作者: Taewoo Kim, Suwoong Yeom, Jaehyun Pyun, Geonho Cha, Dongyoon Wee, Joonsik Nam, Yun-Seong Jeong, Kyeongbo Kong, Suk-Ju Kang
分类: cs.CV, cs.AI
发布日期: 2026-04-07
💡 一句话要点
HOIGS:提出基于高斯溅射的人-物交互动态场景重建方法
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱五:交互与反应 (Interaction & Reaction)
关键词: 高斯溅射 人-物交互 动态场景重建 交叉注意力 形变估计
📋 核心要点
- 现有动态场景重建方法难以有效处理复杂人-物交互,限制了重建质量。
- HOIGS通过交叉注意力机制建模人-物交互形变,融合异构特征。
- 实验表明,HOIGS在多种数据集上优于现有方法,提升了重建保真度。
📝 摘要(中文)
动态场景重建,特别是包含复杂人-物交互的场景,是计算机视觉和图形学领域的一个根本性挑战。现有的高斯溅射方法要么依赖于人体姿态先验而忽略动态物体,要么将所有运动近似为单个场,限制了它们捕捉交互丰富动态的能力。为了解决这一问题,我们提出了人-物交互高斯溅射(HOIGS),它通过基于交叉注意力的HOI模块显式地建模人与物体之间交互引起的形变。采用不同的形变基线来提取特征:HexPlane用于人,Cubic Hermite Spline (CHS)用于物体。通过整合这些异构特征,HOIGS有效地捕捉了相互依赖的运动,并提高了在遮挡、接触和物体操作场景中的形变估计。在多个数据集上的综合实验表明,我们的方法始终优于最先进的以人为中心和4D高斯方法,突出了显式建模人-物交互对于高保真重建的重要性。
🔬 方法详解
问题定义:现有方法在重建包含复杂人-物交互的动态场景时,要么依赖人体姿态先验而忽略动态物体,要么将所有运动近似为单个场,无法有效捕捉交互带来的形变,导致重建质量下降。尤其是在遮挡、接触和物体操作等复杂场景中,问题更加突出。
核心思路:HOIGS的核心思路是显式地建模人与物体之间的交互关系,并利用这些关系来指导形变估计。通过引入交叉注意力机制,HOIGS能够学习人与物体之间的依赖关系,从而更准确地预测它们各自的运动和形变。
技术框架:HOIGS的整体框架包括以下几个主要模块:1) 特征提取模块:分别使用HexPlane和Cubic Hermite Spline (CHS)提取人和物体的特征。2) HOI模块:基于交叉注意力机制,融合人和物体的特征,建模人-物交互关系。3) 形变估计模块:利用HOI模块的输出,估计人和物体的形变。4) 高斯溅射渲染模块:基于估计的形变,进行高斯溅射渲染,生成最终的重建结果。
关键创新:HOIGS的关键创新在于显式地建模人-物交互关系。与现有方法不同,HOIGS没有将人和物体的运动视为独立的,而是通过交叉注意力机制学习它们之间的依赖关系。这种显式建模使得HOIGS能够更准确地预测人和物体的形变,从而提高重建质量。此外,针对人和物体分别使用HexPlane和CHS作为形变基线,也更符合实际情况。
关键设计:HOIGS的关键设计包括:1) 交叉注意力机制的设计,用于学习人与物体之间的依赖关系。2) HexPlane和CHS的选择,分别作为人和物体的形变基线。3) 损失函数的设计,用于优化模型的参数,包括重建损失、正则化损失等。具体的参数设置和网络结构细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
HOIGS在多个数据集上进行了实验,结果表明,HOIGS consistently outperforms state-of-the-art human-centric and 4D Gaussian approaches。具体来说,HOIGS在重建质量方面取得了显著的提升,尤其是在遮挡、接触和物体操作等复杂场景中。实验结果验证了显式建模人-物交互对于高保真重建的重要性。
🎯 应用场景
HOIGS在虚拟现实、增强现实、游戏开发、电影制作等领域具有广泛的应用前景。它可以用于创建更加逼真和自然的虚拟场景,提升用户体验。此外,HOIGS还可以应用于机器人控制、人机交互等领域,帮助机器人更好地理解和操作物体。
📄 摘要(原文)
Reconstructing dynamic scenes with complex human-object interactions is a fundamental challenge in computer vision and graphics. Existing Gaussian Splatting methods either rely on human pose priors while neglecting dynamic objects, or approximate all motions within a single field, limiting their ability to capture interaction-rich dynamics. To address this gap, we propose Human-Object Interaction Gaussian Splatting (HOIGS), which explicitly models interaction-induced deformation between humans and objects through a cross-attention-based HOI module. Distinct deformation baselines are employed to extract features: HexPlane for humans and Cubic Hermite Spline (CHS) for objects. By integrating these heterogeneous features, HOIGS effectively captures interdependent motions and improves deformation estimation in scenarios involving occlusion, contact, and object manipulation. Comprehensive experiments on multiple datasets demonstrate that our method consistently outperforms state-of-the-art human-centric and 4D Gaussian approaches, highlighting the importance of explicitly modeling human-object interactions for high-fidelity reconstruction.