MaMi-HOI: Harmonizing Global Kinematics and Local Geometry for Human-Object Interaction Generation

📄 arXiv: 2605.05756v1 📥 PDF

作者: Hao Wang, Shiqi Wang, Qi Liu

分类: cs.RO, cs.CV

发布日期: 2026-05-07

🔗 代码/项目: GITHUB


💡 一句话要点

MaMi-HOI:协调全局运动学与局部几何,生成逼真的人-物交互

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人-物交互生成 扩散模型 几何遗忘 运动学和谐 几何感知 具身智能 三维场景 分层适配器

📋 核心要点

  1. 现有3D人-物交互生成方法难以在保证语义合理性的同时,维持精确的物体接触,存在“几何遗忘”问题。
  2. MaMi-HOI通过分层框架,协调宏观运动学流畅性和微观空间精确性,解决几何遗忘问题,实现自然运动和精确接触。
  3. 实验表明,MaMi-HOI在人-物交互生成任务中表现出色,并能扩展到具有复杂轨迹的长期任务。

📝 摘要(中文)

生成逼真的3D人-物交互(HOI)是具身智能到虚拟内容创建等应用的基础任务,它需要协调高层语义意图与严格的底层物理约束。现有方法擅长语义对齐,但难以维持精确的物体接触。我们揭示了一个关键发现,即“几何遗忘”:随着扩散模型深度的增加,语义特征往往会掩盖物体几何特征,导致模型失去对物体几何的感知。为了解决这个问题,我们提出了MaMi-HOI,一个分层框架,协调宏观层面的运动学流畅性与微观层面的空间精确性。首先,为了对抗几何遗忘,我们引入了几何感知邻近适配器(GAPA),它显式地重新注入密集的物体细节,以执行残差捕捉校正,从而实现精确接触。然而,这种激进的局部强制可能会扰乱全局动力学,导致机械僵硬。为此,我们引入了运动学和谐适配器(KHA),它主动地将全身姿势与空间目标对齐,确保骨骼在不影响自然性的前提下主动适应约束。大量的实验验证了MaMi-HOI同时实现了自然的运动和精确的接触。至关重要的是,它将生成能力扩展到具有复杂轨迹的长期任务,有效地弥合了3D场景中全局导航和高保真操作之间的差距。

🔬 方法详解

问题定义:现有3D人-物交互生成方法在生成过程中,随着模型深度的增加,容易忽略物体几何信息,导致生成的交互不自然,物体接触不精确,即存在“几何遗忘”问题。现有方法难以同时保证全局运动的自然性和局部接触的精确性。

核心思路:MaMi-HOI的核心思路是通过分层适配器来分别处理全局运动学和局部几何约束。首先,使用几何感知邻近适配器(GAPA)来显式地重新注入物体几何信息,以实现精确的物体接触。然后,使用运动学和谐适配器(KHA)来调整全身姿势,以保证运动的自然性,避免因局部约束而导致的僵硬。

技术框架:MaMi-HOI是一个分层框架,包含两个主要模块:几何感知邻近适配器(GAPA)和运动学和谐适配器(KHA)。GAPA负责在局部层面增强模型对物体几何的感知,从而实现精确的物体接触。KHA负责在全局层面协调全身姿势,以保证运动的自然性。整个框架通过迭代优化,最终生成既自然又精确的人-物交互。

关键创新:MaMi-HOI的关键创新在于提出了“几何遗忘”的概念,并设计了相应的适配器来解决这个问题。GAPA通过显式地重新注入物体几何信息,有效地缓解了几何遗忘问题。KHA通过协调全身姿势,避免了因局部约束而导致的运动僵硬。这种分层适配器的设计思想是MaMi-HOI的核心创新。

关键设计:GAPA的具体实现方式是使用残差连接,将密集的物体几何特征重新注入到扩散模型的中间层。KHA的具体实现方式是使用一个额外的网络来预测全身姿势,并将其与空间目标对齐。损失函数的设计包括接触损失、运动学损失和姿势损失等,以保证生成的交互既精确又自然。具体的参数设置和网络结构在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MaMi-HOI在人-物交互生成任务中取得了显著的性能提升,能够生成既自然又精确的交互动画。与现有方法相比,MaMi-HOI在接触精度和运动自然性方面均有明显优势。此外,MaMi-HOI还能够扩展到具有复杂轨迹的长期任务中,有效地弥合了3D场景中全局导航和高保真操作之间的差距。具体性能数据和对比基线在论文中有详细描述。

🎯 应用场景

MaMi-HOI在具身智能、虚拟内容创建、游戏开发、机器人操作等领域具有广泛的应用前景。它可以用于生成逼真的人-物交互动画,提高虚拟环境的真实感和交互性。此外,MaMi-HOI还可以用于训练机器人,使其能够更好地与环境中的物体进行交互,完成各种复杂的操作任务。未来,该研究可以进一步扩展到更复杂的场景和任务中,例如多人交互、复杂物体操作等。

📄 摘要(原文)

Generating realistic 3D Human-Object Interactions (HOI) is a fundamental task for applications ranging from embodied AI to virtual content creation, which requires harmonizing high-level semantic intent with strict low-level physical constraints. Existing methods excel at semantic alignment, however, they struggle to maintain precise object contact. We reveal a key finding termed \textit{Geometric Forgetting}: as diffusion model depth increases, semantic feature tend to overshadow object geometry feature, causing the model to lose its perception to object geometry. To address this, we propose MaMi-HOI, a hierarchical framework reconciling \textbf{Ma}cro-level kinematic fluidity with \textbf{Mi}cro-level spatial precision. First, to counteract geometric forgetting, we introduce the Geometry-Aware Proximity Adapter (GAPA), which explicitly re-injects dense object details to perform residual snapping corrections for precise contact. Nevertheless, such aggressive local enforcement can disrupt global dynamics, leading to robotic stiffness. In response, we introduce the Kinematic Harmony Adapter (KHA), which proactively aligns whole-body posture with spatial objectives, ensuring the skeleton actively accommodates constraints without compromising naturalness. Extensive experiments validate that MaMi-HOI simultaneously achieves natural motion and precise contact. Crucially, it extends generation capabilities to long-term tasks with complex trajectories, effectively bridging the gap between global navigation and high-fidelity manipulation in 3D scenes. Code is available at https://github.com/DON738110198/MaMi-HOI.git