StructBiHOI: Structured Articulation Modeling for Long--Horizon Bimanual Hand--Object Interaction Generation

📄 arXiv: 2603.08390v1 📥 PDF

作者: Zhi Wang, Liu Liu, Ruonan Liu, Dan Guo, Meng Wang

分类: cs.RO, cs.CV

发布日期: 2026-03-09


💡 一句话要点

StructBiHOI:用于长时程双手-物体交互生成的结构化关节建模框架

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 双手操作 人手-物体交互 长时程规划 关节建模 扩散模型

📋 核心要点

  1. 现有方法在长时程双手-物体交互生成中,难以同时保证时间一致性、物理合理性和语义对齐,面临诸多挑战。
  2. StructBiHOI通过结构化解耦时间关节规划和帧级操作细化,实现连贯的双手动协调和铰接物体交互。
  3. 实验结果表明,StructBiHOI在长时程稳定性、运动真实性和计算效率方面优于现有方法。

📝 摘要(中文)

现有的3D手-物体交互(HOI)生成主要集中在单手抓取合成上,而双手操作仍然极具挑战性。长时程规划的不稳定性、精细的关节运动以及复杂的手间协调使得连贯的双手生成变得困难,尤其是在多模态条件下。现有方法通常难以同时确保时间一致性、物理合理性和语义对齐。我们提出了StructBiHOI,一个用于长时程双手HOI生成的结构化关节建模框架。我们的核心思想是将时间关节规划与帧级操作细化进行结构化解耦。具体来说,jointVAE对以物体几何形状和任务语义为条件的长期关节演化进行建模,而maniVAE在单帧级别细化精细的手部姿势。为了实现稳定高效的长序列生成,我们结合了基于Mamba的状态空间启发式扩散去噪器,该去噪器以线性复杂度对长程依赖关系进行建模。这种分层设计有助于连贯的双手动协调和铰接物体交互。在双手操作和单手抓取基准上的大量实验表明,与强大的基线相比,我们的方法实现了卓越的长时程稳定性、运动真实性和计算效率。

🔬 方法详解

问题定义:论文旨在解决长时程双手与物体交互(BiHOI)生成问题。现有方法在处理此类问题时,面临着长时程规划的不稳定性、精细的关节运动以及复杂的手间协调等挑战,难以保证生成序列的时间一致性、物理合理性和语义对齐。

核心思路:论文的核心思路是将时间上的关节规划与帧级别的操作细化进行解耦。通过这种结构化的解耦,可以分别对长期关节的演化和精细的手部姿势进行建模,从而简化了问题,并提高了生成结果的质量和稳定性。

技术框架:StructBiHOI框架包含两个主要模块:jointVAE和maniVAE。jointVAE负责对长期关节的演化进行建模,其输入包括物体几何形状和任务语义,输出是长期关节运动的规划。maniVAE则负责在单帧级别上细化手部姿势,其输入是jointVAE的输出以及其他相关信息,输出是精细的手部姿势。此外,框架还包含一个基于Mamba的状态空间启发式扩散去噪器,用于建模长程依赖关系,并提高生成序列的稳定性。

关键创新:论文的关键创新在于提出了结构化的关节建模方法,将时间关节规划与帧级操作细化进行解耦。此外,论文还引入了基于Mamba的状态空间启发式扩散去噪器,用于建模长程依赖关系,并提高了生成序列的稳定性。这种分层设计使得模型能够更好地理解和生成复杂的双手与物体交互动作。

关键设计:jointVAE和maniVAE的具体网络结构未知,但可以推断其采用了变分自编码器(VAE)的结构,用于学习关节运动和手部姿势的潜在空间表示。基于Mamba的扩散去噪器是另一个关键设计,它利用了Mamba模型在处理长序列数据方面的优势,能够有效地建模长程依赖关系。损失函数的设计也至关重要,可能包括时间一致性损失、物理合理性损失和语义对齐损失等,以确保生成序列的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,StructBiHOI在双手操作和单手抓取基准测试中均取得了优于现有方法的性能。具体而言,该方法在长时程稳定性、运动真实性和计算效率方面均有显著提升。论文中提到与“强大的基线”相比有提升,但未提供具体数值,因此无法量化提升幅度。

🎯 应用场景

该研究成果可应用于机器人操作、虚拟现实、游戏开发等领域。例如,在机器人操作中,可以利用该方法生成更加自然、流畅的双手操作动作,提高机器人的操作效率和安全性。在虚拟现实和游戏开发中,可以生成更加逼真的手部动画,增强用户的沉浸感和交互体验。未来,该技术有望进一步拓展到人机协作、远程操作等领域。

📄 摘要(原文)

Recent progress in 3D hand--object interaction (HOI) generation has primarily focused on single--hand grasp synthesis, while bimanual manipulation remains significantly more challenging. Long--horizon planning instability, fine--grained joint articulation, and complex cross--hand coordination make coherent bimanual generation difficult, especially under multimodal conditions. Existing approaches often struggle to simultaneously ensure temporal consistency, physical plausibility, and semantic alignment over extended sequences. We propose StructBiHOI, a Structured articulation modeling framework for long-horizon Bimanual HOI generation. Our key insight is to structurally disentangle temporal joint planning from frame--level manipulation refinement. Specifically, a jointVAE models long-term joint evolution conditioned on object geometry and task semantics, while a maniVAE refines fine-grained hand poses at the single--frame level. To enable stable and efficient long--sequence generation, we incorporate a state--space--inspired diffusion denoiser based on Mamba, which models long--range dependencies with linear complexity. This hierarchical design facilitates coherent dual-hand coordination and articulated object interaction. Extensive experiments on bimanual manipulation and single-hand grasping benchmarks demonstrate that our method achieves superior long--horizon stability, motion realism, and computational efficiency compared to strong baselines.