Dex2HOI: Dexterous Bimanual Two-Object Interaction Generation

作者: Chrysa Pratikaki, Pablo Ruiz-Ponce, Jiankang Deng, Stefanos Zafeiriou, Rolandos Alexandros Potamias

分类: cs.CV

发布日期: 2026-05-28

💡 一句话要点

Dex2HOI：提出双流扩散模型，用于生成灵巧的双手双物体交互动作

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱四：生成式动作 (Generative Motion) 支柱五：交互与反应 (Interaction & Reaction) 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation)

关键词: 人-物交互 HOI生成 扩散模型 双手操作 多物体交互 动作生成 双流网络

📋 核心要点

现有4D人-物交互生成方法主要关注单物体操作，忽略了人类自然地协调双手并同时操作多个物体的行为。
Dex2HOI采用双流扩散方法，为每个物体设置独立的交互流，并通过双向交叉注意力机制协调双手与多个物体的交互。
实验表明，Dex2HOI在单物体和双物体HOI生成任务上均取得了领先的性能，并实现了高达540倍的推理加速。

📝 摘要（中文）

本文提出Dex2HOI，一个统一的扩散模型，用于从文本生成单物体和双物体的HOI（Human-Object Interaction）动作。Dex2HOI的核心是双流扩散方法，其中每个物体在专用的交互流中处理，并通过双向交叉注意力进行协调。为了合成最终的动作，引入了运动融合网络，该网络集成了新的手部相对物体表示和跨整个序列的应用于接触感知的条件。通过在以先前窗口为条件的自回归方式采样扩散过程，Dex2HOI能够以实时速度生成任意长度的序列，无需冗余的测试时优化，与现有最先进方法相比，推理速度提高了高达540倍。在单物体和双物体基准上的大量评估表明，该方法取得了最先进的定量结果，标志着超越了传统的单物体HOI生成，并朝着富有表现力的多物体操作迈进了一步。

🔬 方法详解

问题定义：现有的人-物交互（HOI）生成方法主要集中在单物体操作上，忽略了人类在日常生活中经常同时使用双手与多个物体进行交互的场景。这些方法无法有效地建模双手之间的协调以及多个物体之间的关系，导致生成的交互动作不够自然和真实。

核心思路：Dex2HOI的核心思路是采用双流扩散模型，为每个物体创建一个独立的交互流，分别处理与该物体的交互信息。通过双向交叉注意力机制，实现两个交互流之间的信息交换和融合，从而建模双手之间的协调以及多个物体之间的关系。此外，还引入了运动融合网络，将手部相对物体表示和接触感知信息融入到动作生成过程中，进一步提升了生成动作的真实性和自然性。

技术框架：Dex2HOI的整体框架包括以下几个主要模块：1) 双流扩散模型：分别处理两个物体的交互信息。2) 双向交叉注意力机制：实现两个交互流之间的信息交换和融合。3) 运动融合网络：将手部相对物体表示和接触感知信息融入到动作生成过程中。4) 自回归采样：通过在以先前窗口为条件的自回归方式采样扩散过程，生成任意长度的序列。

关键创新：Dex2HOI的关键创新在于：1) 提出了双流扩散模型，能够有效地建模双手与多个物体之间的交互关系。2) 引入了手部相对物体表示和接触感知信息，提升了生成动作的真实性和自然性。3) 采用自回归采样方式，实现了实时速度的动作生成，无需冗余的测试时优化。

关键设计：在双流扩散模型中，每个交互流都包含一个扩散过程，用于逐步生成与该物体相关的动作信息。双向交叉注意力机制通过计算两个交互流之间的注意力权重，实现信息交换和融合。运动融合网络采用Transformer结构，将手部相对物体表示和接触感知信息作为输入，生成最终的动作序列。自回归采样过程中，窗口大小和采样步长是重要的参数，需要根据具体任务进行调整。

🖼️ 关键图片

📊 实验亮点

Dex2HOI在单物体和双物体HOI生成任务上均取得了最先进的定量结果。与现有方法相比，Dex2HOI在生成动作的真实性和自然性方面有显著提升。更重要的是，Dex2HOI实现了高达540倍的推理加速，使其能够以实时速度生成任意长度的序列，这对于实际应用至关重要。

🎯 应用场景

Dex2HOI具有广泛的应用前景，例如虚拟现实/增强现实（VR/AR）、游戏开发、机器人控制和人机交互等领域。它可以用于生成逼真的人类与多个物体交互的动画，提升VR/AR体验的沉浸感。在机器人控制领域，Dex2HOI可以作为机器人的动作规划器，使其能够执行复杂的双手操作任务。此外，该研究还可以促进对人类认知和运动控制的理解。

📄 摘要（原文）

Recent advances in 4D Human-Object Interaction (HOI) generation have enabled increasingly realistic motion synthesis, particularly for single-object manipulation. Yet current research overlooks an inherent property of human behavior: people naturally coordinate both hands and manipulate multiple objects simultaneously. To address this gap, we present Dex2HOI, a unified diffusion model for single- and two-object HOI synthesis from text. At its core, Dex2HOI employs a Dual-Stream Diffusion approach, where each object is processed in a dedicated interaction stream and coordinated through bidirectional cross-attention. To synthesize the final motion, we introduce a Motion Fusion Network integrated with novel hand-relative object representations and contact-aware conditioning applied across the whole sequence. By sampling the diffusion process autoregressively over prefix-conditioned windows, Dex2HOI generates arbitrarily long sequences at real-time speed omitting redundant test-time optimization, achieving up to x540 inference speed-up over prior state-of-the-art methods. Extensive evaluation on both single- and two-object benchmarks demonstrates state-of-the-art quantitative results, marking a step beyond conventional single-object HOI generation and toward expressive multi-object manipulation. Code and models will be released upon acceptance.

Dex2HOI: Dexterous Bimanual Two-Object Interaction Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理