OneHOI: Unifying Human-Object Interaction Generation and Editing

作者: Jiun Tian Hoe, Weipeng Hu, Xudong Jiang, Yap-Peng Tan, Chee Seng Chan

分类: cs.CV, cs.MM

发布日期: 2026-04-15

备注: Accepted at CVPR2026. This paper moves toward unifying HOI generation and editing within a single model

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

OneHOI统一人-物交互生成与编辑，实现混合条件下的场景合成与交互修改。

🎯 匹配领域: 支柱五：交互与反应 (Interaction & Reaction)

关键词: 人-物交互 HOI生成 HOI编辑 扩散模型 Transformer 条件生成 场景合成

📋 核心要点

现有HOI方法割裂了生成与编辑任务，生成方法难以处理混合条件，编辑方法难以解耦姿势与交互。
OneHOI提出统一的扩散Transformer框架，通过共享交互表示，将生成与编辑统一到条件去噪过程。
OneHOI在HOI生成和编辑任务上均取得SOTA结果，验证了统一框架的有效性与优越性。

📝 摘要（中文）

本文提出OneHOI，一个统一的扩散Transformer框架，旨在整合人-物交互(HOI)的生成和编辑任务。现有方法通常将HOI生成（从结构化三元组和布局合成场景）和HOI编辑（通过文本修改交互）视为两个不相交的领域，前者难以整合混合条件（如HOI和仅对象实体），后者难以解耦姿势与物理接触，且难以扩展到多重交互。OneHOI通过共享的结构化交互表示，将HOI生成和编辑统一到一个条件去噪过程中。其核心是关系扩散Transformer (R-DiT)，通过角色和实例感知的HOI tokens、基于布局的空间动作定位、结构化HOI注意力（强制交互拓扑）以及HOI RoPE（解耦多HOI场景）来建模动词介导的关系。OneHOI在HOI-Edit-44K数据集以及HOI和以对象为中心的数据集上进行联合训练，并采用模态dropout，支持布局引导、无布局、任意掩码和混合条件控制，在HOI生成和编辑方面均实现了最先进的结果。

🔬 方法详解

问题定义：现有的人-物交互（HOI）建模方法通常分为两个独立的领域：HOI生成和HOI编辑。HOI生成旨在从结构化的<人，动作，物体>三元组和布局信息合成逼真的场景，但难以整合混合条件，例如同时包含HOI三元组和独立的对象实体。HOI编辑则侧重于通过文本描述来修改现有的交互，但难以将人物姿势与物理接触解耦，并且难以扩展到处理多个交互的复杂场景。这些局限性阻碍了HOI建模的灵活性和实用性。

核心思路：OneHOI的核心思路是将HOI生成和HOI编辑统一到一个单一的条件去噪过程中。通过共享的结构化交互表示，模型能够同时理解和处理HOI三元组、布局信息、文本描述等多种输入条件，从而实现更灵活和可控的HOI建模。这种统一的方法避免了传统方法中生成和编辑任务之间的割裂，使得模型能够更好地利用不同类型的数据和信息。

技术框架：OneHOI的整体框架基于扩散Transformer。该框架包含以下主要模块：1) 关系扩散Transformer (R-DiT)：这是OneHOI的核心模块，用于建模HOI三元组中动词介导的关系。2) 角色和实例感知的HOI tokens：用于表示HOI三元组中的角色（人、物）和实例信息。3) 基于布局的空间动作定位：用于根据布局信息定位动作发生的位置。4) 结构化HOI注意力：用于强制执行交互拓扑结构。5) HOI RoPE：用于解耦多HOI场景。模型首先将输入条件（如HOI三元组、布局、文本）编码为相应的tokens，然后通过R-DiT进行扩散和去噪，最终生成或编辑HOI场景。

关键创新：OneHOI的关键创新在于其统一的框架和关系扩散Transformer (R-DiT)。传统的HOI建模方法通常将生成和编辑视为独立的任务，而OneHOI通过共享的结构化交互表示，将两者统一到一个框架中。R-DiT通过角色和实例感知的HOI tokens、基于布局的空间动作定位、结构化HOI注意力以及HOI RoPE等机制，能够更有效地建模HOI三元组中复杂的关系，从而实现更逼真和可控的HOI生成和编辑。

关键设计：OneHOI的关键设计包括：1) HOI-Edit-44K数据集：该数据集专门用于训练和评估HOI编辑任务。2) 模态dropout：用于提高模型的鲁棒性。3) 结构化HOI注意力：通过mask机制强制执行交互拓扑结构。4) HOI RoPE：通过相对位置编码解耦多HOI场景。这些设计细节共同保证了OneHOI在HOI生成和编辑任务上的优越性能。

🖼️ 关键图片

📊 实验亮点

OneHOI在HOI生成和编辑任务上均取得了state-of-the-art的结果。具体而言，OneHOI在HOI生成任务上超越了现有的生成模型，能够生成更逼真和多样化的人-物交互场景。在HOI编辑任务上，OneHOI能够根据文本描述精确地修改交互，并且能够处理多个交互的复杂场景。实验结果表明，OneHOI的统一框架和关系扩散Transformer (R-DiT)能够有效地建模HOI三元组中复杂的关系。

🎯 应用场景

OneHOI在虚拟现实、游戏开发、机器人交互等领域具有广泛的应用前景。它可以用于生成逼真的人-物交互场景，增强虚拟体验的真实感和沉浸感。此外，OneHOI还可以用于机器人控制，使机器人能够更好地理解和执行与人的交互任务。未来，OneHOI有望成为人机交互领域的重要技术支撑。

📄 摘要（原文）

Human-Object Interaction (HOI) modelling captures how humans act upon and relate to objects, typically expressed as triplets. Existing approaches split into two disjoint families: HOI generation synthesises scenes from structured triplets and layout, but fails to integrate mixed conditions like HOI and object-only entities; and HOI editing modifies interactions via text, yet struggles to decouple pose from physical contact and scale to multiple interactions. We introduce OneHOI, a unified diffusion transformer framework that consolidates HOI generation and editing into a single conditional denoising process driven by shared structured interaction representations. At its core, the Relational Diffusion Transformer (R-DiT) models verb-mediated relations through role- and instance-aware HOI tokens, layout-based spatial Action Grounding, a Structured HOI Attention to enforce interaction topology, and HOI RoPE to disentangle multi-HOI scenes. Trained jointly with modality dropout on our HOI-Edit-44K, along with HOI and object-centric datasets, OneHOI supports layout-guided, layout-free, arbitrary-mask, and mixed-condition control, achieving state-of-the-art results across both HOI generation and editing. Code is available at https://jiuntian.github.io/OneHOI/.

OneHOI: Unifying Human-Object Interaction Generation and Editing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理