OneHOI: Unifying Human-Object Interaction Generation and Editing
作者: Jiun Tian Hoe, Weipeng Hu, Xudong Jiang, Yap-Peng Tan, Chee Seng Chan
分类: cs.CV, cs.MM
发布日期: 2026-04-15
备注: Accepted at CVPR2026. This paper moves toward unifying HOI generation and editing within a single model
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
OneHOI统一人-物交互生成与编辑,实现混合条件下的场景合成与交互修改。
🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction)
关键词: 人-物交互 HOI生成 HOI编辑 扩散模型 Transformer 条件生成 场景合成
📋 核心要点
- 现有HOI方法割裂了生成与编辑任务,生成方法难以处理混合条件,编辑方法难以解耦姿势与交互。
- OneHOI提出统一的扩散Transformer框架,通过共享交互表示,将生成与编辑统一到条件去噪过程。
- OneHOI在HOI生成和编辑任务上均取得SOTA结果,验证了统一框架的有效性与优越性。
📝 摘要(中文)
本文提出OneHOI,一个统一的扩散Transformer框架,旨在整合人-物交互(HOI)的生成和编辑任务。现有方法通常将HOI生成(从结构化三元组和布局合成场景)和HOI编辑(通过文本修改交互)视为两个不相交的领域,前者难以整合混合条件(如HOI和仅对象实体),后者难以解耦姿势与物理接触,且难以扩展到多重交互。OneHOI通过共享的结构化交互表示,将HOI生成和编辑统一到一个条件去噪过程中。其核心是关系扩散Transformer (R-DiT),通过角色和实例感知的HOI tokens、基于布局的空间动作定位、结构化HOI注意力(强制交互拓扑)以及HOI RoPE(解耦多HOI场景)来建模动词介导的关系。OneHOI在HOI-Edit-44K数据集以及HOI和以对象为中心的数据集上进行联合训练,并采用模态dropout,支持布局引导、无布局、任意掩码和混合条件控制,在HOI生成和编辑方面均实现了最先进的结果。
🔬 方法详解
问题定义:现有的人-物交互(HOI)建模方法通常分为两个独立的领域:HOI生成和HOI编辑。HOI生成旨在从结构化的<人,动作,物体>三元组和布局信息合成逼真的场景,但难以整合混合条件,例如同时包含HOI三元组和独立的对象实体。HOI编辑则侧重于通过文本描述来修改现有的交互,但难以将人物姿势与物理接触解耦,并且难以扩展到处理多个交互的复杂场景。这些局限性阻碍了HOI建模的灵活性和实用性。
核心思路:OneHOI的核心思路是将HOI生成和HOI编辑统一到一个单一的条件去噪过程中。通过共享的结构化交互表示,模型能够同时理解和处理HOI三元组、布局信息、文本描述等多种输入条件,从而实现更灵活和可控的HOI建模。这种统一的方法避免了传统方法中生成和编辑任务之间的割裂,使得模型能够更好地利用不同类型的数据和信息。
技术框架:OneHOI的整体框架基于扩散Transformer。该框架包含以下主要模块:1) 关系扩散Transformer (R-DiT):这是OneHOI的核心模块,用于建模HOI三元组中动词介导的关系。2) 角色和实例感知的HOI tokens:用于表示HOI三元组中的角色(人、物)和实例信息。3) 基于布局的空间动作定位:用于根据布局信息定位动作发生的位置。4) 结构化HOI注意力:用于强制执行交互拓扑结构。5) HOI RoPE:用于解耦多HOI场景。模型首先将输入条件(如HOI三元组、布局、文本)编码为相应的tokens,然后通过R-DiT进行扩散和去噪,最终生成或编辑HOI场景。
关键创新:OneHOI的关键创新在于其统一的框架和关系扩散Transformer (R-DiT)。传统的HOI建模方法通常将生成和编辑视为独立的任务,而OneHOI通过共享的结构化交互表示,将两者统一到一个框架中。R-DiT通过角色和实例感知的HOI tokens、基于布局的空间动作定位、结构化HOI注意力以及HOI RoPE等机制,能够更有效地建模HOI三元组中复杂的关系,从而实现更逼真和可控的HOI生成和编辑。
关键设计:OneHOI的关键设计包括:1) HOI-Edit-44K数据集:该数据集专门用于训练和评估HOI编辑任务。2) 模态dropout:用于提高模型的鲁棒性。3) 结构化HOI注意力:通过mask机制强制执行交互拓扑结构。4) HOI RoPE:通过相对位置编码解耦多HOI场景。这些设计细节共同保证了OneHOI在HOI生成和编辑任务上的优越性能。
🖼️ 关键图片
📊 实验亮点
OneHOI在HOI生成和编辑任务上均取得了state-of-the-art的结果。具体而言,OneHOI在HOI生成任务上超越了现有的生成模型,能够生成更逼真和多样化的人-物交互场景。在HOI编辑任务上,OneHOI能够根据文本描述精确地修改交互,并且能够处理多个交互的复杂场景。实验结果表明,OneHOI的统一框架和关系扩散Transformer (R-DiT)能够有效地建模HOI三元组中复杂的关系。
🎯 应用场景
OneHOI在虚拟现实、游戏开发、机器人交互等领域具有广泛的应用前景。它可以用于生成逼真的人-物交互场景,增强虚拟体验的真实感和沉浸感。此外,OneHOI还可以用于机器人控制,使机器人能够更好地理解和执行与人的交互任务。未来,OneHOI有望成为人机交互领域的重要技术支撑。
📄 摘要(原文)
Human-Object Interaction (HOI) modelling captures how humans act upon and relate to objects, typically expressed as
triplets. Existing approaches split into two disjoint families: HOI generation synthesises scenes from structured triplets and layout, but fails to integrate mixed conditions like HOI and object-only entities; and HOI editing modifies interactions via text, yet struggles to decouple pose from physical contact and scale to multiple interactions. We introduce OneHOI, a unified diffusion transformer framework that consolidates HOI generation and editing into a single conditional denoising process driven by shared structured interaction representations. At its core, the Relational Diffusion Transformer (R-DiT) models verb-mediated relations through role- and instance-aware HOI tokens, layout-based spatial Action Grounding, a Structured HOI Attention to enforce interaction topology, and HOI RoPE to disentangle multi-HOI scenes. Trained jointly with modality dropout on our HOI-Edit-44K, along with HOI and object-centric datasets, OneHOI supports layout-guided, layout-free, arbitrary-mask, and mixed-condition control, achieving state-of-the-art results across both HOI generation and editing. Code is available at https://jiuntian.github.io/OneHOI/.