CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation
作者: Xiangyang Luo, Xiaozhe Xin, Tao Feng, Xu Guo, Meiguang Jin, Junfeng Ma
分类: cs.CV
发布日期: 2026-04-21
备注: The project page: https://xinxiaozhe12345.github.io/CoInteract_Project/
💡 一句话要点
CoInteract:通过空间结构化协同生成实现物理一致的人-物交互视频合成
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱五:交互与反应 (Interaction & Reaction)
关键词: 人-物交互 视频合成 扩散模型 空间结构化 协同生成
📋 核心要点
- 现有扩散模型在人-物交互视频合成中,难以保证手部等关键区域的结构稳定性和物理交互的合理性。
- CoInteract提出一种空间结构化协同生成框架,利用Human-Aware MoE提升结构保真度,并引入HOI结构流注入交互几何先验。
- 实验表明,CoInteract在结构稳定性、逻辑一致性和交互真实感方面显著优于现有方法,实现了高质量的HOI视频合成。
📝 摘要(中文)
本文提出CoInteract,一个端到端框架,用于合成以人物参考图像、产品参考图像、文本提示和语音音频为条件的人-物交互(HOI)视频。现有扩散模型在生成HOI视频时,尽管具有逼真的渲染能力,但仍经常在手、面部等敏感区域的结构稳定性和物理上合理的接触(例如,避免手-物穿透)方面失败。CoInteract在Diffusion Transformer (DiT) 主干网络中嵌入了两个互补的设计。首先,提出了Human-Aware Mixture-of-Experts (MoE),通过空间监督路由将tokens路由到轻量级的、区域专门化的专家,以最小的参数开销提高细粒度的结构保真度。其次,提出了空间结构化协同生成,一种双流训练范式,联合建模RGB外观流和辅助HOI结构流,以注入交互几何先验。在训练期间,HOI流关注RGB tokens,并且其监督正则化共享主干权重;在推理时,HOI分支被移除,实现零开销的RGB生成。实验结果表明,CoInteract在结构稳定性、逻辑一致性和交互真实感方面显著优于现有方法。
🔬 方法详解
问题定义:论文旨在解决人-物交互(HOI)视频合成问题。现有方法,特别是基于扩散模型的方法,虽然能够生成逼真的图像,但在处理HOI视频时,经常出现结构不稳定(如手部变形)和物理不合理(如手部穿透物体)的问题。这些问题严重影响了合成视频的质量和真实感。
核心思路:CoInteract的核心思路是利用空间结构化信息来指导HOI视频的生成过程。具体来说,它通过引入Human-Aware Mixture-of-Experts (MoE)来提升关键区域的结构保真度,并通过Spatially-Structured Co-Generation来注入交互几何先验,从而保证生成视频的物理合理性。这样设计的目的是让模型能够更好地理解和模拟人与物体之间的交互关系。
技术框架:CoInteract基于Diffusion Transformer (DiT)架构。整体框架包含两个主要组成部分:Human-Aware Mixture-of-Experts (MoE)和Spatially-Structured Co-Generation。MoE负责提升关键区域的结构保真度,而Spatially-Structured Co-Generation则通过双流训练范式,联合建模RGB外观流和HOI结构流,从而注入交互几何先验。在推理阶段,HOI分支被移除,只保留RGB分支进行生成,从而实现零开销。
关键创新:CoInteract的关键创新在于其空间结构化协同生成方法。与现有方法相比,CoInteract不是简单地生成RGB图像,而是同时考虑了HOI的结构信息,并通过HOI结构流来指导RGB图像的生成。这种协同生成的方式能够更好地保证生成视频的物理合理性和结构稳定性。此外,Human-Aware MoE的设计也能够有效地提升关键区域的生成质量。
关键设计:Human-Aware MoE通过空间监督路由将tokens路由到轻量级的、区域专门化的专家,从而在最小的参数开销下提高细粒度的结构保真度。Spatially-Structured Co-Generation采用双流训练范式,其中HOI流关注RGB tokens,并且其监督正则化共享主干权重。在训练过程中,HOI流提供结构信息,而在推理过程中,HOI分支被移除,从而实现零开销的RGB生成。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CoInteract在结构稳定性、逻辑一致性和交互真实感方面显著优于现有方法。具体来说,CoInteract能够生成更逼真的手部动作和更合理的物理交互,有效避免了手部变形和穿透物体等问题。通过定量和定性评估,证明了CoInteract在HOI视频合成方面的优越性。
🎯 应用场景
CoInteract在电子商务、数字广告和虚拟营销等领域具有广泛的应用前景。例如,可以用于生成逼真的人-物交互视频,用于产品展示、广告宣传和虚拟试用等场景。该技术还可以应用于游戏开发、电影制作等领域,用于生成高质量的虚拟角色和场景。
📄 摘要(原文)
Synthesizing human--object interaction (HOI) videos has broad practical value in e-commerce, digital advertising, and virtual marketing. However, current diffusion models, despite their photorealistic rendering capability, still frequently fail on (i) the structural stability of sensitive regions such as hands and faces and (ii) physically plausible contact (e.g., avoiding hand--object interpenetration). We present CoInteract, an end-to-end framework for HOI video synthesis conditioned on a person reference image, a product reference image, text prompts, and speech audio. CoInteract introduces two complementary designs embedded into a Diffusion Transformer (DiT) backbone. First, we propose a Human-Aware Mixture-of-Experts (MoE) that routes tokens to lightweight, region-specialized experts via spatially supervised routing, improving fine-grained structural fidelity with minimal parameter overhead. Second, we propose Spatially-Structured Co-Generation, a dual-stream training paradigm that jointly models an RGB appearance stream and an auxiliary HOI structure stream to inject interaction geometry priors. During training, the HOI stream attends to RGB tokens and its supervision regularizes shared backbone weights; at inference, the HOI branch is removed for zero-overhead RGB generation. Experimental results demonstrate that CoInteract significantly outperforms existing methods in structural stability, logical consistency, and interaction realism.