ViHOI: Human-Object Interaction Synthesis with Visual Priors

作者: Songjin Cai, Linjie Zhong, Ling Guo, Changxing Ding

分类: cs.CV

发布日期: 2026-03-25

备注: Accepted to CVPR 2026

💡 一句话要点

ViHOI：利用视觉先验合成逼真的人-物交互

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion) 支柱五：交互与反应 (Interaction & Reaction) 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation)

关键词: 人-物交互 HOI生成 视觉先验 扩散模型 视觉-语言模型 运动生成 3D生成

📋 核心要点

现有方法难以仅用文字描述3D人-物交互中的复杂物理约束，限制了运动生成的真实性和合理性。
ViHOI框架从2D图像中提取视觉先验，并利用视觉-语言模型和层解耦策略来增强扩散模型的生成质量。
实验结果表明，ViHOI在多个基准测试中优于现有方法，并展现出对未见过的对象和交互类别的卓越泛化能力。

📝 摘要（中文）

生成逼真且物理上合理的3D人-物交互（HOI）仍然是运动生成中的一个关键挑战。主要原因之一是仅用文字难以描述这些物理约束。为了解决这个局限性，我们提出了一种新的范例：从易于访问的2D图像中提取丰富的交互先验。具体来说，我们引入了ViHOI，这是一个新颖的框架，它使基于扩散的生成模型能够利用来自2D图像的丰富、特定于任务的先验来提高生成质量。我们利用大型视觉-语言模型（VLM）作为强大的先验提取引擎，并采用层解耦策略来获得视觉和文本先验。同时，我们设计了一个基于Q-Former的适配器，将VLM的高维特征压缩成紧凑的先验token，这极大地促进了扩散模型的条件训练。我们的框架在数据集中的运动渲染图像上进行训练，以确保视觉输入和运动序列之间的严格语义对齐。在推理过程中，它利用文本到图像生成模型合成的参考图像来提高对未见过的对象和交互类别的泛化能力。实验结果表明，ViHOI实现了最先进的性能，在多个基准测试中优于现有方法，并展示了卓越的泛化能力。

🔬 方法详解

问题定义：论文旨在解决3D人-物交互（HOI）生成中，由于难以用文字精确描述物理约束，导致生成结果不真实、不合理的问题。现有方法依赖于文本描述，无法充分捕捉HOI中的视觉信息和空间关系，限制了生成质量和泛化能力。

核心思路：论文的核心思路是从2D图像中提取丰富的视觉先验知识，并将其融入到扩散模型的训练过程中。通过利用视觉信息，模型能够更好地理解HOI中的物理约束和空间关系，从而生成更逼真、更合理的交互动作。这种方法避免了完全依赖文本描述的局限性，提高了生成模型的性能和泛化能力。

技术框架：ViHOI框架主要包含以下几个模块：1) 使用大型视觉-语言模型（VLM）提取2D图像中的视觉和文本先验；2) 设计基于Q-Former的适配器，将VLM的高维特征压缩成紧凑的先验token；3) 使用扩散模型进行HOI生成，并利用提取的视觉先验进行条件训练；4) 在推理阶段，使用文本到图像生成模型合成参考图像，进一步提高泛化能力。整个流程旨在将视觉信息融入到HOI生成过程中，从而提高生成质量。

关键创新：论文的关键创新在于：1) 提出了一种新的范例，即从2D图像中提取视觉先验来指导3D HOI生成；2) 设计了一种层解耦策略，可以有效地提取视觉和文本先验；3) 提出了基于Q-Former的适配器，能够将VLM的高维特征压缩成紧凑的先验token，从而降低计算复杂度。与现有方法相比，ViHOI能够更好地利用视觉信息，提高生成模型的性能和泛化能力。

关键设计：论文的关键设计包括：1) 使用大型视觉-语言模型（VLM）作为先验提取引擎，例如CLIP或ALIGN；2) 设计层解耦策略，分别提取视觉和文本特征，并进行融合；3) 使用Q-Former作为适配器，将VLM的特征压缩成固定长度的token；4) 使用扩散模型作为生成器，例如DDPM或DDIM；5) 设计合适的损失函数，例如L1损失或L2损失，来优化生成模型的参数。

🖼️ 关键图片

📊 实验亮点

ViHOI在多个HOI生成基准测试中取得了最先进的性能，显著优于现有方法。实验结果表明，ViHOI能够生成更逼真、更合理的3D人-物交互动作，并且具有更好的泛化能力，能够处理未见过的对象和交互类别。具体性能提升数据在论文中进行了详细展示。

🎯 应用场景

ViHOI的研究成果可应用于虚拟现实、游戏开发、机器人控制等领域。例如，可以用于生成逼真的虚拟人物交互动画，提升VR/AR体验；可以用于创建更智能的机器人，使其能够与环境和人类进行自然的交互；还可以用于辅助设计和评估人机交互界面，提高用户体验。该研究的未来影响在于推动人机交互技术的进步，使虚拟世界和现实世界更加融合。

📄 摘要（原文）

Generating realistic and physically plausible 3D Human-Object Interactions (HOI) remains a key challenge in motion generation. One primary reason is that describing these physical constraints with words alone is difficult. To address this limitation, we propose a new paradigm: extracting rich interaction priors from easily accessible 2D images. Specifically, we introduce ViHOI, a novel framework that enables diffusion-based generative models to leverage rich, task-specific priors from 2D images to enhance generation quality. We utilize a large Vision-Language Model (VLM) as a powerful prior-extraction engine and adopt a layer-decoupled strategy to obtain visual and textual priors. Concurrently, we design a Q-Former-based adapter that compresses the VLM's high-dimensional features into compact prior tokens, which significantly facilitates the conditional training of our diffusion model. Our framework is trained on motion-rendered images from the dataset to ensure strict semantic alignment between visual inputs and motion sequences. During inference, it leverages reference images synthesized by a text-to-image generation model to improve generalization to unseen objects and interaction categories. Experimental results demonstrate that ViHOI achieves state-of-the-art performance, outperforming existing methods across multiple benchmarks and demonstrating superior generalization.

ViHOI: Human-Object Interaction Synthesis with Visual Priors

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理