Zero-Shot Human-Object Interaction Synthesis with Multimodal Priors

作者: Yuke Lou, Yiming Wang, Zhen Wu, Rui Zhao, Wenjia Wang, Mingyi Shi, Taku Komura

分类: cs.GR, cs.AI, cs.CV

发布日期: 2025-03-25

💡 一句话要点

提出基于多模态先验的零样本人-物交互合成框架，解决数据稀缺问题。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱四：生成式动作 (Generative Motion) 支柱五：交互与反应 (Interaction & Reaction) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 人-物交互 HOI合成 零样本学习 多模态学习 物理引擎 姿态估计

📋 核心要点

现有3D HOI数据获取成本高昂，导致数据集规模和多样性受限，阻碍了相关方法的发展。
利用预训练多模态模型中的HOI知识，从文本描述生成2D HOI图像序列，再提升到3D空间。
通过人体姿态估计和类别级6自由度物体姿态估计，结合物理引擎优化，实现逼真HOI合成。

📝 摘要（中文）

本文提出了一种新颖的零样本人-物交互(HOI)合成框架，无需依赖于现有3D HOI数据集的端到端训练。该方法的核心思想是利用预训练多模态模型中的大量HOI知识。给定文本描述，系统首先使用图像或视频生成模型获得时间上一致的2D HOI图像序列，然后将其提升为3D HOI的关键帧，包含人和物体的姿态。我们采用预训练的人体姿态估计模型来提取人体姿态，并引入一种可泛化的类别级6自由度估计方法，从2D HOI图像中获得物体姿态。我们的估计方法适用于从文本到3D模型或在线检索获得的各种物体模板。进一步应用基于物理的3D HOI运动学关键帧跟踪，以细化身体运动和物体姿态，从而产生更符合物理规律的HOI生成结果。实验结果表明，该方法能够生成具有物理真实感和语义多样性的开放词汇HOI。

🔬 方法详解

问题定义：现有3D人-物交互(HOI)数据集规模有限，难以覆盖各种物体类型和交互模式，导致模型泛化能力不足。端到端训练方法依赖大量标注数据，获取成本高昂。因此，需要一种方法能够在零样本条件下，即不依赖特定HOI数据集的训练，合成具有多样性和物理真实感的HOI。

核心思路：利用预训练多模态模型蕴含的丰富HOI知识，将文本描述转化为3D HOI场景。核心在于将文本描述解耦为2D图像生成和3D姿态估计两个阶段，并利用物理引擎进行优化，从而避免直接在稀疏的3D HOI数据集上进行训练。

技术框架：整体框架包含以下几个主要阶段： 1. 2D HOI图像序列生成：根据文本描述，利用图像或视频生成模型生成时间上连续的2D HOI图像序列。 2. 3D HOI关键帧提取：从2D图像中提取人和物体的3D姿态。人体姿态通过预训练的人体姿态估计模型获得，物体姿态通过类别级6自由度估计方法获得。 3. 3D HOI运动学跟踪与优化：利用物理引擎对3D HOI关键帧进行跟踪，并对人体运动和物体姿态进行优化，以保证物理真实性。

关键创新：该方法的核心创新在于： 1. 零样本HOI合成：无需在3D HOI数据集上进行训练，即可生成具有多样性的HOI。 2. 类别级6自由度物体姿态估计：能够处理各种物体模板，提高了方法的泛化能力。 3. 物理引擎优化：保证了生成HOI的物理真实性。

关键设计： 1. 物体姿态估计：采用类别级6自由度估计方法，该方法能够处理从文本到3D模型或在线检索获得的各种物体模板。具体实现细节未知。 2. 物理引擎优化：使用物理引擎对3D HOI关键帧进行跟踪，并对人体运动和物体姿态进行优化，以保证物理真实性。具体物理引擎和优化算法未知。

🖼️ 关键图片

📊 实验亮点

该方法能够在零样本条件下生成具有物理真实感和语义多样性的开放词汇HOI。实验结果表明，该方法能够生成各种不同类型的HOI，并且生成的HOI具有较高的物理真实性。具体的性能数据和对比基线未知。

🎯 应用场景

该研究成果可应用于虚拟现实、增强现实、机器人等领域。例如，可以用于生成逼真的虚拟交互场景，训练机器人在复杂环境中的操作能力，以及辅助人机协作设计。该方法降低了HOI数据获取的成本，促进了相关技术的发展。

📄 摘要（原文）

Human-object interaction (HOI) synthesis is important for various applications, ranging from virtual reality to robotics. However, acquiring 3D HOI data is challenging due to its complexity and high cost, limiting existing methods to the narrow diversity of object types and interaction patterns in training datasets. This paper proposes a novel zero-shot HOI synthesis framework without relying on end-to-end training on currently limited 3D HOI datasets. The core idea of our method lies in leveraging extensive HOI knowledge from pre-trained Multimodal Models. Given a text description, our system first obtains temporally consistent 2D HOI image sequences using image or video generation models, which are then uplifted to 3D HOI milestones of human and object poses. We employ pre-trained human pose estimation models to extract human poses and introduce a generalizable category-level 6-DoF estimation method to obtain the object poses from 2D HOI images. Our estimation method is adaptive to various object templates obtained from text-to-3D models or online retrieval. A physics-based tracking of the 3D HOI kinematic milestone is further applied to refine both body motions and object poses, yielding more physically plausible HOI generation results. The experimental results demonstrate that our method is capable of generating open-vocabulary HOIs with physical realism and semantic diversity.

Zero-Shot Human-Object Interaction Synthesis with Multimodal Priors

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理