Uni-HOI:A Unified framework for Learning the Joint distribution of Text and Human-Object Interaction

作者: Mengfei Zhang, Jinlu Zhang, Zhigang Tu

分类: cs.CV

发布日期: 2026-04-30

备注: 10 pages

💡 一句话要点

Uni-HOI：提出统一框架，学习文本与人-物交互的联合分布，实现多任务HOI生成与预测。

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion) 支柱五：交互与反应 (Interaction & Reaction) 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 人-物交互 HOI生成 多模态学习 大型语言模型 运动预测

📋 核心要点

现有HOI方法依赖于特定任务架构，缺乏统一框架处理文本、人体运动和物体运动等多种条件输入。
Uni-HOI利用LLM和VQ-VAE将异构运动数据转换为token序列，实现多模态数据的联合建模。
Uni-HOI通过两阶段训练，先学习模态相关性，再针对特定任务微调，提升HOI生成与预测性能。

📝 摘要（中文）

本文提出Uni-HOI，一个统一的框架，用于学习文本、人体运动和物体运动之间的联合分布。针对计算机视觉中4D人-物交互(HOI)建模这一挑战，以及其在虚拟现实和混合现实应用中的重要性，现有方法通常依赖于特定任务的架构，缺乏处理多样化条件输入的统一框架。Uni-HOI利用大型语言模型(LLM)和两个运动特定的向量量化变分自编码器(VQ-VAE)，将异构运动数据转换为与LLM输入兼容的token序列，从而实现所有三种模态的无缝集成和联合建模。采用两阶段训练策略：第一阶段在大规模HOI数据集上执行多任务学习，以捕获三种模态之间的潜在相关性；第二阶段在特定任务上微调模型，以进一步提高性能。大量实验表明，Uni-HOI在多个HOI相关任务上取得了显著的性能，包括文本驱动的HOI生成、物体运动驱动的人体运动生成（可选文本）以及人体运动驱动的物体运动预测，且均在一个统一的框架内完成。

🔬 方法详解

问题定义：现有的人-物交互（HOI）建模方法通常针对特定任务设计，例如文本驱动的HOI生成或基于物体运动的人体运动生成。这些方法缺乏一个统一的框架，无法同时处理多种类型的条件输入（如文本、人体运动和物体运动），并且难以在不同HOI任务之间迁移知识。因此，需要一个能够学习文本、人体运动和物体运动之间联合分布的通用框架。

核心思路：Uni-HOI的核心思路是将不同模态的运动数据（人体运动和物体运动）通过运动特定的VQ-VAE转换为离散的token序列，使其能够被大型语言模型（LLM）处理。通过LLM学习这些token序列与文本之间的联合分布，从而实现多模态信息的融合和统一建模。这种方法允许模型根据不同的条件输入生成或预测其他模态的运动数据。

技术框架：Uni-HOI的整体框架包括以下几个主要模块：1) 两个运动特定的VQ-VAE，分别用于将人体运动和物体运动数据编码为离散的token序列；2) 一个大型语言模型（LLM），用于学习文本和运动token序列之间的联合分布；3) 一个两阶段训练策略，包括多任务学习和特定任务微调。在推理阶段，根据给定的条件输入（文本、人体运动或物体运动），LLM生成相应的token序列，然后通过VQ-VAE的解码器将其转换为运动数据。

关键创新：Uni-HOI的关键创新在于：1) 提出了一个统一的框架，能够处理多种HOI相关任务，而无需针对每个任务设计特定的模型；2) 利用VQ-VAE将连续的运动数据转换为离散的token序列，使其能够被LLM处理，从而实现了多模态信息的有效融合；3) 提出了一个两阶段训练策略，能够有效地学习模态之间的相关性，并针对特定任务进行优化。

关键设计：Uni-HOI的关键设计包括：1) 运动特定的VQ-VAE结构，针对人体运动和物体运动的特点进行优化，以获得更好的编码效果；2) LLM的选择和配置，需要根据数据集的大小和任务的复杂度进行调整；3) 两阶段训练策略中的多任务学习目标和特定任务微调策略，需要仔细设计以平衡不同任务之间的性能。

🖼️ 关键图片

📊 实验亮点

Uni-HOI在文本驱动的HOI生成、物体运动驱动的人体运动生成以及人体运动驱动的物体运动预测等多个任务上取得了显著的性能。与现有的特定任务模型相比，Uni-HOI在统一的框架下实现了可比甚至更好的性能，证明了其通用性和有效性。具体的性能数据和对比基线需要在论文中查找。

🎯 应用场景

Uni-HOI具有广泛的应用前景，包括虚拟现实和混合现实内容生成、人机交互、机器人控制和动画制作等领域。例如，可以根据文本描述生成逼真的人-物交互动画，或者根据用户的动作预测物体的运动轨迹，从而实现更自然和智能的人机交互体验。该研究还有助于提升机器人对人类行为的理解和模仿能力，促进机器人与人类的协作。

📄 摘要（原文）

Modeling 4D human-object interaction (HOI) is a compelling challenge in computer vision and an essential technology powering virtual and mixed-reality applications. While existing works have achieved promising results on specific HOI tasks-such as text-conditioned HOI generation and human motion generation from object motion, they typically rely on task-specific architectures and lack a unified framework capable of handling diverse conditional inputs. Building on this, we propose Uni-HOI, a unified framework that learns the joint distribution among text, human motion, and object motion. By leveraging large language models (LLMs) and two motion-specific vector quantized variational autoencoders (VQ-VAEs), we convert heterogeneous motion data into token sequences compatible with LLM inputs, enabling seamless integration and joint modeling of all three modalities. We introduce a two-stage training strategy: the first stage performs multi-task learning on a large-scale HOI dataset to capture the underlying correlations among the three modalities, while the second stage fine-tunes the model on specific tasks to further enhance performance. Extensive experiments demonstrate that Uni-HOI achieves remarkable performances on multiple HOI-related tasks including text-driven HOI generation, object motion-driven human motion generation (optionally with text) and human motion-driven object motion prediction within a unified framework.

Uni-HOI:A Unified framework for Learning the Joint distribution of Text and Human-Object Interaction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理