Uni-Inter: Unifying 3D Human Motion Synthesis Across Diverse Interaction Contexts

📄 arXiv: 2511.13032v1 📥 PDF

作者: Sheng Liu, Yuanzhi Liang, Jiepeng Wang, Sidan Du, Chi Zhang, Xuelong Li

分类: cs.CV

发布日期: 2025-11-17


💡 一句话要点

提出Uni-Inter框架以解决多种交互场景下的人类动作生成问题

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 人类动作生成 交互建模 统一框架 空间依赖性 虚拟现实 机器人控制

📋 核心要点

  1. 现有方法通常依赖于特定任务的设计,导致泛化能力不足,难以处理多样化的交互场景。
  2. Uni-Inter通过引入统一交互体积(UIV),实现了对异构交互实体的统一建模,支持多种交互类型。
  3. 实验结果显示,Uni-Inter在多个交互任务中表现优异,能够有效处理新组合的实体,具有良好的泛化能力。

📝 摘要(中文)

我们提出了Uni-Inter,一个统一的人类动作生成框架,支持多种交互场景,包括人-人、人-物体和人-场景的交互。与现有依赖于特定任务设计且泛化能力有限的方法不同,Uni-Inter引入了统一交互体积(UIV),该体积表示将异构交互实体编码为共享空间场。这使得一致的关系推理和复合交互建模成为可能。动作生成被形式化为对UIV的关节概率预测,使模型能够捕捉细粒度的空间依赖性,并产生连贯的、上下文感知的行为。实验结果表明,Uni-Inter在三个代表性交互任务中表现出竞争力,并能很好地泛化到新实体组合。这些结果表明,复合交互的统一建模为复杂环境中的可扩展动作合成提供了有前景的方向。

🔬 方法详解

问题定义:本论文旨在解决现有方法在多种交互场景下的局限性,尤其是其对特定任务的依赖性和泛化能力不足的问题。

核心思路:Uni-Inter的核心思路是引入统一交互体积(UIV),通过将不同的交互实体编码到一个共享空间中,实现一致的关系推理和复合交互建模。这样的设计使得模型能够在多种交互场景中保持一致性和灵活性。

技术框架:Uni-Inter的整体架构包括数据预处理、统一交互体积的构建、关节概率预测和动作生成等主要模块。首先,输入的交互实体被编码为UIV,然后通过联合概率预测生成动作。

关键创新:最重要的技术创新在于统一交互体积(UIV)的引入,它允许模型在一个共享的空间中处理异构交互实体,从而实现更好的关系推理和动作生成。这与现有方法的特定任务设计形成了鲜明对比。

关键设计:在模型设计中,采用了特定的损失函数来优化关节间的空间依赖性,同时在网络结构上进行了调整,以支持对复杂交互的建模。

📊 实验亮点

实验结果表明,Uni-Inter在三个代表性交互任务中均取得了优异的性能,尤其是在新实体组合的泛化能力上表现突出。与基线方法相比,Uni-Inter在动作生成的连贯性和上下文感知能力上有显著提升,具体性能数据未详述。

🎯 应用场景

该研究的潜在应用领域包括虚拟现实、游戏开发和人机交互等。通过提供一个统一的动作生成框架,Uni-Inter能够在多种复杂环境中实现自然的人类动作合成,提升用户体验和交互质量。未来,该技术可能在机器人控制和动画生成等领域发挥重要作用。

📄 摘要(原文)

We present Uni-Inter, a unified framework for human motion generation that supports a wide range of interaction scenarios: including human-human, human-object, and human-scene-within a single, task-agnostic architecture. In contrast to existing methods that rely on task-specific designs and exhibit limited generalization, Uni-Inter introduces the Unified Interactive Volume (UIV), a volumetric representation that encodes heterogeneous interactive entities into a shared spatial field. This enables consistent relational reasoning and compound interaction modeling. Motion generation is formulated as joint-wise probabilistic prediction over the UIV, allowing the model to capture fine-grained spatial dependencies and produce coherent, context-aware behaviors. Experiments across three representative interaction tasks demonstrate that Uni-Inter achieves competitive performance and generalizes well to novel combinations of entities. These results suggest that unified modeling of compound interactions offers a promising direction for scalable motion synthesis in complex environments.