Human-in-Context: Unified Cross-Domain 3D Human Motion Modeling via In-Context Learning

📄 arXiv: 2508.10897v1 📥 PDF

作者: Mengyuan Liu, Xinshun Wang, Zhongbin Fang, Deheng Ye, Xia Li, Tao Tang, Songtao Wu, Xiangtai Li, Ming-Hsuan Yang

分类: cs.CV

发布日期: 2025-08-14

🔗 代码/项目: GITHUB


💡 一句话要点

提出Human-in-Context (HiC),通过上下文学习实现跨领域统一3D人体运动建模。

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 3D人体运动建模 跨领域学习 上下文学习 姿势估计 网格模型

📋 核心要点

  1. 现有跨领域人体运动模型依赖领域特定组件和多阶段训练,限制了实用性和可扩展性。
  2. HiC通过上下文学习,结合姿势和网格表示,统一处理多种模态、任务和数据集。
  3. 实验表明,HiC在泛化能力、数据规模和性能上优于PiC,证明了其潜力。

📝 摘要(中文)

本文旨在建立一个跨领域的3D人体运动模型,期望单个模型能够处理多种模态、任务和数据集。现有的跨领域模型通常依赖于领域特定的组件和多阶段训练,这限制了它们的实用性和可扩展性。为了克服这些挑战,我们提出了一种新的设置,通过单一过程训练统一的跨领域模型,消除了对领域特定组件和多阶段训练的需求。我们首先介绍了Pose-in-Context (PiC),它利用上下文学习来创建一个以姿势为中心的跨领域模型。虽然PiC可以推广到多个基于姿势的任务和数据集,但它在模态多样性、提示策略和上下文依赖处理方面遇到了困难。因此,我们提出了Human-in-Context (HiC),它是PiC的扩展,扩大了在模态、任务和数据集上的泛化能力。HiC在统一框架内结合了姿势和网格表示,扩展了任务覆盖范围,并纳入了更大规模的数据集。此外,HiC引入了一种最大-最小相似度提示采样策略,以增强跨不同领域的泛化能力,以及一种具有双分支上下文注入的网络架构,以改进对上下文依赖的处理。大量的实验结果表明,HiC在泛化能力、数据规模以及跨各种领域的性能方面优于PiC。这些结果证明了HiC在构建具有改进的灵活性和可扩展性的统一跨领域3D人体运动模型方面的潜力。

🔬 方法详解

问题定义:论文旨在解决跨领域3D人体运动建模问题,即如何训练一个统一的模型,使其能够处理多种模态(如姿势、网格)、任务(如动作识别、运动预测)和数据集。现有方法通常需要针对特定领域设计组件,并进行多阶段训练,这导致模型复杂、难以扩展,且泛化能力受限。

核心思路:论文的核心思路是利用上下文学习(In-Context Learning)的能力,将不同的模态、任务和数据集视为不同的上下文信息,通过学习上下文之间的关系,使模型能够根据给定的上下文进行推理和预测。通过这种方式,可以避免针对特定领域进行定制化设计,从而实现模型的统一性和可扩展性。

技术框架:HiC的技术框架主要包括以下几个部分:1) 统一的表示学习:将姿势和网格表示结合在一个统一的框架中,以便模型能够同时处理这两种模态的信息。2) 上下文注入:通过双分支网络结构,将上下文信息注入到模型的不同层次,从而使模型能够更好地理解上下文之间的关系。3) 提示采样策略:采用最大-最小相似度提示采样策略,选择具有代表性的上下文样本,以提高模型的泛化能力。

关键创新:HiC的关键创新在于:1) 提出了基于上下文学习的跨领域人体运动建模方法,避免了领域特定组件和多阶段训练。2) 设计了双分支上下文注入网络结构,能够更好地处理上下文依赖关系。3) 提出了最大-最小相似度提示采样策略,提高了模型的泛化能力。

关键设计:HiC的关键设计包括:1) 姿势和网格表示的融合方式,具体融合方式未知。2) 双分支网络的具体结构和上下文注入方式,具体结构未知。3) 最大-最小相似度提示采样策略的具体实现细节,例如相似度度量方式和采样算法,具体实现未知。4) 损失函数的设计,需要考虑不同模态和任务之间的平衡,具体设计未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

HiC在多个跨领域3D人体运动数据集上进行了实验,结果表明HiC在泛化能力、数据规模和性能方面均优于PiC。具体性能提升数据未知,但实验结果证明了HiC在构建统一跨领域3D人体运动模型方面的有效性。HiC能够处理多种模态和任务,并具有良好的可扩展性。

🎯 应用场景

该研究成果可应用于虚拟现实、增强现实、游戏、动画制作、运动分析、康复训练等领域。通过构建一个统一的3D人体运动模型,可以降低开发成本,提高开发效率,并为用户提供更加自然和逼真的人机交互体验。未来,该技术有望应用于智能监控、自动驾驶等领域,实现对人体行为的智能分析和预测。

📄 摘要(原文)

This paper aims to model 3D human motion across domains, where a single model is expected to handle multiple modalities, tasks, and datasets. Existing cross-domain models often rely on domain-specific components and multi-stage training, which limits their practicality and scalability. To overcome these challenges, we propose a new setting to train a unified cross-domain model through a single process, eliminating the need for domain-specific components and multi-stage training. We first introduce Pose-in-Context (PiC), which leverages in-context learning to create a pose-centric cross-domain model. While PiC generalizes across multiple pose-based tasks and datasets, it encounters difficulties with modality diversity, prompting strategy, and contextual dependency handling. We thus propose Human-in-Context (HiC), an extension of PiC that broadens generalization across modalities, tasks, and datasets. HiC combines pose and mesh representations within a unified framework, expands task coverage, and incorporates larger-scale datasets. Additionally, HiC introduces a max-min similarity prompt sampling strategy to enhance generalization across diverse domains and a network architecture with dual-branch context injection for improved handling of contextual dependencies. Extensive experimental results show that HiC performs better than PiC in terms of generalization, data scale, and performance across a wide range of domains. These results demonstrate the potential of HiC for building a unified cross-domain 3D human motion model with improved flexibility and scalability. The source codes and models are available at https://github.com/BradleyWang0416/Human-in-Context.