Human-in-Context: Unified Cross-Domain 3D Human Motion Modeling via In-Context Learning

作者: Mengyuan Liu, Xinshun Wang, Zhongbin Fang, Deheng Ye, Xia Li, Tao Tang, Songtao Wu, Xiangtai Li, Ming-Hsuan Yang

分类: cs.CV

发布日期: 2025-08-14

🔗 代码/项目: GITHUB

💡 一句话要点

提出Human-in-Context (HiC)，通过上下文学习实现跨领域统一3D人体运动建模。

🎯 匹配领域: 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation)

关键词: 3D人体运动建模 跨领域学习 上下文学习 姿势估计 网格模型

📋 核心要点

现有跨领域人体运动模型依赖领域特定组件和多阶段训练，限制了实用性和可扩展性。
HiC通过上下文学习，结合姿势和网格表示，统一处理多种模态、任务和数据集。
实验表明，HiC在泛化能力、数据规模和性能上优于PiC，证明了其潜力。

📝 摘要（中文）

本文旨在建立一个跨领域的3D人体运动模型，期望单个模型能够处理多种模态、任务和数据集。现有的跨领域模型通常依赖于领域特定的组件和多阶段训练，这限制了它们的实用性和可扩展性。为了克服这些挑战，我们提出了一种新的设置，通过单一过程训练统一的跨领域模型，消除了对领域特定组件和多阶段训练的需求。我们首先介绍了Pose-in-Context (PiC)，它利用上下文学习来创建一个以姿势为中心的跨领域模型。虽然PiC可以推广到多个基于姿势的任务和数据集，但它在模态多样性、提示策略和上下文依赖处理方面遇到了困难。因此，我们提出了Human-in-Context (HiC)，它是PiC的扩展，扩大了在模态、任务和数据集上的泛化能力。HiC在统一框架内结合了姿势和网格表示，扩展了任务覆盖范围，并纳入了更大规模的数据集。此外，HiC引入了一种最大-最小相似度提示采样策略，以增强跨不同领域的泛化能力，以及一种具有双分支上下文注入的网络架构，以改进对上下文依赖的处理。大量的实验结果表明，HiC在泛化能力、数据规模以及跨各种领域的性能方面优于PiC。这些结果证明了HiC在构建具有改进的灵活性和可扩展性的统一跨领域3D人体运动模型方面的潜力。

🔬 方法详解

问题定义：论文旨在解决跨领域3D人体运动建模问题，即如何训练一个统一的模型，使其能够处理多种模态（如姿势、网格）、任务（如动作识别、运动预测）和数据集。现有方法通常需要针对特定领域设计组件，并进行多阶段训练，这导致模型复杂、难以扩展，且泛化能力受限。

核心思路：论文的核心思路是利用上下文学习（In-Context Learning）的能力，将不同的模态、任务和数据集视为不同的上下文信息，通过学习上下文之间的关系，使模型能够根据给定的上下文进行推理和预测。通过这种方式，可以避免针对特定领域进行定制化设计，从而实现模型的统一性和可扩展性。

技术框架：HiC的技术框架主要包括以下几个部分：1) 统一的表示学习：将姿势和网格表示结合在一个统一的框架中，以便模型能够同时处理这两种模态的信息。2) 上下文注入：通过双分支网络结构，将上下文信息注入到模型的不同层次，从而使模型能够更好地理解上下文之间的关系。3) 提示采样策略：采用最大-最小相似度提示采样策略，选择具有代表性的上下文样本，以提高模型的泛化能力。

关键创新：HiC的关键创新在于：1) 提出了基于上下文学习的跨领域人体运动建模方法，避免了领域特定组件和多阶段训练。2) 设计了双分支上下文注入网络结构，能够更好地处理上下文依赖关系。3) 提出了最大-最小相似度提示采样策略，提高了模型的泛化能力。

关键设计：HiC的关键设计包括：1) 姿势和网格表示的融合方式，具体融合方式未知。2) 双分支网络的具体结构和上下文注入方式，具体结构未知。3) 最大-最小相似度提示采样策略的具体实现细节，例如相似度度量方式和采样算法，具体实现未知。4) 损失函数的设计，需要考虑不同模态和任务之间的平衡，具体设计未知。

🖼️ 关键图片

📊 实验亮点

HiC在多个跨领域3D人体运动数据集上进行了实验，结果表明HiC在泛化能力、数据规模和性能方面均优于PiC。具体性能提升数据未知，但实验结果证明了HiC在构建统一跨领域3D人体运动模型方面的有效性。HiC能够处理多种模态和任务，并具有良好的可扩展性。

🎯 应用场景

该研究成果可应用于虚拟现实、增强现实、游戏、动画制作、运动分析、康复训练等领域。通过构建一个统一的3D人体运动模型，可以降低开发成本，提高开发效率，并为用户提供更加自然和逼真的人机交互体验。未来，该技术有望应用于智能监控、自动驾驶等领域，实现对人体行为的智能分析和预测。

📄 摘要（原文）

This paper aims to model 3D human motion across domains, where a single model is expected to handle multiple modalities, tasks, and datasets. Existing cross-domain models often rely on domain-specific components and multi-stage training, which limits their practicality and scalability. To overcome these challenges, we propose a new setting to train a unified cross-domain model through a single process, eliminating the need for domain-specific components and multi-stage training. We first introduce Pose-in-Context (PiC), which leverages in-context learning to create a pose-centric cross-domain model. While PiC generalizes across multiple pose-based tasks and datasets, it encounters difficulties with modality diversity, prompting strategy, and contextual dependency handling. We thus propose Human-in-Context (HiC), an extension of PiC that broadens generalization across modalities, tasks, and datasets. HiC combines pose and mesh representations within a unified framework, expands task coverage, and incorporates larger-scale datasets. Additionally, HiC introduces a max-min similarity prompt sampling strategy to enhance generalization across diverse domains and a network architecture with dual-branch context injection for improved handling of contextual dependencies. Extensive experimental results show that HiC performs better than PiC in terms of generalization, data scale, and performance across a wide range of domains. These results demonstrate the potential of HiC for building a unified cross-domain 3D human motion model with improved flexibility and scalability. The source codes and models are available at https://github.com/BradleyWang0416/Human-in-Context.

Human-in-Context: Unified Cross-Domain 3D Human Motion Modeling via In-Context Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理