TeamHOI: Learning a Unified Policy for Cooperative Human-Object Interactions with Any Team Size

作者: Stefan Lionar, Gim Hee Lee

分类: cs.CV, cs.GR, cs.MA, cs.RO

发布日期: 2026-03-09

备注: CVPR 2026. Project page: https://splionar.github.io/TeamHOI/ Code: https://github.com/sail-sg/TeamHOI

💡 一句话要点

TeamHOI：学习统一策略，实现任意数量智能体协同的人-物交互

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱四：生成式动作 (Generative Motion) 支柱五：交互与反应 (Interaction & Reaction) 支柱八：物理动画 (Physics-based Animation)

关键词: 人-物交互 协同控制 多智能体系统 强化学习 Transformer网络 对抗运动先验 人形机器人

📋 核心要点

现有基于物理的人形控制在单智能体行为上取得了显著进展，但扩展到协同人-物交互（HOI）仍然具有挑战性。
TeamHOI提出了一种去中心化的策略，通过Transformer网络和队友令牌，使智能体能够根据局部观测进行协同，并适应不同的团队规模。
通过掩码对抗运动先验（AMP）策略，利用单人运动数据，并结合任务奖励，生成多样且真实的协同行为，并在协同搬运任务上验证了有效性。

📝 摘要（中文）

本文提出TeamHOI框架，旨在通过单个去中心化策略处理任意数量智能体的协同人-物交互（HOI）任务。每个智能体利用局部观测，并通过基于Transformer的策略网络和队友令牌关注其他队友，从而实现跨可变团队规模的可扩展协同。为了在缺乏协同HOI数据的情况下保证运动真实性，本文引入了一种掩码对抗运动先验（AMP）策略，该策略使用单人参考运动，并在训练期间屏蔽物体交互的身体部位。然后通过任务奖励引导被屏蔽区域，以产生多样且物理上合理的协同行为。本文在涉及2到8个人形智能体和各种物体几何形状的具有挑战性的协同搬运任务上评估了TeamHOI。最后，为了促进稳定的搬运，本文设计了一种与团队规模和形状无关的编队奖励。TeamHOI实现了高成功率，并展示了单个策略在各种配置下的连贯协作。

🔬 方法详解

问题定义：现有方法难以处理多智能体协同人-物交互，尤其是在团队规模可变的情况下。缺乏足够的协同HOI数据以及难以保证运动的真实性和多样性是主要痛点。现有方法通常针对特定数量的智能体设计，泛化能力有限。

核心思路：本文的核心思路是学习一个统一的去中心化策略，该策略能够处理任意数量智能体的协同HOI任务。通过Transformer网络学习智能体之间的依赖关系，并利用对抗运动先验（AMP）策略来保证运动的真实性和多样性。

技术框架：TeamHOI框架包含以下主要模块：1) 局部观测模块：每个智能体根据自身局部观测生成状态表示。2) Transformer策略网络：利用Transformer网络学习智能体之间的依赖关系，并生成动作。3) 掩码对抗运动先验（AMP）：利用单人运动数据作为先验，并通过对抗训练保证运动的真实性和多样性。4) 奖励函数：设计任务奖励和编队奖励，引导智能体完成协同任务并保持稳定的编队。

关键创新：最重要的技术创新点在于：1) 提出了一个统一的去中心化策略，能够处理任意数量智能体的协同HOI任务。2) 引入了掩码对抗运动先验（AMP）策略，利用单人运动数据作为先验，并通过对抗训练保证运动的真实性和多样性。3) 设计了与团队规模和形状无关的编队奖励，促进稳定的搬运。

关键设计：1) Transformer策略网络：使用多头注意力机制学习智能体之间的依赖关系。2) 掩码对抗运动先验（AMP）：在训练期间屏蔽物体交互的身体部位，并通过任务奖励引导被屏蔽区域。3) 奖励函数：设计任务奖励（例如，搬运物体到目标位置）和编队奖励（例如，保持智能体之间的相对位置）。

🖼️ 关键图片

📊 实验亮点

TeamHOI在协同搬运任务上取得了显著成果。实验结果表明，TeamHOI能够成功处理2到8个人形智能体的协同搬运任务，并实现了高成功率。通过与基线方法对比，TeamHOI在运动真实性和协同效率方面均有显著提升。此外，TeamHOI展示了单个策略在各种配置下的连贯协作能力。

🎯 应用场景

该研究成果可应用于多机器人协同作业、人机协作、虚拟现实等领域。例如，在仓库搬运、建筑施工等场景中，多个机器人可以协同完成复杂的任务。在虚拟现实游戏中，多个玩家可以协同进行交互，提升游戏体验。该研究为实现更智能、更高效的人机协作提供了新的思路。

📄 摘要（原文）

Physics-based humanoid control has achieved remarkable progress in enabling realistic and high-performing single-agent behaviors, yet extending these capabilities to cooperative human-object interaction (HOI) remains challenging. We present TeamHOI, a framework that enables a single decentralized policy to handle cooperative HOIs across any number of cooperating agents. Each agent operates using local observations while attending to other teammates through a Transformer-based policy network with teammate tokens, allowing scalable coordination across variable team sizes. To enforce motion realism while addressing the scarcity of cooperative HOI data, we further introduce a masked Adversarial Motion Prior (AMP) strategy that uses single-human reference motions while masking object-interacting body parts during training. The masked regions are then guided through task rewards to produce diverse and physically plausible cooperative behaviors. We evaluate TeamHOI on a challenging cooperative carrying task involving two to eight humanoid agents and varied object geometries. Finally, to promote stable carrying, we design a team-size- and shape-agnostic formation reward. TeamHOI achieves high success rates and demonstrates coherent cooperation across diverse configurations with a single policy.

TeamHOI: Learning a Unified Policy for Cooperative Human-Object Interactions with Any Team Size

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理