Learning Reactive Human Motion Generation from Paired Interaction Data Using Transformer-Based Models

作者: Masato Soga, Ryuki Takebayashi

分类: cs.CV

发布日期: 2026-04-24

备注: 24 pages

💡 一句话要点

提出基于Transformer的交互运动生成模型，解决人际互动场景下的动作预测问题

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion) 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation)

关键词: 交互运动生成 Transformer模型 人物ID嵌入 人机交互 动作预测

📋 核心要点

现有动作生成方法主要关注单人运动，忽略了人际互动中动作的相互依赖性，无法有效模拟交互场景。
本文提出基于Transformer的交互运动生成模型，通过人物ID嵌入显式区分个体，从而捕捉交互动态并保持结构一致性。
实验表明，简单Transformer模型能生成更稳定的交互运动，人物ID嵌入能有效防止姿势崩溃，提升运动一致性。

📝 摘要（中文）

本文研究了人际互动场景下，基于一方动作生成另一方动作的问题，其中双方动作相互依赖。作者构建了一个从拳击比赛视频中提取的配对动作-反应运动序列数据集，并研究了基于Transformer的模型在该任务上的有效性。具体而言，作者实现了并比较了三个模型：一个简单的Transformer、iTransformer和Crossformer。此外，作者引入了人物ID嵌入来明确区分个体，使模型能够保持结构一致性并更好地捕捉交互动态。实验结果表明，简单的Transformer可以生成合理的、具有交互意识的运动，而不会出现姿势崩溃，而iTransformer和Crossformer会随着时间的推移累积误差，导致不稳定的运动生成。此外，所提出的人物ID嵌入有助于防止结构崩溃并提高运动一致性。这些结果突出了在交互感知运动生成中显式建模个体身份的重要性。

🔬 方法详解

问题定义：论文旨在解决人际互动场景下的动作生成问题，即根据一方的动作序列预测另一方的动作序列。现有方法主要关注单人动作生成，忽略了人际互动中动作的相互依赖性，导致无法生成符合交互逻辑的动作。此外，现有方法容易出现姿势崩溃和运动不稳定的问题。

核心思路：论文的核心思路是利用Transformer模型强大的序列建模能力，学习配对的动作-反应运动序列中的交互模式。通过引入人物ID嵌入，显式地建模个体身份，从而区分不同个体的动作特征，并保持生成动作的结构一致性。

技术框架：整体框架包含数据预处理、模型构建和训练、以及动作生成三个主要阶段。首先，从拳击比赛视频中提取配对的动作-反应运动序列，并进行数据清洗和格式转换。然后，构建基于Transformer的模型，包括简单Transformer、iTransformer和Crossformer，并引入人物ID嵌入。最后，使用配对的动作序列训练模型，并利用训练好的模型生成交互动作。

关键创新：论文的关键创新在于将Transformer模型应用于交互运动生成，并提出了人物ID嵌入来显式建模个体身份。与现有方法相比，该方法能够更好地捕捉交互动态，并保持生成动作的结构一致性。人物ID嵌入的设计是解决姿势崩溃和运动不稳定问题的关键。

关键设计：人物ID嵌入是一个可学习的向量，用于表示不同个体。在模型输入时，将人物ID嵌入与动作序列进行拼接，从而使模型能够区分不同个体的动作特征。损失函数采用均方误差（MSE），用于衡量生成动作与真实动作之间的差异。模型训练采用Adam优化器，学习率设置为0.0001。

🖼️ 关键图片

📊 实验亮点

实验结果表明，简单的Transformer模型在交互运动生成任务中表现最佳，能够生成合理的、具有交互意识的运动，而不会出现姿势崩溃。引入人物ID嵌入后，模型的性能得到进一步提升，能够有效防止结构崩溃并提高运动一致性。相比之下，iTransformer和Crossformer模型容易随着时间的推移累积误差，导致不稳定的运动生成。

🎯 应用场景

该研究成果可应用于虚拟现实、游戏开发、人机交互等领域。例如，可以用于创建更逼真的人际互动场景，提高虚拟角色的智能水平，以及设计更自然的人机交互界面。未来，该技术有望应用于康复训练、社交机器人等领域，具有广阔的应用前景。

📄 摘要（原文）

Recent advances in deep learning have enabled the generation of videos from textual descriptions as well as the prediction of future sequences from input videos. Similarly, in human motion modeling, motions can be generated from text or predicted from a single person's motion sequence. However, these approaches primarily focus on single-agent motion generation. In contrast, this study addresses the problem of generating the motion of one person based on the motion of another in interaction scenarios, where the two motions are mutually dependent. We construct a dataset of paired action-reaction motion sequences extracted from boxing match videos and investigate the effectiveness of Transformer-based models for this task. Specifically, we implement and compare three models: a simple Transformer, iTransformer, and Crossformer. In addition, we introduce a person ID embedding to explicitly distinguish between individuals, enabling the model to maintain structural consistency and better capture interaction dynamics. Experimental results show that the simple Transformer can generate plausible interaction-aware motions without suffering from posture collapse, while iTransformer and Crossformer accumulate errors over time, leading to unstable motion generation. Furthermore, the proposed person ID embedding contributes to preventing structural collapse and improving motion consistency. These results highlight the importance of explicitly modeling individual identity in interaction-aware motion generation.

Learning Reactive Human Motion Generation from Paired Interaction Data Using Transformer-Based Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理