Real-time and Controllable Reactive Motion Synthesis via Intention Guidance

📄 arXiv: 2507.09704v1 📥 PDF

作者: Xiaotang Zhang, Ziyi Chang, Qianhui Men, Hubert Shum

分类: cs.GR

发布日期: 2025-07-13


💡 一句话要点

提出基于意图引导的实时可控反应式运动合成方法

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱五:交互与反应 (Interaction & Reaction)

关键词: 反应式运动合成 意图预测 实时交互 运动控制 潜在空间 对抗训练 人机交互

📋 核心要点

  1. 现有反应式运动合成方法难以处理未来运动的不确定性,限制了实时性和交互性。
  2. 该方法通过意图预测器预测关键关节意图,并将其编码到反应式运动的潜在空间中,从而实现更确定的姿势预测。
  3. 实验结果表明,该方法在稳定性和泛化性方面优于其他基于匹配的运动合成方法,并支持用户个性化控制。

📝 摘要(中文)

本文提出了一种基于已知输入角色轨迹的实时反应式运动合成方法,该方法仅使用历史的、用户控制的运动来预测即时反应。通过引入意图预测器来处理未来运动的不确定性,该预测器预测关键关节意图,从而使姿势预测从历史交互中更具确定性。然后,意图被编码到其反应式运动的潜在空间中,并与表示输入和输出之间映射的码本进行匹配。它对姿势生成进行分类分布采样,并通过对抗训练增强模型鲁棒性。与之前的离线方法不同,该系统可以递归地生成意图和反应式运动,利用早期步骤的反馈,从而实现实时、长期的逼真交互合成。定量和定性实验表明,我们的方法优于其他基于匹配的运动合成方法,提供了卓越的稳定性和泛化性。在我们的方法中,用户还可以通过控制移动方向来积极地影响结果,从而创建偏离预定义轨迹的个性化交互路径。

🔬 方法详解

问题定义:现有反应式运动合成方法,特别是基于匹配的方法,在处理未来运动的不确定性时存在困难。这导致合成的运动不够自然和稳定,并且难以实现实时的、用户可控的交互。这些方法通常依赖于预定义的轨迹或离线优化,限制了其泛化能力和适应性。

核心思路:该论文的核心思路是通过引入“意图”的概念来解决未来运动的不确定性。意图预测器预测角色在短时间内的运动目标(例如,移动方向、速度等),并将这些意图作为姿势预测的条件。通过将意图编码到反应式运动的潜在空间中,模型可以更好地理解和预测角色对不同输入和交互的反应。

技术框架:该方法包含以下主要模块:1) 意图预测器:根据历史运动数据预测关键关节的意图。2) 编码器:将意图编码到潜在空间中。3) 码本:存储输入和输出之间映射关系的码本。4) 解码器:从潜在空间解码出反应式运动姿势。5) 对抗训练模块:通过对抗训练提高模型的鲁棒性和生成运动的真实感。整个流程是递归的,即每一步生成的运动姿势都会反馈到意图预测器中,用于预测下一步的意图和运动。

关键创新:该方法最重要的技术创新点在于引入了意图预测器,并将意图作为姿势预测的条件。这使得模型能够更好地处理未来运动的不确定性,并生成更自然、更稳定的反应式运动。与现有方法相比,该方法不需要预定义的轨迹,并且可以实现实时的、用户可控的交互。

关键设计:意图预测器可能采用循环神经网络(RNN)或Transformer等序列模型。潜在空间的维度和码本的大小需要根据具体应用进行调整。对抗训练采用生成对抗网络(GAN)的框架,生成器负责生成反应式运动姿势,判别器负责区分生成的姿势和真实的姿势。损失函数包括意图预测损失、姿势重建损失和对抗损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在运动合成的稳定性和泛化性方面优于其他基于匹配的方法。用户可以通过控制移动方向来影响合成结果,实现个性化的交互路径。定量评估和定性评估都验证了该方法的有效性,但具体的性能数据(例如,运动质量的提升百分比)未知。

🎯 应用场景

该研究成果可应用于游戏、虚拟现实、机器人控制等领域。例如,在游戏中,可以利用该方法生成角色对玩家行为的实时反应,提高游戏的沉浸感和交互性。在虚拟现实中,可以创建更逼真的虚拟角色,并实现与用户的自然交互。在机器人控制中,可以使机器人能够根据环境变化和用户指令做出灵活的反应。

📄 摘要(原文)

We propose a real-time method for reactive motion synthesis based on the known trajectory of input character, predicting instant reactions using only historical, user-controlled motions. Our method handles the uncertainty of future movements by introducing an intention predictor, which forecasts key joint intentions to make pose prediction more deterministic from the historical interaction. The intention is later encoded into the latent space of its reactive motion, matched with a codebook which represents mappings between input and output. It samples a categorical distribution for pose generation and strengthens model robustness through adversarial training. Unlike previous offline approaches, the system can recursively generate intentions and reactive motions using feedback from earlier steps, enabling real-time, long-term realistic interactive synthesis. Both quantitative and qualitative experiments show our approach outperforms other matching-based motion synthesis approaches, delivering superior stability and generalizability. In our method, user can also actively influence the outcome by controlling the moving directions, creating a personalized interaction path that deviates from predefined trajectories.