MoReact: Generating Reactive Motion from Textual Descriptions

📄 arXiv: 2509.23911v1 📥 PDF

作者: Xiyan Xu, Sirui Xu, Yu-Xiong Wang, Liang-Yan Gui

分类: cs.CV

发布日期: 2025-09-28

备注: Published in Transactions on Machine Learning Research

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

MoReact:提出一种基于文本描述生成反应性动作的扩散模型。

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction)

关键词: 反应动作生成 文本驱动 扩散模型 人机交互 动作捕捉

📋 核心要点

  1. 现有方法在生成人类交互反应时,未能充分利用文本语义信息,导致反应缺乏自适应性。
  2. MoReact通过扩散模型解耦全局轨迹和局部动作的生成,并引入交互损失来提升真实感。
  3. 实验表明,MoReact能够生成逼真、多样且可控的反应,与对手动作和文本描述相符。

📝 摘要(中文)

对人类反应进行建模和生成是一个重要的挑战,在计算机视觉和人机交互领域有着广泛的应用。现有方法要么将多个人视为一个整体,直接生成交互,要么仅依赖一个人的动作来生成另一个人的反应,未能整合支撑人类交互的丰富语义信息。这些方法通常在自适应响应能力方面存在不足,即无法准确响应多样化和动态的交互场景。针对这一差距,我们的工作提出了一种专门针对文本驱动的人类反应生成的方法。我们的模型根据交互场景的描述性文本,为个体生成对他人动作做出反应的逼真动作序列。目标是生成不仅补充对手动作,而且在语义上符合所描述交互的动作序列。为此,我们提出了一种基于扩散的方法MoReact,旨在顺序地解耦全局轨迹和局部动作的生成。这种方法源于首先生成全局轨迹对于指导局部动作至关重要,从而确保与给定的动作和文本更好地对齐的观察。此外,我们引入了一种新的交互损失,以增强生成的近距离交互的真实感。我们的实验利用改编自双人动作数据集的数据,证明了我们的方法对于这项新任务的有效性,该方法能够产生逼真、多样化和可控的反应,这些反应不仅与对应方的动作紧密匹配,而且符合文本指导。

🔬 方法详解

问题定义:论文旨在解决如何根据文本描述生成逼真、多样且可控的人类反应动作的问题。现有方法的痛点在于,要么忽略了文本提供的丰富语义信息,要么无法很好地处理多变的交互场景,导致生成的反应动作缺乏真实感和自适应性。

核心思路:论文的核心思路是将反应动作的生成过程分解为全局轨迹生成和局部动作生成两个阶段,并使用扩散模型分别进行建模。首先生成全局轨迹,可以为后续的局部动作生成提供指导,确保生成的动作与整体交互场景保持一致。同时,引入交互损失来增强生成的动作与对手动作之间的协调性和真实感。

技术框架:MoReact的整体框架包含以下几个主要模块:1) 文本编码器:用于提取文本描述中的语义信息。2) 全局轨迹生成器:使用扩散模型生成反应动作的全局轨迹。3) 局部动作生成器:基于全局轨迹和对手动作,使用扩散模型生成反应动作的局部动作。4) 交互损失:用于约束生成的动作与对手动作之间的协调性。整个流程是先由文本编码器提取文本特征,然后全局轨迹生成器根据文本特征生成全局轨迹,最后局部动作生成器根据全局轨迹和对手动作生成最终的反应动作。

关键创新:MoReact的关键创新在于:1) 将反应动作生成分解为全局轨迹和局部动作两个阶段,并分别使用扩散模型进行建模。2) 引入了交互损失,用于增强生成的动作与对手动作之间的协调性和真实感。与现有方法相比,MoReact能够更好地利用文本语义信息,并生成更逼真、多样和可控的反应动作。

关键设计:在全局轨迹生成器和局部动作生成器中,均使用了基于Transformer的扩散模型。交互损失的设计考虑了动作之间的距离、速度和方向等因素,以确保生成的动作与对手动作之间具有良好的协调性。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MoReact在生成逼真、多样和可控的反应动作方面优于现有方法。通过定量评估和定性分析,验证了MoReact能够更好地利用文本语义信息,并生成与对手动作协调一致的反应动作。具体性能数据(如FID、多样性指标等)和对比基线在论文中有详细展示。

🎯 应用场景

MoReact具有广泛的应用前景,例如:1) 虚拟现实和增强现实:可以用于生成虚拟角色的逼真反应,增强用户体验。2) 游戏开发:可以用于生成游戏角色的自然反应,提升游戏的沉浸感。3) 社交机器人:可以用于生成社交机器人的情感反应,使其更具人情味。4) 动画制作:可以辅助动画师生成更生动的人物动作。

📄 摘要(原文)

Modeling and generating human reactions poses a significant challenge with broad applications for computer vision and human-computer interaction. Existing methods either treat multiple individuals as a single entity, directly generating interactions, or rely solely on one person's motion to generate the other's reaction, failing to integrate the rich semantic information that underpins human interactions. Yet, these methods often fall short in adaptive responsiveness, i.e., the ability to accurately respond to diverse and dynamic interaction scenarios. Recognizing this gap, our work introduces an approach tailored to address the limitations of existing models by focusing on text-driven human reaction generation. Our model specifically generates realistic motion sequences for individuals that responding to the other's actions based on a descriptive text of the interaction scenario. The goal is to produce motion sequences that not only complement the opponent's movements but also semantically fit the described interactions. To achieve this, we present MoReact, a diffusion-based method designed to disentangle the generation of global trajectories and local motions sequentially. This approach stems from the observation that generating global trajectories first is crucial for guiding local motion, ensuring better alignment with given action and text. Furthermore, we introduce a novel interaction loss to enhance the realism of generated close interactions. Our experiments, utilizing data adapted from a two-person motion dataset, demonstrate the efficacy of our approach for this novel task, which is capable of producing realistic, diverse, and controllable reactions that not only closely match the movements of the counterpart but also adhere to the textual guidance. Please find our webpage at https://xiyan-xu.github.io/MoReactWebPage.