ReactMotion: Generating Reactive Listener Motions from Speaker Utterance

📄 arXiv: 2603.15083v1 📥 PDF

作者: Cheng Luo, Bizhu Wu, Bing Li, Jianfeng Ren, Ruibin Bai, Rong Qu, Linlin Shen, Bernard Ghanem

分类: cs.CV, cs.AI, cs.HC, cs.MM, cs.SD

发布日期: 2026-03-16

备注: 42 pages, 11 tables, 8 figures


💡 一句话要点

提出ReactMotion,用于从说话人话语生成反应式听者动作

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 听者动作生成 反应式动作 人机交互 偏好学习 多模态融合

📋 核心要点

  1. 现有方法难以建模听者对说话者话语的非确定性反应,缺乏对听者行为多样性的有效捕捉。
  2. ReactMotionNet通过大规模数据集和偏好学习,显式建模听者反应的一对多关系,鼓励生成适当且多样化的动作。
  3. ReactMotion在生成自然、多样且适当的听者动作方面,显著优于检索基线和基于LLM的级联方法。

📝 摘要(中文)

本文介绍了一项新任务:从说话人话语生成反应式听者动作,旨在生成对说话人话语做出适当反应的自然听者身体动作。由于人类反应的内在不确定性,对此类非语言听者行为的建模仍然有待探索且具有挑战性。为了促进这项任务,我们提出了ReactMotionNet,这是一个大规模数据集,将说话人话语与多个带有不同程度适当性的候选听者动作配对。这种数据集设计明确地捕捉了听者行为的一对多性质,并提供了超越单一真实动作的监督。基于此数据集设计,我们开发了面向偏好的评估协议,专门用于评估反应的适当性,而传统的侧重于输入-动作对齐的动作指标则忽略了这一点。我们进一步提出了ReactMotion,一个统一的生成框架,联合建模文本、音频、情感和动作,并使用基于偏好的目标进行训练,以鼓励适当且多样化的听者反应。大量实验表明,ReactMotion优于检索基线和基于LLM的级联管道,生成更自然、多样化和适当的听者动作。

🔬 方法详解

问题定义:论文旨在解决从说话人话语生成自然且适当的听者身体动作的问题。现有方法主要痛点在于,人类对同一句话的反应具有多样性,而传统方法难以捕捉这种一对多的关系,并且缺乏针对反应适当性的有效评估指标。

核心思路:论文的核心思路是构建一个大规模数据集ReactMotionNet,该数据集包含说话人话语以及多个带有不同适当性程度的候选听者动作。同时,设计基于偏好的学习目标,鼓励模型生成既适当又多样化的听者反应。

技术框架:ReactMotion是一个统一的生成框架,它联合建模文本、音频、情感和动作信息。该框架接收说话人的话语作为输入,通过编码器提取特征,然后使用生成器生成听者的动作序列。框架包含文本编码器、音频编码器、情感编码器和动作生成器等模块。

关键创新:论文的关键创新在于:1) 提出了ReactMotionNet数据集,显式地捕捉了听者行为的一对多性质;2) 设计了面向偏好的评估协议,用于评估反应的适当性;3) 提出了ReactMotion框架,通过偏好学习鼓励生成适当且多样化的听者反应。

关键设计:ReactMotion框架使用Transformer架构作为其核心构建块。损失函数包括动作重建损失、对抗损失和偏好损失。偏好损失用于区分更适当和更不适当的听者动作。具体来说,模型会学习一个奖励函数,该函数对更适当的动作给予更高的奖励。在训练过程中,模型会尝试生成能够最大化奖励的动作序列。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ReactMotion在生成自然、多样和适当的听者动作方面优于基线方法。具体来说,ReactMotion在用户偏好评估中显著优于检索基线和基于LLM的级联管道。用户更倾向于ReactMotion生成的动作,认为其更自然、更符合语境。

🎯 应用场景

该研究成果可应用于虚拟现实、游戏、社交机器人等领域,提升人机交互的自然性和真实感。例如,在虚拟会议中,虚拟听众可以根据发言者的内容做出相应的反应,增强沉浸式体验。此外,该技术还可以用于生成更具表现力的虚拟角色,提升娱乐体验。

📄 摘要(原文)

In this paper, we introduce a new task, Reactive Listener Motion Generation from Speaker Utterance, which aims to generate naturalistic listener body motions that appropriately respond to a speaker's utterance. However, modeling such nonverbal listener behaviors remains underexplored and challenging due to the inherently non-deterministic nature of human reactions. To facilitate this task, we present ReactMotionNet, a large-scale dataset that pairs speaker utterances with multiple candidate listener motions annotated with varying degrees of appropriateness. This dataset design explicitly captures the one-to-many nature of listener behavior and provides supervision beyond a single ground-truth motion. Building on this dataset design, we develop preference-oriented evaluation protocols tailored to evaluate reactive appropriateness, where conventional motion metrics focusing on input-motion alignment ignore. We further propose ReactMotion, a unified generative framework that jointly models text, audio, emotion, and motion, and is trained with preference-based objectives to encourage both appropriate and diverse listener responses. Extensive experiments show that ReactMotion outperforms retrieval baselines and cascaded LLM-based pipelines, generating more natural, diverse, and appropriate listener motions.