Think-Then-React: Towards Unconstrained Human Action-to-Reaction Generation

📄 arXiv: 2503.16451v1 📥 PDF

作者: Wenhui Tan, Boyuan Li, Chuhao Jin, Wenbing Huang, Xiting Wang, Ruihua Song

分类: cs.HC, cs.AI, cs.RO

发布日期: 2025-02-19

备注: Accepted by ICLR 2025


💡 一句话要点

提出Think-Then-React框架,用于生成符合人类行为逻辑的反应动作

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 动作到反应生成 人机交互 大型语言模型 运动生成 多模态学习

📋 核心要点

  1. 现有方法难以在没有提示的情况下直接从动作序列预测反应,且缺乏统一的多人运动表示。
  2. TTR框架通过“思考”阶段推断动作意图和反应描述,再通过“反应”阶段预测反应动作。
  3. 实验表明,TTR在生成类人反应动作方面优于现有方法,FID指标显著降低。

📝 摘要(中文)

本文提出Think-Then-React (TTR)框架,旨在生成类人反应动作,该框架基于大型语言模型,适用于人机交互和游戏等领域。由于缺乏提示信息,直接从动作序列预测反应具有挑战性,且缺乏有效编码多人运动的统一表示。TTR通过精细的多模态训练策略,统一了推理过程中的两个阶段:思考阶段,显式地推断动作意图和相应的反应描述,作为语义提示;反应阶段,基于输入动作和推断的语义提示预测反应。此外,提出了一种统一的运动tokenizer,通过解耦自我中心姿态和绝对空间特征,有效地表示动作和反应运动。实验结果表明,TTR优于现有基线,并在评估指标上取得了显著改进,例如将FID从3.988降低到1.942。

🔬 方法详解

问题定义:论文旨在解决从人类动作生成符合逻辑的反应动作的问题。现有方法主要痛点在于:一是缺乏有效的机制来推断动作的潜在意图,导致生成的反应缺乏合理性;二是缺乏统一的表示方法来处理多人运动场景,难以捕捉人与人之间的交互关系。

核心思路:论文的核心思路是将反应生成过程分解为两个阶段:“思考”和“反应”。“思考”阶段利用大型语言模型推断动作的意图,并生成相应的反应描述,作为后续反应生成的语义提示。“反应”阶段则基于输入的动作和语义提示,生成最终的反应动作。这种分解的思路使得模型能够更好地理解动作的含义,并生成更符合人类行为逻辑的反应。

技术框架:TTR框架主要包含两个阶段:思考阶段和反应阶段。在思考阶段,模型接收输入的动作序列,利用大型语言模型(如Transformer)推断动作的意图,并生成反应描述。在反应阶段,模型接收输入的动作序列和思考阶段生成的反应描述,利用运动生成模型(如扩散模型)生成反应动作序列。此外,论文还提出了一个统一的运动tokenizer,用于将动作和反应的运动数据编码成语言模型可以处理的token序列。

关键创新:论文的关键创新点在于:一是提出了“思考-反应”的分解框架,使得模型能够更好地理解动作的意图,并生成更合理的反应;二是提出了统一的运动tokenizer,能够有效地表示多人运动数据,并将其输入到语言模型中进行处理。

关键设计:在思考阶段,论文采用了微调的大型语言模型,并设计了精细的多模态训练策略,以提高模型推断动作意图的准确性。在反应阶段,论文采用了扩散模型作为运动生成模型,并利用思考阶段生成的反应描述作为条件,引导模型生成符合人类行为逻辑的反应动作。统一运动tokenizer通过解耦自我中心姿态和绝对空间特征,实现了动作和反应运动的统一编码。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TTR框架在生成类人反应动作方面取得了显著的提升。例如,在HumanAct12数据集上,TTR框架的FID指标从基线的3.988降低到1.942,表明生成的反应动作更加真实、自然。此外,实验还证明了TTR框架在处理多人运动场景方面的有效性。

🎯 应用场景

该研究成果可应用于人机交互、虚拟现实、游戏等领域。例如,在人机交互中,机器人可以根据人类的动作生成相应的反应,从而实现更自然、流畅的交互体验。在游戏中,NPC可以根据玩家的动作生成更智能、更符合逻辑的反应,从而提高游戏的沉浸感和趣味性。未来,该技术还可以应用于康复训练、社交机器人等领域。

📄 摘要(原文)

Modeling human-like action-to-reaction generation has significant real-world applications, like human-robot interaction and games. Despite recent advancements in single-person motion generation, it is still challenging to well handle action-to-reaction generation, due to the difficulty of directly predicting reaction from action sequence without prompts, and the absence of a unified representation that effectively encodes multi-person motion. To address these challenges, we introduce Think-Then-React (TTR), a large language-model-based framework designed to generate human-like reactions. First, with our fine-grained multimodal training strategy, TTR is capable to unify two processes during inference: a thinking process that explicitly infers action intentions and reasons corresponding reaction description, which serve as semantic prompts, and a reacting process that predicts reactions based on input action and the inferred semantic prompts. Second, to effectively represent multi-person motion in language models, we propose a unified motion tokenizer by decoupling egocentric pose and absolute space features, which effectively represents action and reaction motion with same encoding. Extensive experiments demonstrate that TTR outperforms existing baselines, achieving significant improvements in evaluation metrics, such as reducing FID from 3.988 to 1.942.