ARFlow: Human Action-Reaction Flow Matching with Physical Guidance

📄 arXiv: 2503.16973v3 📥 PDF

作者: Wentao Jiang, Jingya Wang, Kaiyang Ji, Baoxiong Jia, Siyuan Huang, Ye Shi

分类: cs.CV, cs.AI

发布日期: 2025-03-21 (更新: 2025-06-02)

备注: Project Page: https://arflow2025.github.io/


💡 一句话要点

ARFlow:基于物理引导的人体动作-反应流匹配模型,解决交互合成中的物理穿透问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱五:交互与反应 (Interaction & Reaction)

关键词: 动作反应合成 流匹配 物理引导 人体运动 人机交互

📋 核心要点

  1. 现有基于扩散模型的人体交互合成方法依赖复杂的条件机制,且生成的动作反应容易出现物理穿透问题。
  2. ARFlow通过建立直接的动作到反应映射,避免了复杂的条件机制,并引入物理引导机制防止身体穿透。
  3. 实验表明,ARFlow在FID、运动多样性方面优于现有方法,并显著减少了身体碰撞。

📝 摘要(中文)

人体动作-反应合成是建模因果人际互动中的一个基本挑战,在虚拟现实和社交机器人等应用中起着关键作用。虽然基于扩散的模型已经展示了良好的性能,但它们在交互合成方面存在两个主要限制:依赖于具有复杂条件机制的复杂噪声到反应生成器,以及在生成的运动中频繁出现物理违规。为了解决这些问题,我们提出了动作-反应流匹配(ARFlow),这是一种新颖的框架,它建立了直接的动作到反应映射,消除了对复杂条件机制的需求。我们的方法引入了一种专门为流匹配(FM)设计的物理引导机制,该机制有效地防止了采样期间的身体穿透伪影。此外,我们发现了传统流匹配采样算法的偏差,并采用重投影方法来修正FM的采样方向。为了进一步提高反应多样性,我们将随机性融入到采样过程中。在NTU120、Chi3D和InterHuman数据集上的大量实验表明,ARFlow不仅在Fréchet Inception Distance和运动多样性方面优于现有方法,而且显著减少了身体碰撞,正如我们新的Intersection Volume和Intersection Frequency指标所衡量的那样。

🔬 方法详解

问题定义:人体动作-反应合成旨在根据给定的动作预测合理的反应动作。现有方法,特别是基于扩散模型的方法,通常需要复杂的条件生成机制来建模动作与反应之间的关系。此外,由于缺乏对物理约束的显式建模,生成的反应动作经常出现身体穿透等不符合物理规律的现象。

核心思路:ARFlow的核心思路是建立一个直接的动作到反应的映射,避免复杂的条件生成过程。通过流匹配(Flow Matching)技术,学习一个从动作空间到反应空间的连续变换。同时,引入物理引导机制,在采样过程中显式地约束生成的动作,防止身体穿透。

技术框架:ARFlow的整体框架包括以下几个主要模块:1) 动作编码器:将输入的动作序列编码成一个特征向量。2) 流场学习模块:利用流匹配技术,学习一个从动作特征向量到反应动作的连续向量场。3) 物理引导采样模块:在流场中进行采样,生成反应动作,同时利用物理引导机制约束采样过程,防止身体穿透。4) 重投影修正模块:修正流匹配采样算法的偏差,提升采样质量。

关键创新:ARFlow的关键创新在于:1) 提出了基于流匹配的直接动作-反应映射,简化了生成过程。2) 引入了物理引导机制,显式地约束生成的动作,有效防止了身体穿透。3) 提出了重投影修正方法,修正了传统流匹配采样算法的偏差。

关键设计:物理引导机制通过计算身体各部分之间的距离,并施加惩罚项来避免身体穿透。具体来说,定义了Intersection Volume和Intersection Frequency两个指标来衡量身体穿透的程度,并将这两个指标作为损失函数的一部分,引导模型学习生成符合物理规律的动作。此外,为了增加反应的多样性,在采样过程中引入了随机噪声。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ARFlow在NTU120、Chi3D和InterHuman数据集上进行了评估,实验结果表明,ARFlow在Fréchet Inception Distance (FID) 和运动多样性方面均优于现有方法。更重要的是,ARFlow显著减少了身体碰撞,Intersection Volume和Intersection Frequency指标均大幅降低,验证了物理引导机制的有效性。例如,在InterHuman数据集上,ARFlow的Intersection Volume比现有最佳方法降低了约50%。

🎯 应用场景

ARFlow在虚拟现实、社交机器人、游戏开发等领域具有广泛的应用前景。例如,在虚拟现实中,可以根据用户的动作实时生成逼真的虚拟人物反应,增强用户的沉浸感。在社交机器人中,可以使机器人能够根据人的动作做出自然的反应,提高人机交互的自然性。在游戏开发中,可以用于生成游戏角色的动作,提高游戏的真实感和趣味性。

📄 摘要(原文)

Human action-reaction synthesis, a fundamental challenge in modeling causal human interactions, plays a critical role in applications ranging from virtual reality to social robotics. While diffusion-based models have demonstrated promising performance, they exhibit two key limitations for interaction synthesis: reliance on complex noise-to-reaction generators with intricate conditional mechanisms, and frequent physical violations in generated motions. To address these issues, we propose Action-Reaction Flow Matching (ARFlow), a novel framework that establishes direct action-to-reaction mappings, eliminating the need for complex conditional mechanisms. Our approach introduces a physical guidance mechanism specifically designed for Flow Matching (FM) that effectively prevents body penetration artifacts during sampling. Moreover, we discover the bias of traditional flow matching sampling algorithm and employ a reprojection method to revise the sampling direction of FM. To further enhance the reaction diversity, we incorporate randomness into the sampling process. Extensive experiments on NTU120, Chi3D and InterHuman datasets demonstrate that ARFlow not only outperforms existing methods in terms of Fréchet Inception Distance and motion diversity but also significantly reduces body collisions, as measured by our new Intersection Volume and Intersection Frequency metrics.