TIGFlow-GRPO: Trajectory Forecasting via Interaction-Aware Flow Matching and Reward-Guided Optimization

📄 arXiv: 2603.24936 📥 PDF

作者: Xuepeng Jing, Wenhuan Lu, Hao Meng, Zhizhi Yu, Jianguo Wei

分类: cs.CV, cs.AI

发布日期: 2026-04-07


💡 一句话要点

提出TIGFlow-GRPO,通过交互感知流匹配和奖励引导优化实现更符合社会规范的轨迹预测。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 轨迹预测 条件流匹配 交互感知 奖励引导优化 行为规则 自动驾驶 人群监控

📋 核心要点

  1. 现有轨迹预测方法侧重于监督拟合,忽略了社会规范和场景约束,导致预测轨迹不符合实际。
  2. TIGFlow-GRPO通过两阶段方法,利用TIG模块增强上下文编码,并使用Flow-GRPO进行行为规则对齐。
  3. 实验表明,TIGFlow-GRPO在ETH/UCY和SDD数据集上提高了预测精度和长时程稳定性,并生成更符合社会规范的轨迹。

📝 摘要(中文)

人类轨迹预测对于在视觉复杂的环境中运行的智能多媒体系统至关重要,例如自动驾驶和人群监控。虽然条件流匹配(CFM)在建模时空观测中的轨迹分布方面表现出强大的能力,但现有方法主要侧重于监督拟合,这可能导致社会规范和场景约束在生成的轨迹中反映不足。为了解决这个问题,我们提出了一种两阶段生成方法TIGFlow-GRPO,该方法将基于流的轨迹生成与行为规则对齐。在第一阶段,我们构建了一个基于CFM的预测器,其中包含一个轨迹-交互-图(TIG)模块,用于建模细粒度的视觉空间交互并加强上下文编码。这一阶段更有效地捕获了agent-agent和agent-scene关系,为后续对齐提供了更丰富的信息条件特征。在第二阶段,我们执行Flow-GRPO后训练,其中确定性流展开被重新表述为随机ODE-to-SDE采样,以实现轨迹探索,并且复合奖励将视角感知的社会合规性与地图感知的物理可行性相结合。通过评估通过SDE展开探索的轨迹,GRPO逐步引导多模态预测朝着行为上合理的未来发展。在ETH/UCY和SDD数据集上的实验表明,TIGFlow-GRPO提高了预测精度和长时程稳定性,同时生成了更符合社会规范和物理约束的轨迹。结果表明,所提出的方法提供了一种有效的方式来连接动态多媒体环境中基于流的轨迹建模与行为感知对齐。

🔬 方法详解

问题定义:现有轨迹预测方法主要依赖于监督学习,忽略了场景中的社会规范和物理约束,导致预测的轨迹可能不合理,例如穿墙、碰撞等。这些方法无法很好地泛化到复杂的真实场景中,尤其是在长时程预测时,误差会迅速累积。

核心思路:TIGFlow-GRPO的核心思路是将轨迹生成过程与行为规则对齐。首先,利用条件流匹配(CFM)学习轨迹分布,并使用轨迹交互图(TIG)模块增强对agent之间以及agent与场景之间交互的建模能力。然后,通过奖励引导策略优化(GRPO)对生成的轨迹进行后处理,使其更符合社会规范和物理约束。这样,既能利用CFM的生成能力,又能保证轨迹的合理性。

技术框架:TIGFlow-GRPO包含两个主要阶段: 1. 基于TIG的CFM预测器:该阶段使用CFM学习轨迹分布,并引入TIG模块来建模agent-agent和agent-scene的交互关系,从而提供更丰富的上下文信息。 2. Flow-GRPO后训练:该阶段将确定性流展开重构为随机ODE-to-SDE采样,以实现轨迹探索。然后,使用一个复合奖励函数,结合视角感知的社会合规性与地图感知的物理可行性,通过GRPO算法优化轨迹,使其更符合行为规则。

关键创新:TIGFlow-GRPO的关键创新在于将基于流的生成模型与奖励引导的优化策略相结合。传统的CFM方法主要关注监督学习,而TIGFlow-GRPO通过GRPO引入了行为规则,从而能够生成更符合实际场景的轨迹。此外,TIG模块能够更有效地建模agent之间的交互关系,从而提高预测精度。

关键设计: * 轨迹交互图(TIG):用于建模agent-agent和agent-scene的交互关系,节点表示agent或场景元素,边表示它们之间的交互。 * 复合奖励函数:结合视角感知的社会合规性(例如,避免碰撞)与地图感知的物理可行性(例如,不穿墙)。 * ODE-to-SDE采样:将确定性流展开重构为随机过程,以实现轨迹探索,并允许GRPO算法对轨迹进行优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在ETH/UCY和SDD数据集上的实验表明,TIGFlow-GRPO在预测精度和长时程稳定性方面均优于现有方法。具体来说,TIGFlow-GRPO能够生成更符合社会规范和物理约束的轨迹,减少了碰撞和穿墙等不合理行为。实验结果表明,该方法能够有效地提高轨迹预测的可靠性和实用性。

🎯 应用场景

TIGFlow-GRPO在自动驾驶、人群监控、机器人导航等领域具有广泛的应用前景。它可以提高自动驾驶系统对行人和其他车辆轨迹的预测精度,从而提高安全性。在人群监控中,它可以用于异常行为检测和人群流量预测。在机器人导航中,它可以帮助机器人更好地理解周围环境,并规划出更合理的运动轨迹,从而在复杂环境中安全高效地移动。

📄 摘要(原文)

Human trajectory forecasting is important for intelligent multimedia systems operating in visually complex environments, such as autonomous driving and crowd surveillance. Although Conditional Flow Matching (CFM) has shown strong ability in modeling trajectory distributions from spatio-temporal observations, existing approaches still focus primarily on supervised fitting, which may leave social norms and scene constraints insufficiently reflected in generated trajectories. To address this issue, we propose TIGFlow-GRPO, a two-stage generative approach that aligns flow-based trajectory generation with behavioral rules. In the first stage, we build a CFM-based predictor with a Trajectory-Interaction-Graph (TIG) module to model fine-grained visual-spatial interactions and strengthen context encoding. This stage captures both agent-agent and agent-scene relations more effectively, providing more informative conditional features for subsequent alignment. In the second stage, we perform Flow-GRPO post-training, where deterministic flow rollout is reformulated as stochastic ODE-to-SDE sampling to enable trajectory exploration, and a composite reward combines view-aware social compliance with map-aware physical feasibility. By evaluating trajectories explored through SDE rollout, GRPO progressively steers multimodal predictions toward behaviorally plausible futures. Experiments on the ETH/UCY and SDD datasets show that TIGFlow-GRPOimproves forecasting accuracy and long-horizon stability while generatingtrajectories that are more socially compliant and physicallythis http URLresults suggest that the proposed approach provides an effective way to connectflow-based trajectory modeling with behavior-aware alignment in dynamic multimedia environments.