TIGFlow-GRPO: Trajectory Forecasting via Interaction-Aware Flow Matching and Reward-Driven Optimization

作者: Xuepeng Jing, Wenhuan Lu, Hao Meng, Zhizhi Yu, Jianguo Wei

分类: cs.CV, cs.AI

发布日期: 2026-03-26

💡 一句话要点

提出TIGFlow-GRPO框架，通过交互感知流匹配和奖励驱动优化实现更符合社会规范和物理约束的轨迹预测。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 轨迹预测 条件流匹配 交互图 奖励驱动优化 社会规范 物理约束 自动驾驶 人群监控

📋 核心要点

现有轨迹预测方法主要依赖监督学习，忽略了社会规范和场景约束，导致预测轨迹不符合实际。
TIGFlow-GRPO框架通过交互感知流匹配和奖励驱动优化，将轨迹生成与行为规则对齐，提升轨迹合理性。
实验结果表明，TIGFlow-GRPO在预测精度、长时程稳定性和轨迹合理性方面均有显著提升。

📝 摘要（中文）

本文提出了一种名为TIGFlow-GRPO的两阶段生成框架，旨在解决现有条件流匹配（CFM）方法在轨迹预测中未能充分考虑社会规范和场景约束的问题。第一阶段，构建了一个基于CFM的预测器，该预测器包含一个轨迹-交互-图（TIG）模块，用于建模细粒度的视觉-空间交互并加强上下文编码，从而更有效地捕捉智能体之间以及智能体与场景之间的关系。第二阶段，执行Flow-GRPO后训练，将确定性流展开重构为随机ODE-to-SDE采样以实现轨迹探索，并使用一个组合奖励来结合视角感知的社会合规性和地图感知的物理可行性。通过评估SDE展开探索的轨迹，GRPO逐步引导多模态预测朝着行为上合理的未来发展。在ETH/UCY和SDD数据集上的实验表明，TIGFlow-GRPO提高了预测精度和长时程稳定性，同时生成了更符合社会规范和物理可行性的轨迹。

🔬 方法详解

问题定义：现有的轨迹预测方法，特别是基于条件流匹配（CFM）的方法，主要集中在监督学习上，即直接拟合训练数据。这种方法忽略了场景中的社会规范（social norms）和物理约束（physical constraints），导致生成的轨迹可能不符合实际情况，例如穿墙、碰撞等。因此，需要一种能够将行为规则融入轨迹预测过程的方法。

核心思路：本文的核心思路是将流匹配（Flow Matching）的轨迹生成能力与奖励驱动的优化（Reward-Driven Optimization）相结合。首先，使用一个基于CFM的预测器生成轨迹，然后通过一个奖励函数来评估轨迹的社会合规性和物理可行性，并利用GRPO（Gradient-based Policy Optimization）算法来优化轨迹，使其更符合实际的行为规则。

技术框架：TIGFlow-GRPO框架包含两个主要阶段： 1. 基于TIG的CFM预测器：该阶段使用一个轨迹-交互-图（TIG）模块来建模智能体之间以及智能体与场景之间的细粒度交互，从而为后续的轨迹生成提供更丰富的上下文信息。 2. Flow-GRPO后训练：该阶段将确定性流展开重构为随机ODE-to-SDE采样，以实现轨迹探索。然后，使用一个组合奖励函数来评估轨迹的社会合规性和物理可行性，并利用GRPO算法来优化轨迹。

关键创新：该方法最重要的创新点在于将流匹配的轨迹生成能力与奖励驱动的优化相结合，从而能够在轨迹预测过程中显式地考虑社会规范和物理约束。此外，TIG模块的使用能够更有效地建模智能体之间的交互，从而提高预测精度。

关键设计： * 轨迹-交互-图（TIG）模块：用于建模智能体之间以及智能体与场景之间的交互关系。具体实现方式未知。 * 组合奖励函数：结合了视角感知的社会合规性和地图感知的物理可行性。具体实现方式未知。 * Flow-GRPO后训练：将确定性流展开重构为随机ODE-to-SDE采样，以实现轨迹探索。具体实现方式未知。

🖼️ 关键图片

📊 实验亮点

在ETH/UCY和SDD数据集上的实验结果表明，TIGFlow-GRPO框架在预测精度和长时程稳定性方面均优于现有方法。更重要的是，该框架生成的轨迹更符合社会规范和物理可行性，例如避免碰撞和穿墙等不合理行为。具体性能提升数据未知。

🎯 应用场景

TIGFlow-GRPO框架可应用于自动驾驶、人群监控、机器人导航等领域。通过生成更符合社会规范和物理约束的轨迹预测，可以提高自动驾驶车辆的安全性，改善人群监控系统的准确性，并使机器人能够更自然地与人类互动。该研究对于提升智能系统在复杂动态环境中的适应性和可靠性具有重要意义。

📄 摘要（原文）

Human trajectory forecasting is important for intelligent multimedia systems operating in visually complex environments, such as autonomous driving and crowd surveillance. Although Conditional Flow Matching (CFM) has shown strong ability in modeling trajectory distributions from spatio-temporal observations, existing approaches still focus primarily on supervised fitting, which may leave social norms and scene constraints insufficiently reflected in generated trajectories. To address this issue, we propose TIGFlow-GRPO, a two-stage generative framework that aligns flow-based trajectory generation with behavioral rules. In the first stage, we build a CFM-based predictor with a Trajectory-Interaction-Graph (TIG) module to model fine-grained visual-spatial interactions and strengthen context encoding. This stage captures both agent-agent and agent-scene relations more effectively, providing more informative conditional features for subsequent alignment. In the second stage, we perform Flow-GRPO post-training,where deterministic flow rollout is reformulated as stochastic ODE-to-SDE sampling to enable trajectory exploration, and a composite reward combines view-aware social compliance with map-aware physical feasibility. By evaluating trajectories explored through SDE rollout, GRPO progressively steers multimodal predictions toward behaviorally plausible futures. Experiments on the ETH/UCY and SDD datasets show that TIGFlow-GRPO improves forecasting accuracy and long-horizon stability while generating trajectories that are more socially compliant and physically feasible. These results suggest that the proposed framework provides an effective way to connect flow-based trajectory modeling with behavior-aware alignment in dynamic multimedia environments.

TIGFlow-GRPO: Trajectory Forecasting via Interaction-Aware Flow Matching and Reward-Driven Optimization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理