MoFlow: One-Step Flow Matching for Human Trajectory Forecasting via Implicit Maximum Likelihood Estimation based Distillation
作者: Yuxiang Fu, Qi Yan, Lele Wang, Ke Li, Renjie Liao
分类: cs.CV, cs.AI, cs.LG
发布日期: 2025-03-13
备注: Accepted to CVPR 2025
💡 一句话要点
MoFlow:基于隐式最大似然蒸馏的单步流匹配人体轨迹预测
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 人体轨迹预测 流匹配 条件生成模型 隐式最大似然估计 模型蒸馏 多模态预测 运动预测
📋 核心要点
- 人体轨迹预测面临多模态未来运动的挑战,现有方法难以兼顾准确性和多样性。
- MoFlow通过流匹配和隐式最大似然蒸馏,学习生成多样且合理的未来轨迹。
- 实验表明,MoFlow及其蒸馏模型在多个数据集上达到SOTA,且推理速度显著提升。
📝 摘要(中文)
本文旨在解决人体轨迹预测问题,即基于过去轨迹和其他上下文线索预测人类未来运动的内在多模态性。我们提出了一种新颖的运动预测条件流匹配模型,称为MoFlow,用于预测给定场景中所有智能体的K-shot未来轨迹。我们设计了一种新的流匹配损失函数,该函数不仅确保至少一组K个未来轨迹是准确的,而且鼓励所有K个未来轨迹是多样且合理的。此外,通过利用隐式最大似然估计(IMLE),我们提出了一种新的流模型蒸馏方法,该方法仅需要来自教师模型的样本。在真实世界数据集(包括SportVU NBA游戏、ETH-UCY和SDD)上的大量实验表明,我们的教师流模型和IMLE蒸馏的学生模型均实现了最先进的性能。这些模型可以生成物理和社会上合理的多样化轨迹。此外,我们的单步学生模型在采样过程中比教师流模型快100倍。
🔬 方法详解
问题定义:人体轨迹预测旨在根据历史轨迹预测未来轨迹,难点在于预测结果的多模态性,即存在多种可能的未来运动轨迹。现有方法通常难以同时保证预测轨迹的准确性和多样性,容易陷入模式崩溃或生成不合理的轨迹。
核心思路:MoFlow的核心思路是利用条件流匹配模型学习轨迹分布,并结合隐式最大似然估计(IMLE)进行模型蒸馏。通过流匹配,模型可以学习到从简单分布到复杂轨迹分布的映射,从而生成多样化的轨迹。IMLE则用于将教师模型的知识迁移到更高效的学生模型,加速推理过程。
技术框架:MoFlow包含教师模型和学生模型两个部分。教师模型是一个条件流匹配模型,通过最小化流匹配损失函数来学习轨迹分布。学生模型则通过IMLE从教师模型中学习,目标是逼近教师模型的输出分布。整体流程包括:1) 训练教师流模型;2) 使用教师模型生成样本;3) 使用IMLE训练学生模型,使其逼近教师模型的输出分布。
关键创新:MoFlow的关键创新在于:1) 提出了基于流匹配的轨迹预测模型,能够生成多样化的轨迹;2) 设计了一种新的流匹配损失函数,既保证了至少一个预测轨迹的准确性,又鼓励了所有轨迹的多样性;3) 提出了基于IMLE的蒸馏方法,能够将教师模型的知识迁移到学生模型,实现推理加速。
关键设计:MoFlow使用了一种新的流匹配损失函数,该函数包含两部分:一部分是标准的流匹配损失,用于保证预测轨迹的准确性;另一部分是一个多样性损失,用于鼓励预测轨迹的多样性。学生模型采用单步预测结构,显著提升了推理速度。IMLE蒸馏过程通过最小化学生模型和教师模型输出之间的距离来实现知识迁移。
🖼️ 关键图片
📊 实验亮点
MoFlow在SportVU NBA、ETH-UCY和SDD等数据集上取得了SOTA性能。与现有方法相比,MoFlow能够生成更准确、更多样化的轨迹。更重要的是,通过IMLE蒸馏,学生模型的推理速度比教师模型快100倍,实现了性能和效率的双重提升。
🎯 应用场景
MoFlow在自动驾驶、社交机器人、监控系统等领域具有广泛的应用前景。准确且多样化的人体轨迹预测可以帮助自动驾驶系统更好地理解周围环境,提高安全性;社交机器人可以根据预测结果做出更自然的反应;监控系统可以提前预警潜在的危险行为。
📄 摘要(原文)
In this paper, we address the problem of human trajectory forecasting, which aims to predict the inherently multi-modal future movements of humans based on their past trajectories and other contextual cues. We propose a novel motion prediction conditional flow matching model, termed MoFlow, to predict K-shot future trajectories for all agents in a given scene. We design a novel flow matching loss function that not only ensures at least one of the $K$ sets of future trajectories is accurate but also encourages all $K$ sets of future trajectories to be diverse and plausible. Furthermore, by leveraging the implicit maximum likelihood estimation (IMLE), we propose a novel distillation method for flow models that only requires samples from the teacher model. Extensive experiments on the real-world datasets, including SportVU NBA games, ETH-UCY, and SDD, demonstrate that both our teacher flow model and the IMLE-distilled student model achieve state-of-the-art performance. These models can generate diverse trajectories that are physically and socially plausible. Moreover, our one-step student model is $\textbf{100}$ times faster than the teacher flow model during sampling. The code, model, and data are available at our project page: https://moflow-imle.github.io