Multi-modal Knowledge Distillation-based Human Trajectory Forecasting

作者: Jaewoo Jeong, Seohee Lee, Daehee Park, Giwon Lee, Kuk-Jin Yoon

分类: cs.CV

发布日期: 2025-03-28

备注: Accepted to CVPR 2025

🔗 代码/项目: GITHUB

💡 一句话要点

提出基于多模态知识蒸馏的人类轨迹预测框架，提升资源受限场景下的预测精度。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 行人轨迹预测 多模态学习 知识蒸馏 视觉语言模型 资源受限系统

📋 核心要点

现有行人轨迹预测方法难以在资源受限系统上有效利用多模态信息（如文本），限制了预测精度。
提出多模态知识蒸馏框架，将包含轨迹、姿态和文本信息的教师模型知识迁移到仅使用有限模态的学生模型。
实验表明，该框架在多个数据集上，使用不同观测条件，均能显著提升学生模型的轨迹预测性能，最高提升约13%。

📝 摘要（中文）

行人轨迹预测在自动驾驶和移动机器人导航等应用中至关重要。基于摄像头的感知能够提取额外的模态（人体姿态、文本）以提高预测精度。文本描述在整合多种模态以实现统一理解方面起着关键作用。然而，在线提取文本需要使用VLM，这对于资源受限的系统来说可能不可行。为了解决这个问题，我们提出了一个多模态知识蒸馏框架：一个具有有限模态的学生模型从一个用全范围模态训练的教师模型中进行蒸馏。教师模型利用轨迹、人体姿态和文本进行训练，其综合知识被提炼到仅使用轨迹或人体姿态作为补充的学生模型中。通过这样做，我们分别从agent内部的多模态和agent间的交互中提取核心的运动信息。我们的通用框架通过在ego-view（JRDB、SIT）和BEV-view（ETH/UCY）设置的三个数据集上的两个最先进的模型进行了验证，利用了带注释的和VLM生成的文本描述。蒸馏后的学生模型在完整和瞬时观测的所有预测指标上都表现出一致的改进，提升高达约13%。代码可在https://github.com/Jaewoo97/KDTF 获取。

🔬 方法详解

问题定义：论文旨在解决在资源受限的场景下，如何有效地利用多模态信息（例如文本描述）来提升行人轨迹预测的精度。现有方法通常需要在线提取文本信息，这依赖于大型视觉语言模型（VLM），计算成本高昂，不适用于资源有限的系统。因此，如何在不增加计算负担的前提下，利用多模态信息成为一个挑战。

核心思路：论文的核心思路是利用知识蒸馏技术，将一个在全模态（轨迹、姿态、文本）上训练的教师模型的知识迁移到一个只使用部分模态（轨迹或姿态）的学生模型。这样，学生模型可以在不依赖在线VLM的情况下，学习到多模态信息带来的预测能力提升。

技术框架：整体框架包含两个阶段：教师模型训练和知识蒸馏。首先，使用轨迹、人体姿态和文本数据训练一个教师模型，使其能够充分利用多模态信息进行轨迹预测。然后，使用教师模型的输出作为监督信号，训练一个只使用轨迹或人体姿态作为输入的学生模型。蒸馏过程分别提取agent内部的多模态信息和agent间的交互信息。

关键创新：该论文的关键创新在于提出了一个多模态知识蒸馏框架，能够将全模态教师模型的知识迁移到有限模态的学生模型，从而在资源受限的场景下实现高性能的轨迹预测。与现有方法相比，该方法避免了在线VLM的使用，降低了计算成本，同时保持了较高的预测精度。

关键设计：论文中，教师模型和学生模型可以采用不同的网络结构，例如可以使用state-of-the-art的轨迹预测模型。知识蒸馏过程中，可以使用多种损失函数，例如L1损失、L2损失或KL散度，来衡量教师模型和学生模型输出之间的差异。此外，论文还考虑了agent内部的多模态信息和agent间的交互信息，分别进行蒸馏，以更好地提取核心的运动信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，经过知识蒸馏的学生模型在三个数据集（JRDB、SIT、ETH/UCY）上均取得了显著的性能提升。在完整观测条件下，预测精度提升高达13%。即使在瞬时观测条件下，学生模型也表现出一致的改进。该方法在ego-view和BEV-view两种视角下均有效，验证了其通用性。

🎯 应用场景

该研究成果可应用于自动驾驶、移动机器人导航、智能监控等领域。通过知识蒸馏，可以在资源受限的嵌入式设备上部署高性能的行人轨迹预测模型，提高系统的安全性和可靠性。未来，该方法还可以扩展到其他多模态感知任务中，例如行为识别、场景理解等。

📄 摘要（原文）

Pedestrian trajectory forecasting is crucial in various applications such as autonomous driving and mobile robot navigation. In such applications, camera-based perception enables the extraction of additional modalities (human pose, text) to enhance prediction accuracy. Indeed, we find that textual descriptions play a crucial role in integrating additional modalities into a unified understanding. However, online extraction of text requires the use of VLM, which may not be feasible for resource-constrained systems. To address this challenge, we propose a multi-modal knowledge distillation framework: a student model with limited modality is distilled from a teacher model trained with full range of modalities. The comprehensive knowledge of a teacher model trained with trajectory, human pose, and text is distilled into a student model using only trajectory or human pose as a sole supplement. In doing so, we separately distill the core locomotion insights from intra-agent multi-modality and inter-agent interaction. Our generalizable framework is validated with two state-of-the-art models across three datasets on both ego-view (JRDB, SIT) and BEV-view (ETH/UCY) setups, utilizing both annotated and VLM-generated text captions. Distilled student models show consistent improvement in all prediction metrics for both full and instantaneous observations, improving up to ~13%. The code is available at https://github.com/Jaewoo97/KDTF.

Multi-modal Knowledge Distillation-based Human Trajectory Forecasting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理