Metamorphic Testing of Multimodal Human Trajectory Prediction
作者: Helge Spieker, Nadjib Lazaar, Arnaud Gotlieb, Nassim Belmecheri
分类: cs.SE, cs.RO
发布日期: 2025-09-01
备注: Information and Software Technology
DOI: 10.1016/j.infsof.2025.107890
💡 一句话要点
提出一种基于变质测试的多模态人类轨迹预测模型评估框架,解决缺乏测试预言的问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 变质测试 人类轨迹预测 多模态 无预言测试 自动驾驶
📋 核心要点
- 多模态人类轨迹预测模型在自动驾驶等领域至关重要,但其随机输出和多输入源导致难以进行有效测试。
- 论文提出使用变质测试方法,通过定义输入输出之间的变质关系,在没有ground truth的情况下评估模型。
- 通过对历史轨迹和环境地图进行变换,并使用概率距离度量,可以评估模型在不同场景下的鲁棒性。
📝 摘要(中文)
本文提出了一种针对多模态人类轨迹预测(HTP)系统的变质测试(MT)方法。由于HTP模型通常使用多种输入源(如轨迹历史和环境地图)并产生随机输出(多个可能的未来路径),因此对其进行严格测试极具挑战性,主要困难在于缺乏明确的测试预言。本研究通过为HTP的复杂性和随机性定制的变质关系(MRs)来解决预言问题。我们提出了五个MRs,针对历史轨迹数据和用作环境上下文的语义分割地图的转换。这些MRs包括:1)应用于轨迹和地图输入的标签保持几何变换(镜像、旋转、缩放),期望输出相应变换;2)地图改变变换(改变语义类别标签、引入障碍物),轨迹分布产生可预测的变化。我们提出了基于概率分布之间距离度量(如Wasserstein或Hellinger距离)的概率违反准则。该研究引入了一个MT框架,用于对多模态、随机HTP系统进行无预言测试,从而评估模型对输入转换和上下文变化的鲁棒性,而无需依赖真实轨迹。
🔬 方法详解
问题定义:多模态人类轨迹预测(HTP)模型在自动驾驶和机器人等领域至关重要,但由于其固有的随机性和对多种输入(如历史轨迹和环境地图)的依赖,使得对其进行充分的测试变得非常困难。传统的测试方法需要ground truth轨迹,但在实际场景中,未来轨迹具有不确定性,难以获取准确的ground truth。因此,缺乏有效的测试预言是当前HTP模型测试的主要痛点。
核心思路:本文的核心思路是利用变质测试(Metamorphic Testing, MT)来解决HTP模型的测试预言问题。变质测试的核心思想是通过定义一系列变质关系(Metamorphic Relations, MRs),即输入和输出之间的预期关系,来验证模型在不同输入下的行为是否符合预期。即使没有ground truth,也可以通过检查MRs是否被满足来评估模型的正确性。这样设计的目的是绕过对精确ground truth的依赖,转而关注模型在输入变化下的行为一致性。
技术框架:该框架主要包含以下几个阶段:1) 输入生成:根据原始输入(历史轨迹和环境地图)生成一系列变异输入,这些变异输入通过应用预定义的变质关系得到。2) 模型预测:将原始输入和变异输入分别输入到HTP模型中,得到相应的预测轨迹分布。3) 变质关系验证:根据预定义的变质关系,比较原始输入和变异输入对应的预测轨迹分布,判断变质关系是否被满足。4) 违反检测:如果变质关系没有被满足,则认为模型存在潜在的缺陷。
关键创新:该论文最重要的技术创新点在于针对多模态HTP模型设计了一系列有效的变质关系。这些变质关系涵盖了对历史轨迹和环境地图的多种变换,例如几何变换(镜像、旋转、缩放)和语义变换(改变语义类别标签、引入障碍物)。此外,论文还提出了基于概率分布距离度量(如Wasserstein距离和Hellinger距离)的概率违反准则,用于量化变质关系的满足程度。与传统的测试方法相比,该方法不需要ground truth,能够更有效地发现HTP模型中的潜在缺陷。
关键设计:论文中关键的设计包括:1) 变质关系的设计:针对HTP模型的特点,设计了五种变质关系,涵盖了对历史轨迹和环境地图的多种变换。2) 概率违反准则:使用Wasserstein距离和Hellinger距离等概率分布距离度量来量化变质关系的满足程度,并设置阈值来判断是否违反。3) 输入变换的参数设置:例如,旋转角度的范围、缩放比例的范围、障碍物的大小和位置等,这些参数需要根据具体的应用场景进行调整。
🖼️ 关键图片
📊 实验亮点
该研究提出了五种针对多模态人类轨迹预测模型的变质关系,并使用Wasserstein距离和Hellinger距离等概率分布距离度量来量化变质关系的满足程度。实验结果表明,该方法能够有效地发现模型在各种场景下的潜在缺陷,而无需依赖ground truth轨迹,从而提高了测试效率和覆盖率。
🎯 应用场景
该研究成果可应用于自动驾驶、移动机器人、智能监控等领域,提升这些系统中人类轨迹预测模型的可靠性和安全性。通过变质测试,可以更有效地发现模型在各种场景下的潜在缺陷,从而提高系统的整体鲁棒性。未来,该方法可以扩展到其他类型的预测模型,并与其他测试技术相结合,形成更全面的测试体系。
📄 摘要(原文)
Context: Predicting human trajectories is crucial for the safety and reliability of autonomous systems, such as automated vehicles and mobile robots. However, rigorously testing the underlying multimodal Human Trajectory Prediction (HTP) models, which typically use multiple input sources (e.g., trajectory history and environment maps) and produce stochastic outputs (multiple possible future paths), presents significant challenges. The primary difficulty lies in the absence of a definitive test oracle, as numerous future trajectories might be plausible for any given scenario. Objectives: This research presents the application of Metamorphic Testing (MT) as a systematic methodology for testing multimodal HTP systems. We address the oracle problem through metamorphic relations (MRs) adapted for the complexities and stochastic nature of HTP. Methods: We present five MRs, targeting transformations of both historical trajectory data and semantic segmentation maps used as an environmental context. These MRs encompass: 1) label-preserving geometric transformations (mirroring, rotation, rescaling) applied to both trajectory and map inputs, where outputs are expected to transform correspondingly. 2) Map-altering transformations (changing semantic class labels, introducing obstacles) with predictable changes in trajectory distributions. We propose probabilistic violation criteria based on distance metrics between probability distributions, such as the Wasserstein or Hellinger distance. Conclusion: This study introduces tool, a MT framework for the oracle-less testing of multimodal, stochastic HTP systems. It allows for assessment of model robustness against input transformations and contextual changes without reliance on ground-truth trajectories.