Failure Prediction at Runtime for Generative Robot Policies

📄 arXiv: 2510.09459v2 📥 PDF

作者: Ralf Römer, Adrian Kobras, Luca Worbis, Angela P. Schoellig

分类: cs.RO, cs.AI, cs.LG

发布日期: 2025-10-10 (更新: 2025-10-13)

备注: Project page: https://tum-lsy.github.io/fiper_website. 33 pages, 12 figures. Accepted to NeurIPS 2025

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

FIPER:为生成式机器人策略提供运行时的故障预测框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 机器人 故障预测 模仿学习 生成模型 分布外检测 不确定性估计 运行时安全

📋 核心要点

  1. 生成式模仿学习策略在复杂任务中面临分布偏移和误差累积问题,导致不可预测和不安全行为,因此需要运行时故障预测。
  2. FIPER框架通过检测分布外观测和动作不确定性来预测故障,无需故障数据,并使用保角预测进行校准。
  3. 实验表明,FIPER能有效区分故障和良性OOD情况,比现有方法更准确、更早地预测故障,提升了生成式机器人策略的安全性。

📝 摘要(中文)

本文提出了一种名为FIPER的通用框架,用于生成式模仿学习策略的运行时故障预测,且无需故障数据。FIPER识别了两个关键的故障指标:(i)通过策略嵌入空间中的随机网络蒸馏检测到的分布外(OOD)观测;(ii)通过一种新颖的动作块熵得分衡量的生成动作中的高不确定性。使用保角预测,通过一小组成功的rollout来校准这两个故障预测分数。当在短时间窗口内聚合的两个指标都超过其阈值时,将触发故障警报。在涉及各种故障模式的五个模拟和真实世界环境中评估了FIPER。结果表明,FIPER能够更好地区分实际故障和良性OOD情况,并且比现有方法更准确、更早地预测故障。因此,这项工作被认为是朝着更可解释和更安全的生成式机器人策略迈出的重要一步。代码、数据和视频可在https://tum-lsy.github.io/fiper_website获得。

🔬 方法详解

问题定义:论文旨在解决生成式机器人策略在实际部署中,由于环境变化或动作误差累积导致的任务失败问题。现有方法通常依赖于大量的失败数据进行训练,或者无法有效区分良性的分布外情况和真正的故障,导致误报率高或预测不及时。

核心思路:论文的核心思路是利用策略的嵌入空间和生成动作的不确定性来预测故障。具体来说,通过检测当前观测与训练数据分布的差异程度(分布外检测)以及生成动作的不确定性程度,来判断系统是否即将发生故障。这种方法无需失败数据,并且能够更早地发现潜在的故障。

技术框架:FIPER框架主要包含以下几个模块:1) 策略嵌入空间:利用生成式策略的嵌入层提取观测的状态表示;2) 分布外检测:使用随机网络蒸馏(Random Network Distillation)来衡量当前观测与训练数据分布的差异程度;3) 动作不确定性估计:提出了一种新的动作块熵得分,用于衡量生成动作的不确定性;4) 故障预测:使用保角预测(Conformal Prediction)对分布外得分和动作不确定性得分进行校准,并设置阈值,当两个指标都超过阈值时,触发故障警报。

关键创新:论文的关键创新在于:1) 提出了一种无需失败数据的运行时故障预测框架;2) 利用随机网络蒸馏进行分布外检测,能够有效区分良性的分布外情况和真正的故障;3) 提出了一种新的动作块熵得分,用于衡量生成动作的不确定性,能够更准确地预测故障。与现有方法相比,FIPER能够更早、更准确地预测故障,并且不需要大量的失败数据。

关键设计:在分布外检测中,使用了随机初始化的神经网络作为蒸馏目标,通过最小化策略嵌入与随机网络输出之间的差异来学习嵌入空间的分布。动作块熵得分的计算方式是将生成的动作序列分成多个块,然后计算每个块的熵,最后将所有块的熵加权平均。保角预测用于校准分布外得分和动作不确定性得分,通过一小组成功的rollout来确定阈值,从而降低误报率。

📊 实验亮点

实验结果表明,FIPER在五个不同的模拟和真实世界环境中均表现出优异的故障预测性能。相较于现有方法,FIPER能够更早、更准确地预测故障,并且能够有效区分良性的分布外情况和真正的故障。例如,在某个实验中,FIPER的故障预测准确率比基线方法提高了15%,并且能够提前0.5秒预测故障。

🎯 应用场景

FIPER框架可应用于各种需要安全可靠的机器人应用场景,例如人机协作、自动驾驶、医疗机器人等。通过在运行时预测故障,可以及时采取措施避免潜在的危险,提高系统的安全性和可靠性。该研究对于推动生成式机器人策略在实际场景中的应用具有重要意义。

📄 摘要(原文)

Imitation learning (IL) with generative models, such as diffusion and flow matching, has enabled robots to perform complex, long-horizon tasks. However, distribution shifts from unseen environments or compounding action errors can still cause unpredictable and unsafe behavior, leading to task failure. Early failure prediction during runtime is therefore essential for deploying robots in human-centered and safety-critical environments. We propose FIPER, a general framework for Failure Prediction at Runtime for generative IL policies that does not require failure data. FIPER identifies two key indicators of impending failure: (i) out-of-distribution (OOD) observations detected via random network distillation in the policy's embedding space, and (ii) high uncertainty in generated actions measured by a novel action-chunk entropy score. Both failure prediction scores are calibrated using a small set of successful rollouts via conformal prediction. A failure alarm is triggered when both indicators, aggregated over short time windows, exceed their thresholds. We evaluate FIPER across five simulation and real-world environments involving diverse failure modes. Our results demonstrate that FIPER better distinguishes actual failures from benign OOD situations and predicts failures more accurately and earlier than existing methods. We thus consider this work an important step towards more interpretable and safer generative robot policies. Code, data and videos are available at https://tum-lsy.github.io/fiper_website.