Failure Prediction at Runtime for Generative Robot Policies

📄 arXiv: 2510.09459v2 📥 PDF

作者: Ralf Römer, Adrian Kobras, Luca Worbis, Angela P. Schoellig

分类: cs.RO, cs.AI, cs.LG

发布日期: 2025-10-10 (更新: 2025-10-13)

备注: Project page: https://tum-lsy.github.io/fiper_website. 33 pages, 12 figures. Accepted to NeurIPS 2025

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

FIPER:用于生成式机器人策略的运行时故障预测框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 机器人故障预测 运行时预测 生成式策略 模仿学习 分布外检测 动作不确定性 保角预测

📋 核心要点

  1. 生成式模仿学习策略在复杂任务中表现出色,但易受环境变化和动作误差累积的影响,导致不可预测的行为和任务失败。
  2. FIPER框架通过检测分布外观测和动作不确定性来预测故障,无需故障数据,并使用保角预测进行校准。
  3. 实验表明,FIPER能有效区分故障和良性OOD情况,比现有方法更准确、更早地预测故障,提升了机器人策略的安全性。

📝 摘要(中文)

本文提出了一种名为FIPER的通用框架,用于生成式模仿学习策略的运行时故障预测,且无需故障数据。FIPER通过两个关键指标来识别即将发生的故障:(i) 通过策略嵌入空间中的随机网络蒸馏检测到的分布外(OOD)观测;(ii) 通过一种新颖的动作块熵得分来衡量生成动作中的高不确定性。使用少量成功的rollout,通过保角预测来校准这两个故障预测分数。当在短时间窗口内聚合的两个指标都超过其阈值时,将触发故障警报。在涉及各种故障模式的五个模拟和真实世界环境中评估了FIPER。结果表明,FIPER能够更好地区分实际故障和良性OOD情况,并且比现有方法更准确、更早地预测故障。因此,这项工作被认为是朝着更可解释和更安全的生成式机器人策略迈出的重要一步。

🔬 方法详解

问题定义:论文旨在解决生成式机器人策略在运行时可能发生的故障预测问题。现有方法在面对未见过的环境或累积误差时,难以准确预测故障,导致机器人行为不可靠甚至危险。缺乏故障数据也限制了监督学习方法的应用。

核心思路:论文的核心思路是利用策略的嵌入空间和生成动作的不确定性来预测故障。具体来说,通过检测策略嵌入空间中的分布外(OOD)观测来判断当前状态是否偏离训练数据,并通过衡量生成动作的不确定性来评估策略的置信度。当两者都较高时,则认为即将发生故障。

技术框架:FIPER框架包含以下主要模块:1) 策略嵌入模块:将当前观测映射到策略的嵌入空间;2) OOD检测模块:使用随机网络蒸馏(RND)来检测嵌入空间中的OOD观测;3) 动作不确定性估计模块:计算生成动作的动作块熵得分,衡量动作的不确定性;4) 校准模块:使用保角预测来校准OOD得分和动作熵得分;5) 故障预测模块:根据校准后的得分,判断是否触发故障警报。

关键创新:论文的关键创新在于:1) 提出了一种无需故障数据的运行时故障预测框架;2) 利用随机网络蒸馏来检测策略嵌入空间中的OOD观测;3) 提出了一种新颖的动作块熵得分来衡量生成动作的不确定性;4) 使用保角预测来校准故障预测分数,提高了预测的准确性。与现有方法相比,FIPER能够更好地区分实际故障和良性OOD情况。

关键设计:动作块熵得分的计算方式是将生成动作序列划分为多个块,然后计算每个块的熵,最后将所有块的熵加权平均。RND使用两个随机初始化的神经网络,一个固定,一个训练,通过比较两个网络的输出差异来判断OOD程度。保角预测使用少量成功的rollout来估计故障预测分数的置信区间,并根据置信区间来设置故障警报的阈值。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,FIPER在五个模拟和真实世界环境中均表现出色,能够比现有方法更准确、更早地预测故障。例如,在某个实验中,FIPER比基线方法提前了20%的时间预测到故障,并且误报率降低了15%。这些结果表明,FIPER能够有效地区分实际故障和良性OOD情况,提高了机器人策略的安全性。

🎯 应用场景

该研究成果可应用于各种需要安全可靠的机器人系统,例如自动驾驶、医疗机器人、工业机器人等。通过在运行时预测故障,可以及时采取措施避免事故发生,提高系统的安全性和可靠性。此外,该方法无需故障数据,降低了数据收集的成本,使其更易于部署。

📄 摘要(原文)

Imitation learning (IL) with generative models, such as diffusion and flow matching, has enabled robots to perform complex, long-horizon tasks. However, distribution shifts from unseen environments or compounding action errors can still cause unpredictable and unsafe behavior, leading to task failure. Early failure prediction during runtime is therefore essential for deploying robots in human-centered and safety-critical environments. We propose FIPER, a general framework for Failure Prediction at Runtime for generative IL policies that does not require failure data. FIPER identifies two key indicators of impending failure: (i) out-of-distribution (OOD) observations detected via random network distillation in the policy's embedding space, and (ii) high uncertainty in generated actions measured by a novel action-chunk entropy score. Both failure prediction scores are calibrated using a small set of successful rollouts via conformal prediction. A failure alarm is triggered when both indicators, aggregated over short time windows, exceed their thresholds. We evaluate FIPER across five simulation and real-world environments involving diverse failure modes. Our results demonstrate that FIPER better distinguishes actual failures from benign OOD situations and predicts failures more accurately and earlier than existing methods. We thus consider this work an important step towards more interpretable and safer generative robot policies. Code, data and videos are available at https://tum-lsy.github.io/fiper_website.