Failure Identification in Imitation Learning Via Statistical and Semantic Filtering

📄 arXiv: 2604.13788v1 📥 PDF

作者: Quentin Rolland, Fabrice Mayran de Chamisso, Jean-Baptiste Mouret

分类: cs.RO, cs.CV

发布日期: 2026-04-15

备注: 8 pages, Appendix coming soon, accepted at ICRA 2026


💡 一句话要点

FIDeL:结合统计与语义过滤的模仿学习失败识别方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 模仿学习 失败检测 异常检测 视觉-语言模型 机器人

📋 核心要点

  1. 模仿学习策略在真实场景中易受罕见事件影响而失败,现有异常检测方法难以区分良性偏差和真正失败。
  2. FIDeL通过构建名义演示的紧凑表示,结合最优传输匹配、共形预测和视觉-语言模型进行失败识别。
  3. 在BotFails数据集上,FIDeL在异常检测和失败检测准确率上均显著优于现有方法。

📝 摘要(中文)

模仿学习(IL)策略在受控环境中表现出色,但在实际部署中仍然脆弱:硬件故障、零件缺陷、意外的人为操作或任何超出训练分布的状态等罕见事件都可能导致执行失败。基于视觉的异常检测(AD)方法已成为检测这些异常失败状态的合适解决方案,但无法区分失败和良性偏差。我们引入了FIDeL(演示学习中的失败识别),这是一个与策略无关的失败检测模块。FIDeL利用最新的AD方法,构建了名义演示的紧凑表示,并通过最优传输匹配对齐传入的观察结果,以生成异常分数和热图。时空阈值通过共形预测的扩展来导出,视觉-语言模型(VLM)执行语义过滤,以区分良性异常和真正的失败。我们还引入了BotFails,这是一个用于机器人失败检测的真实世界任务的多模态数据集。与现有方法相比,FIDeL始终优于最先进的基线,在异常检测中产生+5.30%的AUROC,在BotFails上产生+17.38%的失败检测准确率。

🔬 方法详解

问题定义:模仿学习在实际机器人应用中,由于环境变化、硬件故障等因素,容易出现策略失效。现有的异常检测方法虽然可以检测到异常状态,但无法区分哪些异常状态会导致真正的失败,哪些只是良性的偏差,从而影响了系统的可靠性。

核心思路:论文的核心思路是结合统计异常检测和语义理解,首先通过异常检测方法识别出潜在的异常状态,然后利用视觉-语言模型对这些异常状态进行语义过滤,区分出真正会导致失败的异常状态。这样可以提高失败检测的准确率,减少误报。

技术框架:FIDeL的整体框架包含以下几个主要模块:1) 名义演示表示:利用异常检测方法,学习正常演示的紧凑表示。2) 最优传输匹配:将传入的观察结果与名义演示进行对齐,计算异常分数和热图。3) 时空阈值:利用共形预测方法,确定异常分数和热图的时空阈值。4) 语义过滤:利用视觉-语言模型,对超过阈值的异常状态进行语义过滤,区分良性异常和真正失败。

关键创新:论文的关键创新在于结合了统计异常检测和语义理解,提出了一个策略无关的失败检测模块。传统的异常检测方法只关注统计上的异常,而忽略了语义信息。FIDeL通过引入视觉-语言模型,可以更好地理解异常状态的含义,从而更准确地判断是否会导致失败。

关键设计:在名义演示表示方面,使用了基于视觉的异常检测方法(具体方法未明确说明,原文为“recent AD methods”)。在最优传输匹配方面,使用了最优传输算法来对齐传入的观察结果和名义演示。在时空阈值方面,使用了共形预测的扩展方法来确定阈值。在语义过滤方面,使用了预训练的视觉-语言模型(VLM)进行语义理解和分类。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FIDeL在BotFails数据集上取得了显著的性能提升。在异常检测方面,FIDeL的AUROC比现有方法提高了+5.30%。在失败检测准确率方面,FIDeL比现有方法提高了+17.38%。这些结果表明,FIDeL能够更准确地识别模仿学习策略的失败情况,具有很强的实用价值。

🎯 应用场景

该研究成果可应用于各种机器人任务中,例如工业自动化、服务机器人、自动驾驶等。通过准确识别模仿学习策略的失败情况,可以提高机器人的可靠性和安全性,减少因策略失效造成的损失。未来,该方法可以扩展到其他类型的机器学习策略,并与其他故障诊断技术相结合,构建更完善的机器人故障处理系统。

📄 摘要(原文)

Imitation learning (IL) policies in robotics deliver strong performance in controlled settings but remain brittle in real-world deployments: rare events such as hardware faults, defective parts, unexpected human actions, or any state that lies outside the training distribution can lead to failed executions. Vision-based Anomaly Detection (AD) methods emerged as an appropriate solution to detect these anomalous failure states but do not distinguish failures from benign deviations. We introduce FIDeL (Failure Identification in Demonstration Learning), a policy-independent failure detection module. Leveraging recent AD methods, FIDeL builds a compact representation of nominal demonstrations and aligns incoming observations via optimal transport matching to produce anomaly scores and heatmaps. Spatio-temporal thresholds are derived with an extension of conformal prediction, and a Vision-Language Model (VLM) performs semantic filtering to discriminate benign anomalies from genuine failures. We also introduce BotFails, a multimodal dataset of real-world tasks for failure detection in robotics. FIDeL consistently outperforms state-of-the-art baselines, yielding +5.30% percent AUROC in anomaly detection and +17.38% percent failure-detection accuracy on BotFails compared to existing methods.