TIMID: Time-Dependent Mistake Detection in Videos of Robot Executions

作者: Nerea Gallego, Fernando Salanova, Claudio Mannarano, Cristian Mahulea, Eduardo Montijano

分类: cs.RO

发布日期: 2026-03-10

备注: 8 pages, 5 figures , IROS submission

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

TIMID：用于检测机器人执行视频中时序依赖错误的视频异常检测架构

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 机器人视频理解 时间依赖性错误检测 视频异常检测 弱监督学习 多模态融合 Sim-to-Real 任务提示 机器人执行监控

📋 核心要点

现有视频异常检测方法难以识别机器人复杂任务中的时序错误，因为这些错误不一定表现为低层次的执行失败。
TIMID架构通过接收视频和任务提示，预测每一帧是否存在时间依赖性错误，采用弱监督学习降低标注成本。
论文构建了包含时间错误的模拟数据集，并进行了零样本sim-to-real评估，验证了TIMID在检测时序错误方面的有效性。

📝 摘要（中文）

随着机器人系统执行日益复杂的任务序列，其出错的方式也越来越多。传统的视频异常检测（VAD）框架通常侧重于单一的、低层次的运动学或动作失败，难以识别更复杂的时序或空间任务违规，因为这些违规不一定表现为低层次的执行错误。为了解决这个问题，本文的主要贡献是一种新的VAD架构，TIMID，它能够检测机器人执行高级任务时的时间依赖性错误。我们的架构接收视频以及任务和潜在错误的提示作为输入，并返回视频中每一帧的预测，指示是否存在错误。通过采用VAD公式，该模型可以使用弱监督进行训练，每个视频只需要一个标签。此外，为了缓解不正确执行的数据稀缺问题，我们引入了一个多机器人模拟数据集，其中包含受控的时间错误和真实执行，用于零样本的sim-to-real评估。实验表明，开箱即用的视觉语言模型（VLM）缺乏此任务所需的显式时间推理能力，而我们的框架成功检测到不同类型的时序错误。

🔬 方法详解

问题定义：论文旨在解决机器人执行复杂任务时，传统视频异常检测方法难以检测时间依赖性错误的问题。现有方法主要关注低层次的动作或运动学错误，忽略了任务执行过程中时序逻辑的违背，导致无法有效识别高级任务中的错误。数据稀缺也是一个挑战，尤其是错误执行的数据。

核心思路：论文的核心思路是将时间依赖性错误检测问题转化为一个视频异常检测问题，并利用弱监督学习来训练模型。通过引入任务和潜在错误的提示信息，模型可以更好地理解任务的上下文，从而更准确地检测时序错误。使用模拟数据增强训练集，并进行sim-to-real迁移。

技术框架：TIMID架构主要包含以下几个模块：1) 视频编码器：用于提取视频帧的视觉特征。2) 文本编码器：用于编码任务和错误提示信息。3) 多模态融合模块：将视觉特征和文本特征进行融合，得到包含时序信息的表示。4) 预测模块：基于融合后的特征，预测每一帧是否存在错误。整个流程是端到端可训练的。

关键创新：论文的关键创新在于：1) 提出了一个针对机器人时间依赖性错误检测的VAD框架。2) 引入了任务和错误提示信息，增强了模型对任务上下文的理解。3) 构建了一个包含时间错误的模拟数据集，缓解了数据稀缺问题。4) 验证了现有视觉语言模型在时间推理方面的不足。

关键设计：视频编码器可以使用预训练的CNN或Transformer模型，文本编码器可以使用BERT或类似的语言模型。多模态融合模块可以使用注意力机制或简单的拼接操作。预测模块可以使用全连接层或LSTM。损失函数可以使用二元交叉熵损失，因为这是一个二分类问题。数据集包含模拟数据和真实数据，模拟数据用于预训练，真实数据用于微调或评估。具体参数设置和网络结构的选择取决于具体的实验结果。

🖼️ 关键图片

📊 实验亮点

实验结果表明，TIMID框架在检测机器人时间依赖性错误方面优于现有的视觉语言模型。在零样本sim-to-real评估中，TIMID能够成功检测不同类型的时序错误，证明了其泛化能力。具体性能数据和对比基线的详细结果可以在论文中找到。

🎯 应用场景

该研究成果可应用于机器人自动化生产线、智能仓储等领域，用于实时监控机器人执行任务的过程，及时发现并纠正错误，提高生产效率和安全性。未来，该技术还可以扩展到其他需要时间推理的视频分析任务中，例如医疗诊断、自动驾驶等。

📄 摘要（原文）

As robotic systems execute increasingly difficult task sequences, so does the number of ways in which they can fail. Video Anomaly Detection (VAD) frameworks typically focus on singular, low-level kinematic or action failures, struggling to identify more complex temporal or spatial task violations, because they do not necessarily manifest as low-level execution errors. To address this problem, the main contribution of this paper is a new VAD-inspired architecture, TIMID, which is able to detect robot time-dependent mistakes when executing high-level tasks. Our architecture receives as inputs a video and prompts of the task and the potential mistake, and returns a frame-level prediction in the video of whether the mistake is present or not. By adopting a VAD formulation, the model can be trained with weak supervision, requiring only a single label per video. Additionally, to alleviate the problem of data scarcity of incorrect executions, we introduce a multi-robot simulation dataset with controlled temporal errors and real executions for zero-shot sim-to-real evaluation. Our experiments demonstrate that out-of-the-box VLMs lack the explicit temporal reasoning required for this task, whereas our framework successfully detects different types of temporal errors. Project: https://ropertunizar.github.io/TIMID/

TIMID: Time-Dependent Mistake Detection in Videos of Robot Executions

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理