KITE: Keyframe-Indexed Tokenized Evidence for VLM-Based Robot Failure Analysis

作者: Mehdi Hosseinzadeh, King Hang Wong, Feras Dayoub

分类: cs.RO, cs.AI, cs.CV

发布日期: 2026-04-08

备注: ICRA 2026; Project page: https://m80hz.github.io/kite/

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

KITE：基于关键帧索引Token证据的VLM机器人故障分析方法

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人故障分析 视觉语言模型 关键帧提取 鸟瞰图表示 Token序列化 无需训练 长视频理解

📋 核心要点

现有方法难以有效利用长时机器人执行视频进行故障分析，缺乏对关键信息的提炼和结构化表达。
KITE通过提取运动显著关键帧，并结合鸟瞰图布局信息，将视频转换为紧凑的Token证据，供VLM理解。
实验表明，KITE在RoboFAC基准测试中显著提升了VLM在故障检测、识别和定位方面的性能，且无需额外训练。

📝 摘要（中文）

本文提出KITE，一个无需训练、基于关键帧锚定、布局感知的视觉前端，用于将长机器人执行视频转换为紧凑、可解释的Token证据，供视觉语言模型(VLM)使用。KITE将每个轨迹提炼成一小组具有开放词汇检测的运动显著关键帧，并将每个关键帧与示意性的鸟瞰图(BEV)表示配对，该表示编码相对对象布局、轴、时间戳和检测置信度。这些视觉线索与机器人配置文件和场景上下文Token序列化为统一提示，允许相同的视觉前端支持故障检测、识别、定位、解释和纠正，并使用现成的VLM。在RoboFAC基准测试中，带有Qwen2.5-VL的KITE在无训练设置下显著优于原始Qwen2.5-VL，尤其是在模拟故障检测、识别和定位方面获得了巨大收益，同时与RoboFAC微调的基线相比仍具有竞争力。一个小的QLoRA微调进一步提高了解释和纠正质量。我们还报告了真实双臂机器人的定性结果，证明了KITE作为机器人故障分析的结构化和可解释前端的实际适用性。

🔬 方法详解

问题定义：现有机器人故障分析方法难以有效处理长时执行视频，缺乏对视频信息的有效提炼和结构化表达，导致视觉语言模型难以理解和利用视频中的关键信息进行故障诊断。现有方法通常需要大量训练数据进行微调，泛化能力有限。

核心思路：KITE的核心思路是将长时机器人执行视频转换为一系列关键帧，并为每个关键帧生成包含对象布局、时间戳和检测置信度的鸟瞰图(BEV)表示。这些关键帧和BEV表示被转换为Token序列，作为视觉语言模型的输入，从而使VLM能够理解视频中的关键信息并进行故障分析。这种方法无需训练，可以直接利用现成的VLM。

技术框架：KITE包含以下主要模块：1) 关键帧提取：从机器人执行视频中提取运动显著的关键帧。2) 对象检测：对每个关键帧进行对象检测，获得场景中对象的类别和位置信息。3) 鸟瞰图(BEV)生成：根据对象检测结果，生成包含对象布局、时间戳和检测置信度的BEV表示。4) Token序列化：将关键帧、BEV表示、机器人配置文件和场景上下文信息转换为Token序列，作为VLM的输入。5) VLM推理：使用VLM对Token序列进行推理，完成故障检测、识别、定位、解释和纠正等任务。

关键创新：KITE的关键创新在于：1) 提出了一种无需训练的、基于关键帧锚定的视觉前端，可以将长时机器人执行视频转换为紧凑、可解释的Token证据。2) 结合关键帧和BEV表示，为VLM提供了更丰富的视觉信息，使其能够更好地理解视频中的场景和对象关系。3) 通过Token序列化，将视觉信息、机器人配置文件和场景上下文信息整合在一起，为VLM提供了更全面的输入。

关键设计：KITE的关键设计包括：1) 关键帧提取算法的选择，需要保证提取的关键帧能够捕捉到视频中的关键动作和状态变化。2) BEV表示的设计，需要能够准确地编码对象布局、时间戳和检测置信度等信息。3) Token序列化的方式，需要保证VLM能够有效地理解和利用Token序列中的信息。论文中使用了Qwen2.5-VL作为VLM，并使用QLoRA进行微调以提升解释和纠正质量。

🖼️ 关键图片

📊 实验亮点

KITE在RoboFAC基准测试中，与Qwen2.5-VL结合，在无训练设置下显著优于原始Qwen2.5-VL，尤其是在模拟故障检测、识别和定位方面获得了巨大收益。例如，在模拟故障检测任务上，KITE的性能提升了XX%。此外，通过QLoRA微调，KITE在解释和纠正质量上得到了进一步提升，证明了其在机器人故障分析方面的有效性和潜力。

🎯 应用场景

KITE可应用于各种机器人故障分析场景，例如工业机器人、服务机器人和自动驾驶汽车等。它可以帮助工程师快速定位和解决机器人故障，提高机器人的可靠性和安全性。此外，KITE还可以用于机器人操作的教学和演示，帮助用户更好地理解机器人的工作原理和操作流程。未来，KITE有望成为机器人智能运维的重要组成部分。

📄 摘要（原文）

We present KITE, a training-free, keyframe-anchored, layout-grounded front-end that converts long robot-execution videos into compact, interpretable tokenized evidence for vision-language models (VLMs). KITE distills each trajectory into a small set of motion-salient keyframes with open-vocabulary detections and pairs each keyframe with a schematic bird's-eye-view (BEV) representation that encodes relative object layout, axes, timestamps, and detection confidence. These visual cues are serialized with robot-profile and scene-context tokens into a unified prompt, allowing the same front-end to support failure detection, identification, localization, explanation, and correction with an off-the-shelf VLM. On the RoboFAC benchmark, KITE with Qwen2.5-VL substantially improves over vanilla Qwen2.5-VL in the training-free setting, with especially large gains on simulation failure detection, identification, and localization, while remaining competitive with a RoboFAC-tuned baseline. A small QLoRA fine-tune further improves explanation and correction quality. We also report qualitative results on real dual-arm robots, demonstrating the practical applicability of KITE as a structured and interpretable front-end for robot failure analysis. Code and models are released on our project page: https://m80hz.github.io/kite/

KITE: Keyframe-Indexed Tokenized Evidence for VLM-Based Robot Failure Analysis

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理