KITE: Keyframe-Indexed Tokenized Evidence for VLM-Based Robot Failure Analysis
作者: Mehdi Hosseinzadeh, King Hang Wong, Feras Dayoub
分类: cs.RO, cs.AI, cs.CV
发布日期: 2026-04-08
备注: ICRA 2026; Project page: https://m80hz.github.io/kite/
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
KITE:基于关键帧索引Token证据的VLM机器人故障分析方法
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人故障分析 视觉语言模型 关键帧提取 鸟瞰图表示 Token序列化 无需训练 长视频理解
📋 核心要点
- 现有方法难以有效利用长时机器人执行视频进行故障分析,缺乏对关键信息的提炼和结构化表达。
- KITE通过提取运动显著关键帧,并结合鸟瞰图布局信息,将视频转换为紧凑的Token证据,供VLM理解。
- 实验表明,KITE在RoboFAC基准测试中显著提升了VLM在故障检测、识别和定位方面的性能,且无需额外训练。
📝 摘要(中文)
本文提出KITE,一个无需训练、基于关键帧锚定、布局感知的视觉前端,用于将长机器人执行视频转换为紧凑、可解释的Token证据,供视觉语言模型(VLM)使用。KITE将每个轨迹提炼成一小组具有开放词汇检测的运动显著关键帧,并将每个关键帧与示意性的鸟瞰图(BEV)表示配对,该表示编码相对对象布局、轴、时间戳和检测置信度。这些视觉线索与机器人配置文件和场景上下文Token序列化为统一提示,允许相同的视觉前端支持故障检测、识别、定位、解释和纠正,并使用现成的VLM。在RoboFAC基准测试中,带有Qwen2.5-VL的KITE在无训练设置下显著优于原始Qwen2.5-VL,尤其是在模拟故障检测、识别和定位方面获得了巨大收益,同时与RoboFAC微调的基线相比仍具有竞争力。一个小的QLoRA微调进一步提高了解释和纠正质量。我们还报告了真实双臂机器人的定性结果,证明了KITE作为机器人故障分析的结构化和可解释前端的实际适用性。
🔬 方法详解
问题定义:现有机器人故障分析方法难以有效处理长时执行视频,缺乏对视频信息的有效提炼和结构化表达,导致视觉语言模型难以理解和利用视频中的关键信息进行故障诊断。现有方法通常需要大量训练数据进行微调,泛化能力有限。
核心思路:KITE的核心思路是将长时机器人执行视频转换为一系列关键帧,并为每个关键帧生成包含对象布局、时间戳和检测置信度的鸟瞰图(BEV)表示。这些关键帧和BEV表示被转换为Token序列,作为视觉语言模型的输入,从而使VLM能够理解视频中的关键信息并进行故障分析。这种方法无需训练,可以直接利用现成的VLM。
技术框架:KITE包含以下主要模块:1) 关键帧提取:从机器人执行视频中提取运动显著的关键帧。2) 对象检测:对每个关键帧进行对象检测,获得场景中对象的类别和位置信息。3) 鸟瞰图(BEV)生成:根据对象检测结果,生成包含对象布局、时间戳和检测置信度的BEV表示。4) Token序列化:将关键帧、BEV表示、机器人配置文件和场景上下文信息转换为Token序列,作为VLM的输入。5) VLM推理:使用VLM对Token序列进行推理,完成故障检测、识别、定位、解释和纠正等任务。
关键创新:KITE的关键创新在于:1) 提出了一种无需训练的、基于关键帧锚定的视觉前端,可以将长时机器人执行视频转换为紧凑、可解释的Token证据。2) 结合关键帧和BEV表示,为VLM提供了更丰富的视觉信息,使其能够更好地理解视频中的场景和对象关系。3) 通过Token序列化,将视觉信息、机器人配置文件和场景上下文信息整合在一起,为VLM提供了更全面的输入。
关键设计:KITE的关键设计包括:1) 关键帧提取算法的选择,需要保证提取的关键帧能够捕捉到视频中的关键动作和状态变化。2) BEV表示的设计,需要能够准确地编码对象布局、时间戳和检测置信度等信息。3) Token序列化的方式,需要保证VLM能够有效地理解和利用Token序列中的信息。论文中使用了Qwen2.5-VL作为VLM,并使用QLoRA进行微调以提升解释和纠正质量。
🖼️ 关键图片
📊 实验亮点
KITE在RoboFAC基准测试中,与Qwen2.5-VL结合,在无训练设置下显著优于原始Qwen2.5-VL,尤其是在模拟故障检测、识别和定位方面获得了巨大收益。例如,在模拟故障检测任务上,KITE的性能提升了XX%。此外,通过QLoRA微调,KITE在解释和纠正质量上得到了进一步提升,证明了其在机器人故障分析方面的有效性和潜力。
🎯 应用场景
KITE可应用于各种机器人故障分析场景,例如工业机器人、服务机器人和自动驾驶汽车等。它可以帮助工程师快速定位和解决机器人故障,提高机器人的可靠性和安全性。此外,KITE还可以用于机器人操作的教学和演示,帮助用户更好地理解机器人的工作原理和操作流程。未来,KITE有望成为机器人智能运维的重要组成部分。
📄 摘要(原文)
We present KITE, a training-free, keyframe-anchored, layout-grounded front-end that converts long robot-execution videos into compact, interpretable tokenized evidence for vision-language models (VLMs). KITE distills each trajectory into a small set of motion-salient keyframes with open-vocabulary detections and pairs each keyframe with a schematic bird's-eye-view (BEV) representation that encodes relative object layout, axes, timestamps, and detection confidence. These visual cues are serialized with robot-profile and scene-context tokens into a unified prompt, allowing the same front-end to support failure detection, identification, localization, explanation, and correction with an off-the-shelf VLM. On the RoboFAC benchmark, KITE with Qwen2.5-VL substantially improves over vanilla Qwen2.5-VL in the training-free setting, with especially large gains on simulation failure detection, identification, and localization, while remaining competitive with a RoboFAC-tuned baseline. A small QLoRA fine-tune further improves explanation and correction quality. We also report qualitative results on real dual-arm robots, demonstrating the practical applicability of KITE as a structured and interpretable front-end for robot failure analysis. Code and models are released on our project page: https://m80hz.github.io/kite/