How to Correctly Make Mistakes: A Framework for Constructing and Benchmarking Mistake Aware Egocentric Procedural Videos
作者: Olga Loginova, Frank Keller
分类: cs.CV
发布日期: 2026-04-16
💡 一句话要点
PIE-V框架:构建并评估面向错误感知的以自我为中心的程序视频
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)
关键词: 程序视频理解 错误注入 自我中心视觉 大型语言模型 视频生成 程序监控 人机交互
📋 核心要点
- 现有程序视频数据集缺乏对人为错误的充分模拟和一致的纠正轨迹,限制了程序监控的可靠性。
- PIE-V框架通过心理学启发的错误注入、纠正规划、LLM重写和视频生成,构建逼真且可控的错误感知程序视频。
- 实验表明,PIE-V能够有效注入错误并生成相应的纠正,并通过统一的评估标准验证了其合理性和程序连贯性。
📝 摘要(中文)
视频中可靠的程序监控需要暴露于自然发生的人为错误以及随后的恢复。在以自我为中心的记录中,错误通常被手部部分遮挡,并通过细微的对象状态变化来揭示,而现有的程序数据集提供的错误和纠正轨迹有限且不一致。我们提出了PIE-V(Psychologically Inspired Error injection for Videos),这是一个通过使用可控的、符合人类习惯的偏差来增强干净的关键步骤程序,从而构建和评估面向错误感知的以自我为中心的程序视频的框架。PIE-V结合了一个以心理学为基础的、以程序阶段和语义步骤负载为条件的错误规划器,一个模拟恢复行为的纠正规划器,一个执行级联一致重写的LLM编写器,以及一个验证程序连贯性并修复失败的LLM判断器。对于视频片段编辑,PIE-V使用文本引导的视频生成合成替换片段,并将它们拼接到剧集中以保持视觉上的合理性。应用于17个任务和50个Ego-Exo4D场景,PIE-V注入了102个错误并生成了27个恢复纠正。对于基准测试,我们引入了一个统一的分类法和一个包含九个指标的人工评估标准,涵盖了步骤级别和程序级别的质量,包括合理性、带有注释者信心的程序逻辑、状态变化连贯性以及文本和视频之间的基础。使用此协议,我们审核了几个现有资源,并在相同标准下将PIE-V与自由形式的LLM生成基线进行了比较。该框架和评估标准共同支持以自我为中心的程序错误检测和纠正的后完成验证。
🔬 方法详解
问题定义:现有以自我为中心的程序视频数据集在错误和纠正方面的覆盖不足且不一致,导致模型难以学习和识别真实世界中的人为错误。这阻碍了程序监控和自动化任务的可靠性,尤其是在需要理解和纠正错误的情况下。
核心思路:PIE-V的核心思路是通过一个可控的、心理学启发的框架,向干净的程序视频中注入人为的、符合人类习惯的错误和纠正。该框架模拟了人类在执行程序时可能犯的错误类型,并生成相应的纠正行为,从而创建更真实、更具挑战性的数据集。
技术框架:PIE-V框架包含以下主要模块:1) 错误规划器:基于程序阶段和语义步骤负载,使用心理学知识来规划错误的类型和位置。2) 纠正规划器:模拟人类的恢复行为,生成与错误相对应的纠正步骤。3) LLM编写器:使用大型语言模型(LLM)来重写步骤描述,以确保错误和纠正的一致性。4) 视频生成器:使用文本引导的视频生成技术,合成包含错误和纠正的视频片段。5) LLM判断器:验证程序连贯性并修复失败。
关键创新:PIE-V的关键创新在于其心理学启发的错误注入方法和级联一致性保证。通过结合心理学知识,PIE-V能够生成更符合人类习惯的错误,从而提高数据集的真实性。LLM编写器和LLM判断器的使用确保了错误、纠正和步骤描述之间的一致性。
关键设计:错误规划器使用基于心理学研究的错误类型分布,并根据程序阶段和步骤的认知负荷来调整错误发生的概率。纠正规划器模拟了不同类型的纠正行为,例如撤销、重试和替代。视频生成器使用扩散模型等技术,根据文本描述生成逼真的视频片段。LLM判断器使用预训练的语言模型来评估程序连贯性,并提出修复建议。
📊 实验亮点
PIE-V在17个任务和50个Ego-Exo4D场景中注入了102个错误并生成了27个恢复纠正。通过人工评估,PIE-V生成的视频在合理性、程序逻辑、状态变化连贯性和文本视频对齐方面均表现良好。与自由形式的LLM生成基线相比,PIE-V在多个指标上取得了显著提升。
🎯 应用场景
PIE-V框架可用于生成更真实、更具挑战性的程序视频数据集,从而提高程序监控、机器人学习和人机交互等领域的性能。例如,可以训练机器人识别和纠正人类在执行任务时犯的错误,或者开发更智能的辅助系统,帮助用户避免错误。
📄 摘要(原文)
Reliable procedural monitoring in video requires exposure to naturally occurring human errors and the recoveries that follow. In egocentric recordings, mistakes are often partially occluded by hands and revealed through subtle object state changes, while existing procedural datasets provide limited and inconsistent mistake and correction traces. We present PIE-V (Psychologically Inspired Error injection for Videos), a framework for constructing and benchmarking mistake-aware egocentric procedural videos by augmenting clean keystep procedures with controlled, human-plausible deviations. PIE-V combines a psychology-informed error planner conditioned on procedure phase and semantic step load, a correction planner that models recovery behavior, an LLM writer that performs cascade-consistent rewrites, and an LLM judge that validates procedural coherence and repairs failures. For video segment edits, PIE-V synthesizes replacement clips with text-guided video generation and stitches them into the episode to preserve visual plausibility. Applied to 17 tasks and 50 Ego-Exo4D scenarios, PIE-V injects 102 mistakes and generates 27 recovery corrections. For benchmarking, we introduce a unified taxonomy and a human rubric with nine metrics that cover step-level and procedure-level quality, including plausibility, procedure logic with annotator confidence, state change coherence, and grounding between text and video. Using this protocol, we audit several existing resources and compare PIE-V against a freeform LLM generation baseline under the same criteria. Together, the framework and rubric support post-completion verification for egocentric procedural mistake detection and correction.