TI-PREGO: Chain of Thought and In-Context Learning for Online Mistake Detection in PRocedural EGOcentric Videos
作者: Leonardo Plini, Luca Scofano, Edoardo De Matteis, Guido Maria D'Amely di Melendugno, Alessandro Flaborea, Andrea Sanchietti, Giovanni Maria Farinella, Fabio Galasso, Antonino Furnari
分类: cs.CV
发布日期: 2024-11-04 (更新: 2026-01-05)
DOI: 10.1016/j.cviu.2025.104613
💡 一句话要点
TI-PREGO:利用思维链和上下文学习进行程序性第一视角视频中的在线错误检测
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 程序性视频理解 在线错误检测 第一视角视频 大型语言模型 思维链 上下文学习 动作预测
📋 核心要点
- 现有方法难以有效检测开放集程序性错误,尤其是在线场景下,这限制了其在实际应用中的价值。
- 论文提出双分支架构,利用步骤识别和未来步骤预测之间的不匹配来检测错误,核心是LLM的动作预测能力。
- 实验表明,该方法在程序性数据集上表现出鲁棒性和有效性,验证了双分支架构在在线错误检测中的潜力。
📝 摘要(中文)
本文提出了一种双分支架构,用于在线检测第一视角视频中的程序性错误。这类错误检测在制造、医疗和技能培训等领域至关重要,但由于错误类型本质上是开放集,即可能出现未预料到的新错误,因此极具挑战性。该架构的一个分支持续进行步骤识别,另一个分支基于识别模块的输出预测未来步骤。当识别出的当前动作与预测的动作不匹配时,则检测为错误。预测分支利用大型语言模型(LLM)强大的模式匹配能力,基于先前预测的动作token来预测后续动作token。此外,本文还全面评估了逐帧评估的难点,特别是动态在线场景中对准确和及时预测的需求。在两个程序性数据集上的大量实验表明了该双分支架构在错误检测方面的有效性。
🔬 方法详解
问题定义:论文旨在解决从第一视角视频中在线检测程序性错误的问题。现有方法在处理开放集错误时表现不佳,因为它们通常依赖于已知的错误示例进行训练,无法泛化到新的、未见过的错误类型。此外,在线检测需要实时性,对算法的效率提出了更高的要求。
核心思路:论文的核心思路是利用双分支架构,一个分支负责识别当前正在执行的步骤,另一个分支负责预测接下来应该执行的步骤。通过比较识别结果和预测结果,可以检测出错误。如果识别出的步骤与预测的步骤不一致,则认为发生了错误。这种方法不需要预先知道所有可能的错误类型,因此可以处理开放集错误。
技术框架:该架构包含两个主要分支:识别分支和预测分支。识别分支接收视频帧作为输入,并预测当前正在执行的动作。该分支将帧级别的结果聚合为动作token。预测分支利用大型语言模型(LLM)来预测未来的动作token。LLM基于先前预测的动作token进行预测。两个分支的输出进行比较,以检测错误。
关键创新:该方法最重要的创新点在于利用大型语言模型(LLM)进行未来步骤的预测。LLM具有强大的模式匹配和推理能力,可以根据已知的步骤序列预测接下来可能发生的步骤。这使得该方法能够处理开放集错误,而无需预先知道所有可能的错误类型。
关键设计:识别分支可以使用各种现有的动作识别模型。预测分支使用预训练的LLM,并对其进行微调,以适应程序性任务的特点。论文还探讨了不同的帧级别评估策略,以提高在线检测的准确性和及时性。具体的参数设置、损失函数和网络结构等细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在两个程序性数据集上取得了显著的成果。通过与现有技术的对比,该方法在在线错误检测方面表现出更高的准确性和鲁棒性。论文还深入分析了不同组件对整体性能的影响,为未来的研究提供了有价值的参考。
🎯 应用场景
该研究成果可应用于多个领域,如制造业中工人操作规范的实时监控、医疗手术过程中的错误检测、以及技能培训中学员动作的实时指导。通过在线检测程序性错误,可以提高工作效率、降低事故风险、并提升培训效果。未来,该技术有望与机器人技术结合,实现自动化操作的智能监控和纠错。
📄 摘要(原文)
Identifying procedural errors online from egocentric videos is a critical yet challenging task across various domains, including manufacturing, healthcare, and skill-based training. The nature of such mistakes is inherently open-set, as unforeseen or novel errors may occur, necessitating robust detection systems that do not rely on prior examples of failure. Currently, however, no technique effectively detects open-set procedural mistakes online. We propose a dual branch architecture to address this problem in an online fashion: one branch continuously performs step recognition from the input egocentric video, while the other anticipates future steps based on the recognition module's output. Mistakes are detected as mismatches between the currently recognized action and the action predicted by the anticipation module. The recognition branch takes input frames, predicts the current action, and aggregates frame-level results into action tokens. The anticipation branch, specifically, leverages the solid pattern-matching capabilities of Large Language Models (LLMs) to predict action tokens based on previously predicted ones. Given the online nature of the task, we also thoroughly benchmark the difficulties associated with per-frame evaluations, particularly the need for accurate and timely predictions in dynamic online scenarios. Extensive experiments on two procedural datasets demonstrate the challenges and opportunities of leveraging a dual-branch architecture for mistake detection, showcasing the effectiveness of our proposed approach. In a thorough evaluation including recognition and anticipation variants and state-of-the-art models, our method reveals its robustness and effectiveness in online applications.