Learning to Recognize Correctly Completed Procedure Steps in Egocentric Assembly Videos through Spatio-Temporal Modeling

作者: Tim J. Schoonbeek, Shao-Hsuan Hung, Dan Lehman, Hans Onvlee, Jacek Kustra, Peter H. N. de With, Fons van der Sommen

分类: cs.CV

发布日期: 2025-10-14

备注: 26 pages, 7 figures and 5 tables in the main paper and one figure and table in the appendix. To be published in Computer Vision and Image Understanding

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出STORM-PSR，通过时空建模提升自中心视角装配视频中步骤识别的鲁棒性。

🎯 匹配领域: 支柱六：视频提取与匹配 (Video Extraction)

关键词: 程序步骤识别 时空建模 自中心视角 遮挡鲁棒性 弱监督学习

📋 核心要点

现有程序步骤识别方法依赖于单帧对象状态检测，忽略了时间信息，在遮挡情况下表现不佳。
STORM-PSR采用双流架构，结合空间和时间特征，利用弱监督预训练的空间编码器和Transformer时间编码器。
在MECCANO和IndustReal数据集上，STORM-PSR显著降低了步骤完成的平均延迟，验证了时空建模的有效性。

📝 摘要（中文）

本文提出了一种用于程序步骤识别（PSR）的时空遮挡鲁棒建模框架（STORM-PSR），旨在识别程序任务视频中所有正确完成的步骤及其顺序。现有模型仅依赖于检测单个视频帧中的装配对象状态，忽略了时间特征，导致模型鲁棒性和准确性受限，尤其是在对象被部分遮挡时。STORM-PSR是一个双流框架，利用空间和时间特征。装配状态检测流在对象视图无遮挡时有效工作，而时空流则捕获空间和时间特征，即使在部分遮挡下也能识别步骤完成。该流包含一个空间编码器（使用一种新的弱监督方法进行预训练，以捕获有意义的空间表示）和一个基于Transformer的时间编码器，用于学习这些空间特征如何随时间变化。在MECCANO和IndustReal数据集上的评估表明，与现有方法相比，STORM-PSR将实际和预测装配步骤完成之间的平均延迟分别降低了11.2%和26.1%。实验证明，这种延迟的减少是由时空流驱动的，该流不依赖于对象的无遮挡视图来推断已完成的步骤。STORM-PSR的代码以及新注释的MECCANO标签已公开发布。

🔬 方法详解

问题定义：论文旨在解决自中心视角装配视频中程序步骤识别的问题，尤其是在对象存在部分遮挡的情况下。现有方法主要依赖于单帧图像中的对象状态检测，忽略了视频中的时间信息，导致在遮挡情况下识别精度下降。因此，如何有效地利用时空信息，提高遮挡条件下的步骤识别鲁棒性是本文要解决的核心问题。

核心思路：论文的核心思路是构建一个双流框架，同时利用空间和时间特征进行步骤识别。一个流专注于检测清晰可见的对象状态，另一个流则通过时空建模来处理遮挡情况。通过结合两个流的信息，模型可以在各种遮挡条件下更准确地识别已完成的步骤。这种设计旨在弥补现有方法仅依赖于单帧信息的不足，提高模型的鲁棒性。

技术框架：STORM-PSR框架包含两个主要流：装配状态检测流和时空流。装配状态检测流负责检测清晰可见的对象状态。时空流包含一个空间编码器和一个基于Transformer的时间编码器。空间编码器使用弱监督方法进行预训练，以提取有意义的空间特征。时间编码器则学习这些空间特征如何随时间变化，从而捕捉步骤完成的时序信息。两个流的输出被融合以进行最终的步骤识别。

关键创新：该论文的关键创新在于提出了一个双流时空建模框架，能够有效处理自中心视角装配视频中的遮挡问题。与现有方法相比，STORM-PSR不仅考虑了单帧图像中的对象状态，还利用了视频中的时间信息，从而提高了步骤识别的鲁棒性。此外，使用弱监督方法预训练空间编码器也是一个创新点，可以有效地提取空间特征。

关键设计：空间编码器使用弱监督方法进行预训练，具体细节未知。时间编码器采用Transformer架构，用于学习空间特征随时间的变化模式。损失函数的设计未知，但可能包括分类损失和时间一致性损失。具体的网络结构参数和训练细节在论文中可能有所描述，但摘要中未提及。

🖼️ 关键图片

📊 实验亮点

STORM-PSR在MECCANO和IndustReal数据集上取得了显著的性能提升。与现有方法相比，STORM-PSR将实际和预测装配步骤完成之间的平均延迟分别降低了11.2%和26.1%。实验结果表明，时空流在减少延迟方面起着关键作用，即使在对象被部分遮挡的情况下也能准确识别步骤完成。

🎯 应用场景

该研究成果可应用于机器人辅助装配、智能制造、远程指导等领域。通过准确识别装配步骤，可以帮助机器人更好地理解和执行装配任务，提高生产效率和质量。此外，该技术还可以用于远程指导，帮助用户在装配过程中获得实时反馈和指导，降低出错率。

📄 摘要（原文）

Procedure step recognition (PSR) aims to identify all correctly completed steps and their sequential order in videos of procedural tasks. The existing state-of-the-art models rely solely on detecting assembly object states in individual video frames. By neglecting temporal features, model robustness and accuracy are limited, especially when objects are partially occluded. To overcome these limitations, we propose Spatio-Temporal Occlusion-Resilient Modeling for Procedure Step Recognition (STORM-PSR), a dual-stream framework for PSR that leverages both spatial and temporal features. The assembly state detection stream operates effectively with unobstructed views of the object, while the spatio-temporal stream captures both spatial and temporal features to recognize step completions even under partial occlusion. This stream includes a spatial encoder, pre-trained using a novel weakly supervised approach to capture meaningful spatial representations, and a transformer-based temporal encoder that learns how these spatial features relate over time. STORM-PSR is evaluated on the MECCANO and IndustReal datasets, reducing the average delay between actual and predicted assembly step completions by 11.2% and 26.1%, respectively, compared to prior methods. We demonstrate that this reduction in delay is driven by the spatio-temporal stream, which does not rely on unobstructed views of the object to infer completed steps. The code for STORM-PSR, along with the newly annotated MECCANO labels, is made publicly available at https://timschoonbeek.github.io/stormpsr .

Learning to Recognize Correctly Completed Procedure Steps in Egocentric Assembly Videos through Spatio-Temporal Modeling

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理