Training-free Online Video Step Grounding

📄 arXiv: 2510.16989v1 📥 PDF

作者: Luca Zanella, Massimiliano Mancini, Yiming Wang, Alessio Tonioni, Elisa Ricci

分类: cs.CV

发布日期: 2025-10-19

备注: NeurIPS 2025. Project website at https://lucazanella.github.io/baglm/


💡 一句话要点

提出基于大模型和贝叶斯滤波的无训练在线视频步骤定位方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频步骤定位 在线学习 大型多模态模型 贝叶斯滤波 零样本学习

📋 核心要点

  1. 现有视频步骤定位方法依赖大量标注数据和离线处理,限制了其在实时场景中的应用。
  2. 本文提出利用大型多模态模型的零样本能力,结合贝叶斯滤波,实现无需训练的在线步骤定位。
  3. 实验结果表明,该方法在多个数据集上超越了需要训练的离线方法,展现了良好的性能。

📝 摘要(中文)

视频步骤定位(VSG)旨在检测视频中执行的步骤。传统方法需要带标注的训练集,成本高昂,且离线处理完整视频,限制了在线决策场景的应用。本文探索了如何在线且无需训练地执行VSG,利用大型多模态模型(LMM)的零样本能力,预测与一组帧相关的步骤。这种在线策略优于离线和基于训练的模型。进一步地,本文提出了基于大型多模态模型的贝叶斯定位(BaGLM),将过去帧的信息注入到基于LMM的预测中。BaGLM利用贝叶斯滤波原理,通过(i)从大型语言模型中提取的依赖矩阵和(ii)步骤进度的估计来建模步骤转换。在三个数据集上的实验表明,BaGLM的性能优于最先进的基于训练的离线方法。

🔬 方法详解

问题定义:视频步骤定位旨在识别视频中执行的步骤序列。现有方法通常需要大量的标注数据进行训练,并且通常以离线方式处理整个视频,这使得它们难以应用于需要实时决策的在线场景。因此,如何在没有训练数据的情况下,实现视频步骤的在线定位是一个关键问题。

核心思路:本文的核心思路是利用大型多模态模型(LMM)的强大零样本学习能力,直接从视频帧中预测步骤。此外,为了提高预测的准确性和鲁棒性,引入贝叶斯滤波框架,将过去帧的信息融入到当前的预测中,从而实现更准确的在线步骤定位。

技术框架:BaGLM框架主要包含以下几个模块:1) 使用LMM提取视频帧的视觉特征并预测对应的步骤;2) 利用大型语言模型构建步骤之间的依赖关系矩阵,作为贝叶斯滤波的状态转移模型;3) 估计步骤的进度,并将其作为贝叶斯滤波的观测模型;4) 使用贝叶斯滤波算法,融合LMM的预测结果、步骤依赖关系和步骤进度,得到最终的步骤定位结果。

关键创新:该方法最大的创新在于实现了无需训练的在线视频步骤定位。它巧妙地结合了大型多模态模型的零样本能力和贝叶斯滤波的序列建模能力,克服了传统方法对大量标注数据的依赖。此外,利用大型语言模型构建步骤依赖关系矩阵,也为步骤之间的转换建模提供了一种新的思路。

关键设计:在LMM的选择上,论文使用了具有强大视觉理解能力的模型。在贝叶斯滤波中,状态转移矩阵由大型语言模型生成,反映了步骤之间的逻辑关系。步骤进度估计可能基于时间或视频内容特征。具体的损失函数和网络结构取决于所使用的LMM和贝叶斯滤波的具体实现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

BaGLM在三个数据集上均取得了优于现有基于训练的离线方法的性能。具体而言,该方法在无需任何训练数据的情况下,能够有效地定位视频中的步骤,并且在某些数据集上取得了显著的性能提升,证明了其有效性和泛化能力。实验结果表明,利用大型多模态模型的零样本能力和贝叶斯滤波框架,可以有效地解决在线视频步骤定位问题。

🎯 应用场景

该研究成果可应用于机器人操作、智能助手、视频监控等领域。例如,机器人可以根据视频步骤定位结果,自主完成复杂的任务;智能助手可以根据用户观看的视频内容,提供相关的操作指导;视频监控系统可以自动识别视频中发生的事件,并及时发出警报。该研究为实现智能化、自动化提供了新的技术手段。

📄 摘要(原文)

Given a task and a set of steps composing it, Video Step Grounding (VSG) aims to detect which steps are performed in a video. Standard approaches for this task require a labeled training set (e.g., with step-level annotations or narrations), which may be costly to collect. Moreover, they process the full video offline, limiting their applications for scenarios requiring online decisions. Thus, in this work, we explore how to perform VSG online and without training. We achieve this by exploiting the zero-shot capabilities of recent Large Multimodal Models (LMMs). In particular, we use LMMs to predict the step associated with a restricted set of frames, without access to the whole video. We show that this online strategy without task-specific tuning outperforms offline and training-based models. Motivated by this finding, we develop Bayesian Grounding with Large Multimodal Models (BaGLM), further injecting knowledge of past frames into the LMM-based predictions. BaGLM exploits Bayesian filtering principles, modeling step transitions via (i) a dependency matrix extracted through large language models and (ii) an estimation of step progress. Experiments on three datasets show superior performance of BaGLM over state-of-the-art training-based offline methods.