STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training
作者: Haiyi Qiu, Minghe Gao, Long Qian, Kaihang Pan, Qifan Yu, Juncheng Li, Wenjie Wang, Siliang Tang, Yueting Zhuang, Tat-Seng Chua
分类: cs.CV, cs.LG
发布日期: 2024-11-29 (更新: 2025-03-30)
💡 一句话要点
STEP:时空图引导的自训练增强视频大语言模型组合推理能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频大语言模型 组合推理 时空场景图 自训练 思维链 视频理解 多步推理
📋 核心要点
- 现有Video-LLMs在组合推理上存在不足,无法有效处理需要多步时空推理的任务。
- STEP利用时空场景图(STSG)引导模型生成富含推理的问答数据,进行自训练,提升推理能力。
- 实验表明,STEP在多步推理任务上提升显著,仅需少量自生成数据即可达到优异性能。
📝 摘要(中文)
视频大语言模型(Video-LLMs)在视频描述和粗粒度问答等基础视频理解任务中表现出色,但在需要跨对象关系、交互和事件进行多步时空推理的组合推理方面表现不佳。提升这种能力面临的挑战包括大量的人工标注工作、现有数据缺乏时空组合性以及缺乏显式的推理监督。本文提出了一种新的图引导自训练方法STEP,使Video-LLMs能够从任何原始视频生成富含推理的微调数据,从而改进自身。具体来说,我们首先诱导生成多样化视频的时空场景图(STSG)表示,以捕获细粒度的多粒度视频语义。然后,STSG引导生成带有思维链(CoT)推理的多步推理问答(QA)数据。答案和推理过程都被整合为训练目标,旨在通过对显式推理步骤的监督来增强模型的推理能力。实验结果表明,STEP在不同规模的模型中都有效,在需要三个或更多推理步骤的任务中实现了显著的21.3%的改进。此外,在组合推理和综合理解基准测试中,它以最少量的自生成、富含推理的训练样本实现了卓越的性能,突出了其广泛的适用性和巨大的潜力。
🔬 方法详解
问题定义:论文旨在解决视频大语言模型(Video-LLMs)在组合推理能力上的不足。现有方法在处理需要跨对象关系、交互和事件进行多步时空推理的任务时表现不佳,主要痛点在于缺乏高质量的、包含显式推理过程的训练数据,以及人工标注成本高昂。
核心思路:论文的核心思路是利用视频自身的语义信息,通过自训练的方式生成高质量的训练数据,从而提升Video-LLMs的组合推理能力。具体而言,通过构建时空场景图(STSG)来捕捉视频中的细粒度语义关系,并利用STSG引导生成包含思维链(CoT)推理的问答数据。
技术框架:STEP方法主要包含以下几个阶段:1) STSG生成:对输入视频进行分析,提取视频中的对象、关系和事件,构建时空场景图(STSG)。2) QA数据生成:利用STSG,设计一系列规则或模板,生成包含多步推理过程的问答数据,并附带思维链(CoT)推理过程。3) 模型训练:使用生成的QA数据对Video-LLM进行微调,目标是让模型学习到如何根据视频内容进行多步推理,并生成相应的答案和推理过程。
关键创新:STEP方法最重要的创新点在于利用时空场景图(STSG)来引导生成富含推理过程的训练数据。与传统的直接标注问答数据的方法相比,STEP能够更有效地利用视频自身的语义信息,生成更具结构化和推理性的数据,从而更好地提升模型的推理能力。此外,自训练的方式也降低了人工标注的成本。
关键设计:在STSG生成阶段,需要选择合适的算法来提取视频中的对象、关系和事件。在QA数据生成阶段,需要设计合理的规则或模板,以确保生成的数据具有多样性和推理性。在模型训练阶段,可以使用交叉熵损失函数来优化模型的答案生成能力,并可以使用序列到序列(Seq2Seq)模型来生成思维链(CoT)推理过程。
🖼️ 关键图片
📊 实验亮点
实验结果表明,STEP方法在需要三个或更多推理步骤的任务中实现了显著的21.3%的改进。此外,在组合推理和综合理解基准测试中,STEP仅使用少量自生成、富含推理的训练样本就实现了卓越的性能,证明了其高效性和泛化能力。该方法在不同规模的模型上都表现出有效性。
🎯 应用场景
该研究成果可应用于智能监控、视频内容理解、智能客服等领域。例如,在智能监控中,可以利用该方法分析监控视频中的异常事件,并进行多步推理,从而实现更智能化的安全预警。在视频内容理解中,可以帮助用户更好地理解视频内容,并进行更深入的分析。在智能客服中,可以根据用户提出的问题,进行多步推理,提供更准确的答案。
📄 摘要(原文)
Video Large Language Models (Video-LLMs) have recently shown strong performance in basic video understanding tasks, such as captioning and coarse-grained question answering, but struggle with compositional reasoning that requires multi-step spatio-temporal inference across object relations, interactions, and events. The hurdles to enhancing this capability include extensive manual labor, the lack of spatio-temporal compositionality in existing data and the absence of explicit reasoning supervision. In this paper, we propose STEP, a novel graph-guided self-training method that enables Video-LLMs to generate reasoning-rich fine-tuning data from any raw videos to improve itself. Specifically, we first induce Spatio-Temporal Scene Graph (STSG) representation of diverse videos to capture fine-grained, multi-granular video semantics. Then, the STSGs guide the derivation of multi-step reasoning Question-Answer (QA) data with Chain-of-Thought (CoT) rationales. Both answers and rationales are integrated as training objective, aiming to enhance model's reasoning abilities by supervision over explicit reasoning steps. Experimental results demonstrate the effectiveness of STEP across models of varying scales, with a significant 21.3\% improvement in tasks requiring three or more reasoning steps. Furthermore, it achieves superior performance with a minimal amount of self-generated rationale-enriched training samples in both compositional reasoning and comprehensive understanding benchmarks, highlighting the broad applicability and vast potential.