ScaleLong: A Multi-Timescale Benchmark for Long Video Understanding
作者: David Ma, Huaqing Yuan, Xingjian Wang, Qianbo Zang, Tianci Liu, Xinyang He, Yanbin Wei, Jiawei Guo, Ni Jiahui, Zhenzhu Yang, Meng Cao, Shanghaoran Quan, Yizhi Li, Wangchunshu Zhou, Jiaheng Liu, Wenhao Huang, Ge Zhang, Shiwen Ni, Xiaojie Jin
分类: cs.CV, cs.CL
发布日期: 2025-05-29
🔗 代码/项目: GITHUB
💡 一句话要点
提出ScaleLong:一个用于长视频理解的多时间尺度基准测试,促进模型在不同时间尺度上性能的直接比较。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长视频理解 多时间尺度 基准测试 多模态大语言模型 视频内容分析
📋 核心要点
- 现有长视频理解基准缺乏在同一视频内容上对不同时间尺度性能进行直接比较的能力,阻碍了模型对多尺度时间信息的有效学习。
- ScaleLong通过在同一视频中嵌入针对片段、镜头、事件和故事四个时间尺度的问题,实现了在相同内容上跨时间尺度的性能直接比较。
- 实验结果表明,现有MLLM在长视频理解中存在U型性能曲线,即在短时和长时尺度上表现较好,而在中间尺度上表现较差,视觉token容量的增加能提升所有时间尺度的推理能力。
📝 摘要(中文)
长视频理解要求模型能够捕捉从片段(秒级)、镜头(十秒级)到事件(分钟级)和故事(小时级)的分层时间信息。然而,现有的基准测试要么忽略这种多尺度设计,要么将特定尺度的问题分散在不同的视频中,无法直接比较模型在相同内容上不同时间尺度的性能。为了解决这个问题,我们引入了ScaleLong,这是第一个通过在同一视频内容中嵌入针对四个分层时间尺度(片段、镜头、事件和故事)的问题来解耦这些因素的基准测试。这种内容内的多时间尺度问题设计能够直接比较模型在相同视频上不同时间尺度的性能。ScaleLong包含来自5个主要类别和36个子类别的269个长视频(平均86分钟),带有4-8个精心设计的问题,包括每个时间尺度至少一个问题。对23个MLLM的评估显示出U型性能曲线,在最短和最长的时间尺度上具有较高的准确性,而在中间水平上有所下降。此外,消融研究表明,增加视觉token容量可以持续增强所有时间尺度的推理能力。ScaleLong提供了一个细粒度的多时间尺度基准,用于提高MLLM在长视频理解方面的能力。代码和数据集可在https://github.com/multimodal-art-projection/ScaleLong 获取。
🔬 方法详解
问题定义:现有长视频理解基准测试的痛点在于无法在同一视频内容上直接比较模型在不同时间尺度(例如:片段、镜头、事件、故事)上的性能。这使得研究人员难以评估模型在不同时间尺度上理解视频内容的能力,也阻碍了模型对多尺度时间信息的有效学习。现有的方法通常将不同时间尺度的问题分散在不同的视频中,或者忽略了多尺度时间信息的建模。
核心思路:ScaleLong的核心思路是在同一视频内容中嵌入针对不同时间尺度的问题,从而实现模型在相同内容上跨时间尺度的性能直接比较。通过精心设计问题,确保每个视频都包含针对片段(秒级)、镜头(十秒级)、事件(分钟级)和故事(小时级)四个时间尺度的问题。这种设计使得研究人员可以更细粒度地评估模型在不同时间尺度上理解视频内容的能力,并促进模型对多尺度时间信息的有效学习。
技术框架:ScaleLong基准测试包含269个长视频,这些视频来自5个主要类别和36个子类别,每个视频平均时长为86分钟。每个视频都配有4-8个精心设计的问题,这些问题覆盖了片段、镜头、事件和故事四个时间尺度。研究人员可以使用ScaleLong来评估各种多模态大语言模型(MLLM)在长视频理解方面的能力。评估过程包括将视频和问题输入到MLLM中,然后比较模型的答案与ground truth。
关键创新:ScaleLong最重要的技术创新点在于其内容内的多时间尺度问题设计。这种设计使得研究人员可以首次在相同视频内容上直接比较模型在不同时间尺度上的性能。与现有方法相比,ScaleLong能够更细粒度地评估模型在不同时间尺度上理解视频内容的能力,并促进模型对多尺度时间信息的有效学习。
关键设计:ScaleLong的关键设计包括:1) 视频选择:选择具有代表性的长视频,覆盖多个类别和子类别。2) 问题设计:精心设计问题,确保每个视频都包含针对片段、镜头、事件和故事四个时间尺度的问题,并且问题具有挑战性,能够有效评估模型的理解能力。3) 评估指标:使用准确率等指标来评估模型在不同时间尺度上的性能。4) 数据集划分:将数据集划分为训练集、验证集和测试集,以便研究人员进行模型训练和评估。
🖼️ 关键图片
📊 实验亮点
对23个MLLM的评估显示,模型在ScaleLong上呈现U型性能曲线,即在最短(片段)和最长(故事)的时间尺度上准确率较高,而在中间尺度(镜头和事件)上准确率较低。消融研究表明,增加视觉token容量可以持续增强所有时间尺度的推理能力。这些结果表明,现有MLLM在长视频理解中仍有很大的提升空间,ScaleLong可以作为评估和改进MLLM的重要工具。
🎯 应用场景
ScaleLong基准测试可以广泛应用于长视频理解领域,例如视频内容分析、智能监控、自动驾驶、教育视频分析等。通过提高模型在不同时间尺度上理解视频内容的能力,可以实现更准确、更智能的视频分析和理解,从而为各种应用场景提供更好的服务。例如,在智能监控中,可以利用ScaleLong训练的模型来识别异常事件,提高监控效率。
📄 摘要(原文)
Although long-video understanding demands that models capture hierarchical temporal information -- from clip (seconds) and shot (tens of seconds) to event (minutes) and story (hours) -- existing benchmarks either neglect this multi-scale design or scatter scale-specific questions across different videos, preventing direct comparison of model performance across timescales on the same content. To address this, we introduce ScaleLong, the first benchmark to disentangle these factors by embedding questions targeting four hierarchical timescales -- clip (seconds), shot (tens of seconds), event (minutes), and story (hours) -- all within the same video content. This within-content multi-timescale questioning design enables direct comparison of model performance across timescales on identical videos. ScaleLong features 269 long videos (avg.\ 86\,min) from 5 main categories and 36 sub-categories, with 4--8 carefully designed questions, including at least one question for each timescale. Evaluating 23 MLLMs reveals a U-shaped performance curve, with higher accuracy at the shortest and longest timescales and a dip at intermediate levels. Furthermore, ablation studies show that increased visual token capacity consistently enhances reasoning across all timescales. ScaleLong offers a fine-grained, multi-timescale benchmark for advancing MLLM capabilities in long-video understanding. The code and dataset are available https://github.com/multimodal-art-projection/ScaleLong.