A Systematic Evaluation of Positional Bias in Multi-Video Summarization with MLLMs
作者: Huangchen Xu, Yuan Wu, Yi Chang
分类: cs.CL
发布日期: 2026-06-03
💡 一句话要点
研究多视频摘要中的位置偏差问题以提升MLLM性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多视频摘要 位置偏差 多模态大语言模型 视频理解 实验评估
📋 核心要点
- 现有的多视频摘要方法在处理视频输入位置时存在偏差,导致摘要质量不稳定。
- 本文提出了一种系统评估方法,通过构建基准和使用多种指标来分析位置偏差的影响。
- 实验结果显示位置效应依赖于领域和模型,提示级别的缓解方法也被深入分析。
📝 摘要(中文)
多模态大语言模型(MLLMs)在视频理解中的应用日益增加,但其在多视频输入下的可靠性仍不清楚。本文研究了多视频摘要中的位置偏差问题,即在视频内容不变的情况下,摘要质量会因输入位置的不同而变化。我们从ActivityNet和新闻视频构建了基准,涵盖了烹饪、家庭、休闲和新闻场景,使用两种和四种视频输入。评估了九种开源和专有的MLLM,并通过覆盖度、方向性位置偏差(DPB)和中边差(MEG)三个互补指标来测量位置效应。结果表明,位置效应依赖于领域和模型,签名方向性偏差可能较小,即使中间位置表现不佳,增加视觉或生成预算并不能均匀消除不平衡。我们进一步分析了提示级别的缓解方法,结果表明多视频摘要对输入协议和位置仍然敏感,促使开发更稳健的无序不变多模态系统。
🔬 方法详解
问题定义:本文要解决的问题是多视频摘要中的位置偏差,现有方法在不同输入位置下表现不一致,影响摘要质量。
核心思路:通过构建基准数据集并评估多种MLLM,分析位置偏差的影响,提出提示级别的缓解方法,以提高摘要的稳定性和可靠性。
技术框架:研究采用了ActivityNet和新闻视频数据集,使用覆盖度、方向性位置偏差(DPB)和中边差(MEG)三个指标进行评估,涵盖了多种视频输入组合。
关键创新:最重要的创新点在于系统性地评估了多视频摘要中的位置偏差,并揭示了其依赖于领域和模型的特性,这为后续研究提供了新的视角。
关键设计:在实验中,设置了不同的视频输入组合,并使用了多种开源和专有的MLLM进行对比,分析了不同模型在位置偏差下的表现。
🖼️ 关键图片
📊 实验亮点
实验结果表明,位置效应在不同领域和模型中表现出显著差异,某些模型在中间位置表现不佳。通过提示级别的缓解方法,部分模型的摘要质量得到了提升,显示出对输入协议的敏感性。
🎯 应用场景
该研究的潜在应用领域包括视频摘要生成、视频检索和多模态内容分析等。通过提升多视频摘要的稳定性和可靠性,能够为用户提供更高质量的信息提取服务,具有重要的实际价值和未来影响。
📄 摘要(原文)
Multimodal Large Language Models (MLLMs) are increasingly used for video understanding, yet their reliability under multi-video inputs remains poorly understood. We study positional bias in multi-video summarization, where the quality of a per-video summary can change with the video's input slot even when the underlying content is unchanged. We construct a benchmark from ActivityNet and News videos, covering Cooking, Domestic, Leisure, and News settings with two- and four-video inputs. We evaluate nine open-source and proprietary MLLMs and measure position effects with three complementary metrics: Coverage, Directional Positional Bias (DPB), and Middle-Edge Gap (MEG). Our results show that positional effects are domain- and model-dependent: signed directional bias can be small even when middle positions underperform, and increasing visual or generation budget does not uniformly remove the imbalance. We further analyze prompt-level mitigation methods. Together, the results show that multi-video summarization remains sensitive to input protocol and position, motivating more robust order-invariant multimodal systems.