A Systematic Evaluation of Positional Bias in Multi-Video Summarization with MLLMs

作者: Huangchen Xu, Yuan Wu, Yi Chang

分类: cs.CL

发布日期: 2026-06-03

💡 一句话要点

研究多视频摘要中的位置偏差问题以提升MLLM性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多视频摘要 位置偏差 多模态大语言模型 视频理解 实验评估

📋 核心要点

现有的多视频摘要方法在处理视频输入位置时存在偏差，导致摘要质量不稳定。
本文提出了一种系统评估方法，通过构建基准和使用多种指标来分析位置偏差的影响。
实验结果显示位置效应依赖于领域和模型，提示级别的缓解方法也被深入分析。

📝 摘要（中文）

多模态大语言模型（MLLMs）在视频理解中的应用日益增加，但其在多视频输入下的可靠性仍不清楚。本文研究了多视频摘要中的位置偏差问题，即在视频内容不变的情况下，摘要质量会因输入位置的不同而变化。我们从ActivityNet和新闻视频构建了基准，涵盖了烹饪、家庭、休闲和新闻场景，使用两种和四种视频输入。评估了九种开源和专有的MLLM，并通过覆盖度、方向性位置偏差（DPB）和中边差（MEG）三个互补指标来测量位置效应。结果表明，位置效应依赖于领域和模型，签名方向性偏差可能较小，即使中间位置表现不佳，增加视觉或生成预算并不能均匀消除不平衡。我们进一步分析了提示级别的缓解方法，结果表明多视频摘要对输入协议和位置仍然敏感，促使开发更稳健的无序不变多模态系统。

🔬 方法详解

问题定义：本文要解决的问题是多视频摘要中的位置偏差，现有方法在不同输入位置下表现不一致，影响摘要质量。

核心思路：通过构建基准数据集并评估多种MLLM，分析位置偏差的影响，提出提示级别的缓解方法，以提高摘要的稳定性和可靠性。

技术框架：研究采用了ActivityNet和新闻视频数据集，使用覆盖度、方向性位置偏差（DPB）和中边差（MEG）三个指标进行评估，涵盖了多种视频输入组合。

关键创新：最重要的创新点在于系统性地评估了多视频摘要中的位置偏差，并揭示了其依赖于领域和模型的特性，这为后续研究提供了新的视角。

关键设计：在实验中，设置了不同的视频输入组合，并使用了多种开源和专有的MLLM进行对比，分析了不同模型在位置偏差下的表现。

🖼️ 关键图片

📊 实验亮点

实验结果表明，位置效应在不同领域和模型中表现出显著差异，某些模型在中间位置表现不佳。通过提示级别的缓解方法，部分模型的摘要质量得到了提升，显示出对输入协议的敏感性。

🎯 应用场景

该研究的潜在应用领域包括视频摘要生成、视频检索和多模态内容分析等。通过提升多视频摘要的稳定性和可靠性，能够为用户提供更高质量的信息提取服务，具有重要的实际价值和未来影响。

📄 摘要（原文）

Multimodal Large Language Models (MLLMs) are increasingly used for video understanding, yet their reliability under multi-video inputs remains poorly understood. We study positional bias in multi-video summarization, where the quality of a per-video summary can change with the video's input slot even when the underlying content is unchanged. We construct a benchmark from ActivityNet and News videos, covering Cooking, Domestic, Leisure, and News settings with two- and four-video inputs. We evaluate nine open-source and proprietary MLLMs and measure position effects with three complementary metrics: Coverage, Directional Positional Bias (DPB), and Middle-Edge Gap (MEG). Our results show that positional effects are domain- and model-dependent: signed directional bias can be small even when middle positions underperform, and increasing visual or generation budget does not uniformly remove the imbalance. We further analyze prompt-level mitigation methods. Together, the results show that multi-video summarization remains sensitive to input protocol and position, motivating more robust order-invariant multimodal systems.

A Systematic Evaluation of Positional Bias in Multi-Video Summarization with MLLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理