ProactiveVideoQA: A Comprehensive Benchmark Evaluating Proactive Interactions in Video Large Language Models

作者: Yueqian Wang, Xiaojun Meng, Yifan Wang, Huishuai Zhang, Dongyan Zhao

分类: cs.CV

发布日期: 2025-07-12 (更新: 2025-07-15)

🔗 代码/项目: GITHUB

💡 一句话要点

提出ProactiveVideoQA基准，评估视频大语言模型的主动交互能力，并提出PAUC评价指标。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频问答 主动交互 多模态学习 基准数据集 评估指标

📋 核心要点

现有视频问答系统缺乏主动性，通常采用被动的逐轮对话模式，无法满足用户对智能交互的需求。
论文提出ProactiveVideoQA基准，旨在评估视频大语言模型在视频播放过程中主动发起交互的能力。
论文设计了PAUC指标，该指标考虑了模型响应的时间动态，能更准确地评估主动交互场景下的用户体验。

📝 摘要（中文）

随着多模态对话系统研究的日益增长，主动交互能力正逐渐受到重视。与传统的逐轮对话不同，用户越来越期望多模态系统更具主动性，例如，在视频播放期间实时自主地确定多轮响应的时机。为了促进这一新兴领域的发展，我们推出了ProactiveVideoQA，这是第一个综合性的基准，用于评估系统进行主动交互的能力。由于模型响应是在不同的时间戳生成的，我们进一步提出了PAUC，这是第一个考虑模型响应时间动态的指标。这使得能够更准确地评估在主动设置中运行的系统。通过对ProactiveVideoQA上的各种基线系统进行广泛的基准测试以及对人类偏好的用户研究，我们表明PAUC比传统的评估指标（通常只考虑响应的文本内容）更符合人类偏好。这些发现表明，PAUC在主动交互场景中提供了对用户体验更真实的评估。

🔬 方法详解

问题定义：现有视频问答系统主要集中在被动响应用户提问，缺乏在视频播放过程中主动发起交互的能力。这导致用户体验受限，无法充分利用视频内容。现有评估指标通常只关注文本内容的准确性，忽略了时间维度上的交互质量。

核心思路：论文的核心思路是构建一个能够评估模型主动交互能力的基准数据集，并设计一个能够衡量模型在时间维度上表现的评估指标。通过ProactiveVideoQA数据集，可以训练和评估模型在何时以及如何主动与用户进行交互。PAUC指标则用于量化模型在不同时间点生成响应的质量，从而更全面地评估主动交互性能。

技术框架：ProactiveVideoQA基准包含一系列视频片段和与之相关的问答对，每个问答对都标注了最佳响应时间。模型在视频播放过程中，需要自主决定何时生成答案。评估过程包括两个方面：一是答案的准确性，二是响应时间与标注时间的匹配程度。PAUC指标通过计算不同时间阈值下的Area Under the Curve (AUC) 来衡量模型的时间敏感性。

关键创新：论文的关键创新在于提出了ProactiveVideoQA基准和PAUC评估指标。ProactiveVideoQA是首个专门用于评估视频大语言模型主动交互能力的基准数据集。PAUC指标则首次将时间维度纳入评估体系，能够更准确地反映模型在主动交互场景下的表现。与传统评估指标相比，PAUC更符合人类对主动交互系统的期望。

关键设计：PAUC指标的计算涉及多个时间阈值，通过计算在不同阈值下的AUC值，可以得到一个综合性的评估结果。具体而言，PAUC首先计算模型在每个时间点生成响应的准确率，然后根据时间阈值对准确率进行加权平均。时间阈值的设计需要根据具体应用场景进行调整，以反映用户对响应时间的敏感程度。

🖼️ 关键图片

📊 实验亮点

实验结果表明，PAUC指标与人类偏好具有更高的一致性，能够更准确地评估主动交互系统的性能。通过在ProactiveVideoQA基准上对多个基线系统进行评估，发现现有模型在主动交互能力方面仍有很大的提升空间。用户研究也表明，用户更倾向于能够主动提供信息的视频问答系统。

🎯 应用场景

该研究成果可应用于智能视频助手、在线教育、智能监控等领域。例如，在在线教育中，系统可以主动向学生提问，帮助学生更好地理解视频内容。在智能监控中，系统可以主动识别异常事件并发出警报。该研究有助于提升人机交互的智能化水平，改善用户体验。

📄 摘要（原文）

With the growing research focus on multimodal dialogue systems, the capability for proactive interaction is gradually gaining recognition. As an alternative to conventional turn-by-turn dialogue, users increasingly expect multimodal systems to be more initiative, for example, by autonomously determining the timing of multi-turn responses in real time during video playback. To facilitate progress in this emerging area, we introduce ProactiveVideoQA, the first comprehensive benchmark to evaluate a system's ability to engage in proactive interaction. Since model responses are generated at varying timestamps, we further propose PAUC, the first metric that accounts for the temporal dynamics of model responses. This enables a more accurate evaluation of systems operating in proactive settings. Through extensive benchmarking of various baseline systems on ProactiveVideoQA and a user study of human preferences, we show that PAUC is in better agreement with human preferences than traditional evaluation metrics, which typically only consider the textual content of responses. These findings demonstrate that PAUC provides a more faithful assessment of user experience in proactive interaction scenarios. Project homepage: https://github.com/yellow-binary-tree/ProactiveVideoQA

ProactiveVideoQA: A Comprehensive Benchmark Evaluating Proactive Interactions in Video Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理