ProactiveBench: Benchmarking Proactiveness in Multimodal Large Language Models

作者: Thomas De Min, Subhankar Roy, Stéphane Lathuilière, Elisa Ricci, Massimiliano Mancini

分类: cs.CV

发布日期: 2026-03-19

💡 一句话要点

ProactiveBench：用于评估多模态大语言模型主动性的基准测试

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 主动性 基准测试 强化学习 人机交互

📋 核心要点

现有MLLM在处理需要主动寻求外部信息或干预的任务时表现不足，缺乏人类的“主动性”。
ProactiveBench通过模拟真实场景，要求模型在遇到困难时主动请求用户帮助，从而评估模型的主动性。
实验表明，现有MLLM普遍缺乏主动性，且主动性与模型容量不相关，强化学习微调可以有效提升模型的主动性。

📝 摘要（中文）

本文提出了ProactiveBench，一个用于评估多模态大语言模型（MLLM）主动性的基准测试。有效的协作始于知道何时寻求帮助。例如，当试图识别一个被遮挡的物体时，人类会要求别人移除障碍物。MLLM是否可以通过请求简单的用户干预来表现出类似的“主动”行为？为了研究这个问题，本文利用七个经过调整的数据集构建了ProactiveBench，用于测试不同任务中的主动性，例如识别被遮挡的物体、增强图像质量和解释粗略的草图。在ProactiveBench上评估了22个MLLM，结果表明：（i）它们普遍缺乏主动性；（ii）主动性与模型容量不相关；（iii）“提示”主动性只能产生边际收益。令人惊讶的是，本文发现对话历史和上下文学习会引入负面偏差，从而阻碍性能。最后，本文探索了一种基于强化学习的简单微调策略：其结果表明，主动性是可以学习的，甚至可以推广到未见过的场景。本文公开发布ProactiveBench，作为构建主动多模态模型的第一步。

🔬 方法详解

问题定义：现有的大型多模态模型在处理复杂任务时，往往缺乏主动寻求帮助的能力，例如在图像被遮挡时，无法主动请求移除遮挡物。这与人类的协作方式不同，人类会主动寻求信息以解决问题。因此，如何评估和提升MLLM的主动性是一个重要的问题。

核心思路：本文的核心思路是构建一个基准测试，该测试能够评估MLLM在不同任务中主动请求用户干预的能力。通过模拟真实场景，让模型在遇到困难时有机会主动寻求帮助，从而衡量其主动性水平。

技术框架：ProactiveBench基准测试包含七个重新设计的现有数据集，涵盖了识别被遮挡物体、增强图像质量、解释粗略草图等任务。评估流程如下：首先，向MLLM提供任务输入（例如，被遮挡的图像）；然后，模型可以选择直接回答问题或请求用户干预（例如，请求移除遮挡物）；最后，根据模型的回答准确性和请求干预的合理性来评估其主动性。

关键创新：ProactiveBench的关键创新在于它提供了一种评估MLLM主动性的新方法。与传统的评估方法不同，ProactiveBench关注的是模型是否能够主动寻求帮助，而不是仅仅关注模型的回答准确性。此外，本文还探索了使用强化学习来微调MLLM，以提高其主动性。

关键设计：在强化学习微调中，本文设计了一个奖励函数，该函数鼓励模型在需要时主动请求用户干预，并惩罚模型在不需要时请求干预。此外，本文还探索了不同的提示策略，以引导模型学习主动行为。具体参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有的22个MLLM在ProactiveBench上的表现普遍不佳，表明它们缺乏主动性。令人惊讶的是，对话历史和上下文学习反而会降低模型的主动性。通过强化学习微调，模型的主动性得到了显著提升，并且能够泛化到未见过的场景。这些结果表明，主动性是可以学习的，并且可以通过合适的训练方法来提高。

🎯 应用场景

ProactiveBench的研究成果可以应用于开发更智能、更具协作性的多模态人工智能系统。例如，在机器人辅助医疗、智能家居等领域，机器人可以主动请求用户提供信息或帮助，从而更好地完成任务。此外，该研究还可以促进人机交互领域的发展，使人机交互更加自然和高效。

📄 摘要（原文）

Effective collaboration begins with knowing when to ask for help. For example, when trying to identify an occluded object, a human would ask someone to remove the obstruction. Can MLLMs exhibit a similar "proactive" behavior by requesting simple user interventions? To investigate this, we introduce ProactiveBench, a benchmark built from seven repurposed datasets that tests proactiveness across different tasks such as recognizing occluded objects, enhancing image quality, and interpreting coarse sketches. We evaluate 22 MLLMs on ProactiveBench, showing that (i) they generally lack proactiveness; (ii) proactiveness does not correlate with model capacity; (iii) "hinting" at proactiveness yields only marginal gains. Surprisingly, we found that conversation histories and in-context learning introduce negative biases, hindering performance. Finally, we explore a simple fine-tuning strategy based on reinforcement learning: its results suggest that proactiveness can be learned, even generalizing to unseen scenarios. We publicly release ProactiveBench as a first step toward building proactive multimodal models.

ProactiveBench: Benchmarking Proactiveness in Multimodal Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理