IPIBench: Evaluating Interactive Proactive Intelligence of MLLMs under Continuous Streams

📄 arXiv: 2605.27074v1 📥 PDF

作者: Jinzhao Li, Yinuo Chen, Wenxuan Song, Yijia Lei, Yichi Zhang, Honglei Yan, Panwang Pan, Miao Liu

分类: cs.CV

发布日期: 2026-05-26


💡 一句话要点

IPIBench:提出交互式主动智能评测基准,评估MLLM在连续视频流中的性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 主动智能 交互式系统 视频流处理 评测基准

📋 核心要点

  1. 现有MLLM在反应式问答表现出色,但缺乏在连续视频流中进行主动推理的能力,现有基准也忽略了动态多轮交互场景。
  2. 本文提出IPI-Agent,通过交互控制策略和时间门控机制,稳定主动触发,协调反应式和主动式行为,无需额外训练。
  3. 实验结果表明,IPI-Agent能够显著提升现有MLLM在IPIBench上的性能,验证了其在交互式主动智能方面的有效性。

📝 摘要(中文)

本文提出了IPIBench,这是一个用于评估多模态大型语言模型(MLLM)在流视频环境中交互式主动智能的首个基准。现有基准主要研究孤立的单轮交互中的反应式或主动式交互,忽略了动态多轮场景,在这些场景中,用户可能会添加、修改或取消主动请求,并穿插反应式查询。IPIBench涵盖了主动监控、主动任务管理以及交错的反应式-主动式请求。对代表性MLLM的评估揭示了两个主要局限性:不稳定的主动触发以及反应式和主动式行为之间的弱协调。此外,本文还提出了IPI-Agent,这是一个无需训练的agent框架,具有交互控制策略和时间门控机制,用于稳定主动触发并协调多轮交互。实验表明,IPI-Agent在所有基准设置中都能持续改进现有的MLLM。

🔬 方法详解

问题定义:现有MLLM在处理实时视频流中的交互式任务时,面临着主动智能不足的问题。具体来说,它们难以在连续的视频输入中稳定地触发主动行为,并且在处理交错的反应式(回答用户提问)和主动式(根据环境变化采取行动)请求时,协调能力较弱。现有的评测基准主要关注单轮交互,无法全面评估MLLM在真实场景下的性能。

核心思路:本文的核心思路是设计一个更贴近真实应用场景的评测基准IPIBench,并提出一个无需训练的agent框架IPI-Agent来提升MLLM的主动智能水平。IPI-Agent通过交互控制策略来决定何时触发主动行为,并通过时间门控机制来协调反应式和主动式请求,从而提高MLLM的稳定性和协调性。

技术框架:IPI-Agent框架主要包含两个核心模块:交互控制策略和时间门控机制。交互控制策略负责根据当前环境状态和用户请求,决定是否需要触发主动行为。时间门控机制则用于协调反应式和主动式请求,避免两者之间的冲突或干扰。整个框架无需额外的训练,可以直接应用于现有的MLLM。

关键创新:IPI-Agent的关键创新在于其无需训练的设计,以及交互控制策略和时间门控机制的结合。无需训练的设计使得IPI-Agent可以方便地应用于各种现有的MLLM,而无需进行额外的训练成本。交互控制策略和时间门控机制的结合则有效地解决了主动触发不稳定和反应式-主动式行为协调困难的问题。

关键设计:交互控制策略的具体实现方式未知,但可以推测其可能基于规则、启发式方法或简单的机器学习模型。时间门控机制的具体实现方式也未知,但可以推测其可能基于注意力机制或门控循环单元(GRU)等技术,用于控制不同请求之间的信息流动。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,IPI-Agent在IPIBench的所有设置中都能够持续改进现有的MLLM。具体来说,IPI-Agent能够显著提高MLLM的主动触发稳定性和反应式-主动式行为协调能力。例如,在主动监控任务中,IPI-Agent能够将MLLM的准确率提高XX%,在主动任务管理任务中,IPI-Agent能够将MLLM的效率提高YY%。

🎯 应用场景

该研究成果可应用于智能监控、智能家居、自动驾驶等领域。例如,在智能监控中,MLLM可以主动检测异常事件并发出警报;在智能家居中,MLLM可以根据用户的习惯和环境变化,主动调节设备状态;在自动驾驶中,MLLM可以主动识别潜在的危险并采取相应的措施。该研究有助于提升人机交互的智能化水平,并为构建更加智能化的系统奠定基础。

📄 摘要(原文)

Recent multimodal large language models (MLLMs) achieve strong performance on reactive question answering, but real-world streaming assistants require proactive reasoning over continuous visual inputs. Existing benchmarks mainly study reactive or proactive interactions in isolated single-turn settings, overlooking dynamic multi-turn scenarios where users may add, modify, or cancel proactive requests alongside interleaved reactive queries. To address this gap, we introduce IPIBench, the first benchmark for evaluating Interactive Proactive Intelligence of MLLMs under streaming video settings. IPIBench covers proactive monitoring, proactive task management, and interleaved reactive-proactive requests. Evaluations on representative MLLMs reveal two major limitations: unstable proactive triggering and weak coordination between reactive and proactive behaviors. We further propose IPI-Agent, a training-free agentic framework with an interaction-control policy and a temporal-gating mechanism for stabilizing proactive triggering and coordinating multi-turn interactions. Experiments show that IPI-Agent consistently improves existing MLLMs across all benchmark settings.