EgoPro-Bench: Benchmarking Personalized Proactive Interaction in Egocentric Video Streams
作者: Dongchuan Ran, Linyu Ou, Xueheng Li, Wenwen Tong, Chenxu Guo, Hewei Guo, Kaibing Wang, Lewei Lu
分类: cs.CV, cs.AI
发布日期: 2026-05-08
备注: 8 pages
💡 一句话要点
提出EgoPro-Bench基准测试,旨在提升多模态大模型在第一人称视角下的个性化主动交互能力
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 第一人称视角 多模态大模型 主动交互 流式视频理解 人机交互 个性化建模
📋 核心要点
- 现有MLLMs多为被动响应,缺乏对第一人称视角下环境的持续感知,且现有基准测试忽视了个性化上下文及交互时机的精准把控。
- 提出EgoPro-Bench基准,通过模拟用户画像构建多样化意图,并引入“短思考,优交互”原则,优化流式视频下的交互推理效率。
- 实验证明该方法显著提升了模型对用户意图的理解深度,并能精准识别交互时机,有效推动了主动式人机交互技术的发展。
📝 摘要(中文)
现有的多模态大模型(MLLMs)主要处于被动响应模式,缺乏对环境的持续感知及主动辅助用户的能力。尽管近期出现了一些针对主动性的基准测试,但它们多局限于警报场景,忽视了个性化上下文,且未能有效评估人机交互(HMI)的精确时机。本文提出了EgoPro-Bench,这是一个用于训练和评估流式第一人称视频主动交互能力的基准,包含2,400个评估视频和超过12,000个训练视频。与以往工作不同,EgoPro-Bench利用模拟用户画像生成多样化的用户意图,并构建了涵盖12个不同领域的高保真HMI数据。此外,本文提出了专门的评估协议与指标,训练了针对流式视频数据进行高效推理和低延迟交互的模型,并引入了“短思考,优交互”原则,通过在意图识别前分配有限的Token预算来提升交互性能。实验表明,EgoPro-Bench显著增强了MLLMs的意图理解能力,并能准确识别交互时机,为下一代以用户为中心的主动交互智能体奠定了基础。
🔬 方法详解
问题定义:论文旨在解决多模态大模型在第一人称视角(Egocentric View)下“被动响应”的局限性。现有方法无法在复杂的流式视频中持续感知环境,且缺乏对个性化用户需求和交互时机(Timing)的精准判断。
核心思路:引入基于模拟用户画像的生成策略,构建大规模、多领域的高保真交互数据集。核心理念是“短思考,优交互”,即在有限的计算资源(Token预算)下,通过优化推理路径,实现低延迟的主动交互。
技术框架:该框架包含数据构建模块(基于模拟画像生成意图)、流式视频处理模块(支持实时感知)、以及交互决策模块。模型通过在流式视频流上进行持续推理,实时评估是否需要介入以及介入的最佳时机。
关键创新:最大的创新在于将“个性化”与“时机感知”引入主动交互评估。不同于传统的静态问答,该方法强调在动态视频流中,模型需根据用户画像主动预测意图并选择合适的交互窗口。
关键设计:采用了“短思考”策略,即在进行复杂的意图识别前,预先分配有限的Token预算以进行快速预判,从而在保证交互实时性的同时,提升了模型对复杂场景的响应质量。
🖼️ 关键图片
📊 实验亮点
EgoPro-Bench通过12,000个训练视频和2,400个评估视频的规模,显著提升了模型在复杂场景下的意图理解准确率。实验结果显示,引入“短思考”原则后,模型在保持低延迟的同时,对交互时机的判断精度优于现有主流基线模型,有效解决了主动交互中“何时介入”的难题。
🎯 应用场景
该研究在智能眼镜、增强现实(AR)辅助系统及服务机器人领域具有广阔应用前景。通过实现更具主动性和个性化的交互,系统能实时感知用户需求并提供精准辅助,显著提升人机协作的自然度与效率,是构建下一代以用户为中心的主动式智能体的关键技术。
📄 摘要(原文)
Existing Multimodal Large Language Models (MLLMs) remain primarily reactive, failing to continuously perceive environments or proactively assist users. While emerging benchmarks address proactivity, they are largely confined to alert scenarios, neglect personalized context, and fail to evaluate the precise timing of human-machine interactions (HMI).In this paper, we introduce EgoPro-Bench, a novel benchmark for training and evaluating proactive interaction capabilities based on streaming egocentric videos; it comprises 2,400 videos in the evaluation set and over 12,000 videos in the training set.Unlike previous works, EgoPro-Bench leverages simulated user profiles to generate diverse user intentions and to construct high-fidelity HMI data across 12 distinct domains.Subsequently, we propose a specialized evaluation protocol and metrics, train proactive interaction models designed for efficient reasoning and low-latency interaction on streaming video data, and conduct comprehensive evaluations.Furthermore, we introduce an interaction principle termed "short thinking, better interaction", which allocates a limited token budget prior to intent recognition, thereby enhancing interaction performance.The experiments demonstrate that EgoPro-Bench substantially enhances the intention understanding capabilities of MLLMs and enables accurate identification of appropriate timings for HMI, thereby laying a solid foundation for next-generation user-centric proactive interactive agents.