EgoIntent: An Egocentric Step-level Benchmark for Understanding What, Why, and Next
作者: Ye Pan, Chi Kit Wong, Yuanhuiyi Lyu, Hanqian Li, Jiahao Huo, Jiacheng Chen, Lutao Jiang, Xu Zheng, Xuming Hu
分类: cs.CV
发布日期: 2026-03-12
💡 一句话要点
EgoIntent:用于理解自我中心视频中意图的步骤级基准测试
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自我中心视频 意图理解 步骤级分析 多模态学习 基准测试 人工智能 视频推理 行为预测
📋 核心要点
- 现有自我中心视频意图理解benchmark主要关注episode级别,忽略了步骤级别的细粒度意图理解,无法满足智能助手的需求。
- EgoIntent基准测试通过提供步骤级别的意图标注,并截断关键结果帧,避免未来信息泄露,从而实现对模型意图理解能力的更准确评估。
- 实验结果表明,即使是最先进的MLLM模型在EgoIntent基准测试上的表现仍然有限,平均得分仅为33.31,表明该领域仍有很大的提升空间。
📝 摘要(中文)
多模态大型语言模型(MLLMs)在各种任务中展示了卓越的视频推理能力。然而,它们在细粒度层面上理解自我中心视频中人类意图的能力在很大程度上仍未被探索。现有的基准测试主要关注episode级别的意图推理,忽略了步骤级别意图理解的更精细粒度。然而,智能助手、机器人模仿学习和增强现实指导等应用不仅需要理解一个人在每个步骤中做什么,还需要理解为什么以及接下来会发生什么,以便提供及时和上下文感知的支持。为此,我们引入了EgoIntent,这是一个用于自我中心视频的步骤级意图理解基准。它包含3,014个步骤,跨越15个不同的室内和室外日常生活场景,并从三个互补维度评估模型:局部意图(What)、全局意图(Why)和下一步计划(Next)。至关重要的是,每个片段在查询步骤的关键结果(例如,接触或抓取)发生之前立即被截断,并且不包含来自后续步骤的帧,从而防止未来帧泄漏,并能够对预期步骤理解和下一步计划进行干净的评估。我们评估了15个MLLM,包括最先进的闭源和开源模型。即使是性能最佳的模型,在三个意图维度上的平均得分也仅为33.31,这表明自我中心视频中的步骤级意图理解仍然是一个极具挑战性的问题,需要进一步研究。
🔬 方法详解
问题定义:论文旨在解决自我中心视频中步骤级意图理解的问题。现有的方法和数据集主要关注episode级别的意图推理,缺乏对每个步骤的“What”、“Why”和“Next”的细粒度理解。这限制了模型在智能助手、机器人模仿学习等实际应用中的能力,因为这些应用需要对人类行为的即时意图进行准确预测和理解。
核心思路:论文的核心思路是构建一个高质量的步骤级意图理解基准测试数据集EgoIntent,并设计合理的评估指标,以促进对自我中心视频中细粒度意图理解的研究。通过提供包含“What”、“Why”和“Next”三个维度的标注,并避免未来信息泄露,该数据集能够更准确地评估模型对人类意图的理解和预测能力。
技术框架:EgoIntent数据集包含3,014个步骤,涵盖15个不同的室内和室外日常生活场景。每个步骤都标注了三个维度的意图信息:局部意图(What,当前步骤在做什么)、全局意图(Why,为什么要执行当前步骤)和下一步计划(Next,下一步要做什么)。为了防止未来信息泄露,每个视频片段在关键结果发生前被截断,确保模型只能基于当前步骤的信息进行推理。
关键创新:EgoIntent的关键创新在于其步骤级别的标注粒度和对未来信息泄露的严格控制。与现有的episode级别数据集相比,EgoIntent能够更精细地评估模型对人类意图的理解能力。通过截断视频片段,避免了模型利用未来信息进行预测,从而更准确地反映了模型的真实推理能力。
关键设计:数据集的构建过程中,作者精心挑选了15个不同的日常生活场景,以保证数据集的多样性。每个步骤的标注都由人工完成,以保证标注的准确性。为了评估模型的性能,作者使用了标准的分类指标,如准确率和F1-score。此外,作者还评估了15个现有的MLLM模型在EgoIntent数据集上的表现,并分析了模型的优缺点。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是最先进的MLLM模型在EgoIntent基准测试上的表现仍然有限,平均得分仅为33.31。这表明自我中心视频中的步骤级意图理解仍然是一个极具挑战性的问题,需要进一步的研究和探索。作者评估了15个MLLM模型,为后续研究提供了重要的参考。
🎯 应用场景
该研究成果可应用于智能助手、机器人模仿学习和增强现实指导等领域。例如,智能助手可以利用步骤级意图理解来预测用户的下一步行动,并提供及时的帮助和建议。机器人可以模仿人类的行为,并根据环境和任务目标进行自主决策。增强现实系统可以根据用户的意图提供个性化的指导和信息。
📄 摘要(原文)
Multimodal Large Language Models (MLLMs) have demonstrated remarkable video reasoning capabilities across diverse tasks. However, their ability to understand human intent at a fine-grained level in egocentric videos remains largely unexplored. Existing benchmarks focus primarily on episode-level intent reasoning, overlooking the finer granularity of step-level intent understanding. Yet applications such as intelligent assistants, robotic imitation learning, and augmented reality guidance require understanding not only what a person is doing at each step, but also why and what comes next, in order to provide timely and context-aware support. To this end, we introduce EgoIntent, a step-level intent understanding benchmark for egocentric videos. It comprises 3,014 steps spanning 15 diverse indoor and outdoor daily-life scenarios, and evaluates models on three complementary dimensions: local intent (What), global intent (Why), and next-step plan (Next). Crucially, each clip is truncated immediately before the key outcome of the queried step (e.g., contact or grasp) occurs and contains no frames from subsequent steps, preventing future-frame leakage and enabling a clean evaluation of anticipatory step understanding and next-step planning. We evaluate 15 MLLMs, including both state-of-the-art closed-source and open-source models. Even the best-performing model achieves an average score of only 33.31 across the three intent dimensions, underscoring that step-level intent understanding in egocentric videos remains a highly challenging problem that calls for further investigation.