Benchmarking Egocentric Multimodal Goal Inference for Assistive Wearable Agents

📄 arXiv: 2510.22443v1 📥 PDF

作者: Vijay Veerabadran, Fanyi Xiao, Nitin Kamra, Pedro Matias, Joy Chen, Caley Drooff, Brett D Roads, Riley Williams, Ethan Henderson, Xuanyi Zhao, Kevin Carlberg, Joseph Tighe, Karl Ridgeway

分类: cs.CV, cs.LG

发布日期: 2025-10-25

备注: Accepted as a spotlight paper at the 39th Conference on Neural Information Processing Systems (NeurIPS 2025)


💡 一句话要点

提出WAGIBench基准,用于评估可穿戴助手中基于多模态信息的意图推断能力

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 可穿戴设备 目标推断 多模态学习 视觉-语言模型 基准测试

📋 核心要点

  1. 现有可穿戴辅助代理需要用户主动交互,而自动推断用户意图可以减少交互负担,但缺乏有效的评估基准。
  2. 论文提出WAGIBench基准,包含多模态数据和ground-truth目标,用于评估视觉-语言模型在目标推断任务上的性能。
  3. 实验表明,现有VLM模型在WAGIBench上的性能与人类相比仍有差距,且模型对相关模态信息敏感。

📝 摘要(中文)

本文关注可穿戴辅助代理中的目标推断问题,旨在通过多模态上下文观察推断用户的目标。为此,作者构建了一个名为WAGIBench的基准,用于评估视觉-语言模型(VLM)在此任务上的性能。该基准包含一个新颖的数据集,涵盖348名参与者的3477个记录,共计29小时的多模态数据,包括视觉、音频、数字和纵向上下文观察以及对应的ground-truth目标。实验结果表明,人类在此任务上的表现优于模型,多项选择准确率达到93%,而最佳VLM的准确率为84%。生成式基准测试结果显示,更大的模型表现更好,但实用性仍然有限,仅在55%的情况下产生相关的目标。模态消融实验表明,模型可以从相关模态的额外信息中获益,而来自不相关模态的信息对性能的影响很小。

🔬 方法详解

问题定义:论文旨在解决可穿戴设备辅助代理中的目标推断问题。现有方法需要用户主动与代理交互来明确目标,这增加了用户负担。该研究希望通过分析多模态上下文信息(视觉、音频、数字交互等)自动推断用户的目标,从而实现更自然、便捷的人机交互。现有方法的痛点在于缺乏用于评估多模态目标推断的有效基准。

核心思路:论文的核心思路是构建一个高质量的多模态数据集,并基于此数据集建立一个基准测试,用于评估现有视觉-语言模型在目标推断任务上的性能。通过该基准,可以系统地分析不同模型的优缺点,并为未来的研究提供指导。

技术框架:WAGIBench基准主要包含以下几个部分:1)多模态数据集:包含从348名参与者收集的29小时的多模态数据,包括视觉、音频、数字交互和纵向上下文信息。2)ground-truth目标:每个数据样本都标注了用户的真实目标。3)评估指标:使用多项选择准确率和生成目标的相关性作为评估指标。4)基线模型:使用多种视觉-语言模型作为基线模型进行评估。

关键创新:该论文的关键创新在于构建了一个专门用于评估可穿戴设备辅助代理中多模态目标推断的基准测试。该基准包含一个大规模、高质量的多模态数据集,并提供了标准化的评估指标和基线模型,为该领域的研究提供了重要的资源。与现有方法相比,WAGIBench更关注可穿戴设备的特定场景,并考虑了多种模态的信息。

关键设计:数据集包含视觉(第一人称视角视频)、音频(语音)、数字交互(例如,在手机上的操作)和纵向上下文信息(例如,用户历史行为)。论文使用了多种视觉-语言模型作为基线模型,包括CLIP、BLIP、Flamingo等。评估指标包括多项选择准确率(用于评估模型选择正确目标的能力)和生成目标的相关性(用于评估模型生成目标的能力)。模态消融实验用于分析不同模态信息对模型性能的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,人类在WAGIBench上的多项选择准确率达到93%,而最佳VLM的准确率为84%,表明现有模型与人类水平仍有差距。生成式基准测试结果显示,更大的模型表现更好,但实用性仍然有限,仅在55%的情况下产生相关的目标。模态消融实验表明,模型可以从相关模态的额外信息中获益。

🎯 应用场景

该研究成果可应用于智能眼镜等可穿戴设备,实现更智能、便捷的人机交互。例如,智能眼镜可以根据用户的视觉、听觉信息自动判断用户想要做什么,并提供相应的帮助,如导航、信息查询等。这有助于提高用户的工作效率和生活质量,尤其对老年人和残疾人等弱势群体具有重要意义。

📄 摘要(原文)

There has been a surge of interest in assistive wearable agents: agents embodied in wearable form factors (e.g., smart glasses) who take assistive actions toward a user's goal/query (e.g. "Where did I leave my keys?"). In this work, we consider the important complementary problem of inferring that goal from multi-modal contextual observations. Solving this "goal inference" problem holds the promise of eliminating the effort needed to interact with such an agent. This work focuses on creating WAGIBench, a strong benchmark to measure progress in solving this problem using vision-language models (VLMs). Given the limited prior work in this area, we collected a novel dataset comprising 29 hours of multimodal data from 348 participants across 3,477 recordings, featuring ground-truth goals alongside accompanying visual, audio, digital, and longitudinal contextual observations. We validate that human performance exceeds model performance, achieving 93% multiple-choice accuracy compared with 84% for the best-performing VLM. Generative benchmark results that evaluate several families of modern vision-language models show that larger models perform significantly better on the task, yet remain far from practical usefulness, as they produce relevant goals only 55% of the time. Through a modality ablation, we show that models benefit from extra information in relevant modalities with minimal performance degradation from irrelevant modalities.