Look and Tell: A Dataset for Multimodal Grounding Across Egocentric and Exocentric Views
作者: Anna Deichler, Jonas Beskow
分类: cs.CV, cs.CL, cs.RO
发布日期: 2025-10-26 (更新: 2025-10-28)
备注: 10 pages, 6 figures, 2 tables. Accepted to the NeurIPS 2025 Workshop on SPACE in Vision, Language, and Embodied AI (SpaVLE). Dataset: https://huggingface.co/datasets/annadeichler/KTH-ARIA-referential
💡 一句话要点
提出Look and Tell数据集,用于研究以自我为中心和以外部为中心视角下的多模态指示交流。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 具身智能 人机交互 指示性交流 数据集 自我中心视角 外部中心视角
📋 核心要点
- 现有方法在理解不同视角下的指示性交流方面存在不足,尤其是在自我中心和外部中心视角转换时。
- 论文核心在于构建一个多模态数据集,包含同步的注视、语音、视频以及3D场景重建,以促进相关研究。
- 该数据集包含大量带有丰富注释的指示性表达,为评估不同空间表示对多模态基础的影响提供基准。
📝 摘要(中文)
本文介绍Look and Tell,一个用于研究以自我为中心和以外部为中心视角下指示性交流的多模态数据集。我们使用Meta Project Aria智能眼镜和固定摄像头,记录了25名参与者在指导同伴识别厨房食材时的同步注视、语音和视频。结合3D场景重建,该设置提供了一个基准,用于评估不同的空间表示(2D vs. 3D;自我 vs. 外部)如何影响多模态基础。该数据集包含3.67小时的录音,包括2,707个带有丰富注释的指示性表达,旨在推进能够理解和参与情境对话的具身智能体的开发。
🔬 方法详解
问题定义:论文旨在解决具身智能体如何理解和参与情境对话的问题,特别是在涉及不同视角(自我中心和外部中心)的指示性交流场景中。现有方法难以有效处理不同视角下的空间信息差异,导致理解和交互的困难。
核心思路:论文的核心思路是构建一个包含多模态数据(注视、语音、视频)以及3D场景重建的数据集,从而为研究不同视角下的指示性交流提供一个统一的平台。通过分析这些数据,可以更好地理解不同空间表示如何影响多模态基础。
技术框架:该数据集的构建流程包括以下几个主要阶段:1) 数据采集:使用Meta Project Aria智能眼镜和固定摄像头同步记录参与者的注视、语音和视频;2) 场景重建:利用采集到的数据重建3D厨房场景;3) 数据标注:对录音中的指示性表达进行详细标注。
关键创新:该数据集的关键创新在于其多模态性和视角多样性。它不仅包含了同步的注视、语音和视频数据,还提供了3D场景重建,从而可以研究不同空间表示对多模态基础的影响。此外,该数据集还包含了自我中心和外部中心两种视角,从而可以研究不同视角下的指示性交流。
关键设计:数据集包含25名参与者,录制了3.67小时的录音,包括2,707个带有丰富注释的指示性表达。使用了Meta Project Aria智能眼镜进行第一人称视角的视频和注视追踪,并使用固定摄像头进行第三人称视角的视频录制。3D场景重建的具体算法和参数设置未知。
📊 实验亮点
该数据集包含3.67小时的录音,包括2,707个带有丰富注释的指示性表达,为研究多模态基础提供了一个丰富的资源。通过结合3D场景重建,该数据集可以用于评估不同的空间表示(2D vs. 3D;自我 vs. 外部)如何影响多模态基础,为相关研究提供了一个基准。
🎯 应用场景
该研究成果可应用于开发更智能的具身智能体,使其能够更好地理解和参与情境对话。例如,可以应用于机器人助手,使其能够根据用户的指示,在厨房或其他环境中找到特定的物品。此外,该数据集还可以用于研究人机交互、多模态学习等领域。
📄 摘要(原文)
We introduce Look and Tell, a multimodal dataset for studying referential communication across egocentric and exocentric perspectives. Using Meta Project Aria smart glasses and stationary cameras, we recorded synchronized gaze, speech, and video as 25 participants instructed a partner to identify ingredients in a kitchen. Combined with 3D scene reconstructions, this setup provides a benchmark for evaluating how different spatial representations (2D vs. 3D; ego vs. exo) affect multimodal grounding. The dataset contains 3.67 hours of recordings, including 2,707 richly annotated referential expressions, and is designed to advance the development of embodied agents that can understand and engage in situated dialogue.