AlanaVLM: A Multimodal Embodied AI Foundation Model for Egocentric Video Understanding

📄 arXiv: 2406.13807v2 📥 PDF

作者: Alessandro Suglia, Claudio Greco, Katie Baker, Jose L. Part, Ioannis Papaioannou, Arash Eshghi, Ioannis Konstas, Oliver Lemon

分类: cs.CV, cs.AI, cs.CL

发布日期: 2024-06-19 (更新: 2024-06-21)

备注: Code available https://github.com/alanaai/EVUD


💡 一句话要点

AlanaVLM:用于第一视角视频理解的多模态具身AI基础模型

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 第一视角视频理解 具身AI 视觉-语言模型 多模态学习 参数高效训练

📋 核心要点

  1. 现有视觉-语言模型主要关注第三人称视角视频,缺乏对第一视角感知经验的有效理解,限制了其在具身AI中的应用。
  2. AlanaVLM通过构建第一视角视频理解数据集EVUD,并采用参数高效训练方法,提升了模型在第一视角视频理解任务上的性能。
  3. 实验结果表明,AlanaVLM在OpenEQA基准测试中取得了领先性能,超越了多个强大的开源和商业模型,尤其在空间推理方面。

📝 摘要(中文)

本文提出了一种针对第一视角视频理解的多模态具身AI基础模型AlanaVLM,旨在解决现有视觉-语言模型(VLM)主要关注第三人称视角视频,忽略第一视角感知经验的问题。为此,本文贡献了三个关键点:首先,构建了用于训练VLM的第一视角视频理解数据集(EVUD),用于视频字幕和问答任务。其次,提出了一个70亿参数的VLM模型AlanaVLM,并使用参数高效的方法在EVUD上进行训练。最后,在具身视频问答的具有挑战性的基准测试OpenEQA上评估了AlanaVLM的性能。实验结果表明,AlanaVLM取得了最先进的性能,超越了包括使用GPT-4作为规划器的强大苏格拉底模型在内的开源模型3.6%。此外,AlanaVLM的性能优于Claude 3和Gemini Pro Vision 1.0,并与Gemini Pro 1.5和GPT-4V相比具有竞争力的结果,甚至在空间推理方面超越了后者。这项研究为构建可部署在机器人或可穿戴设备中的高效VLM铺平了道路,利用具身视频理解与人类无缝协作完成日常任务,为下一代具身AI做出贡献。

🔬 方法详解

问题定义:论文旨在解决现有视觉-语言模型(VLMs)在理解第一视角(egocentric)视频方面的不足。现有VLMs主要针对第三人称视角视频进行训练,忽略了第一视角视频中丰富的感知信息和交互模式,这限制了它们在机器人和可穿戴设备等具身AI应用中的潜力。现有方法难以有效处理第一视角视频中的空间关系、动作意图和上下文信息。

核心思路:论文的核心思路是构建一个专门针对第一视角视频理解的VLM,并通过大规模的第一视角视频数据进行训练,使模型能够更好地理解和推理第一视角视频中的内容。通过参数高效的训练方法,降低模型训练的计算成本,使其更易于部署在资源受限的设备上。

技术框架:AlanaVLM的整体框架包括以下几个主要模块:1) 视频编码器:用于提取视频帧的视觉特征。2) 文本编码器:用于编码文本输入,例如问题或字幕。3) 多模态融合模块:将视觉特征和文本特征进行融合,以进行联合表示。4) 预测模块:根据融合后的特征进行预测,例如生成字幕或回答问题。该模型使用参数高效的训练方法,例如LoRA(Low-Rank Adaptation),以减少训练所需的计算资源。

关键创新:论文的关键创新在于:1) 构建了大规模的第一视角视频理解数据集EVUD,为训练VLM提供了高质量的数据。2) 提出了AlanaVLM,一个专门针对第一视角视频理解的VLM,并在OpenEQA上取得了领先的性能。3) 采用了参数高效的训练方法,使得模型更易于部署在资源受限的设备上。

关键设计:AlanaVLM使用了7B参数的模型规模。视频编码器和文本编码器使用了预训练的视觉和语言模型,例如CLIP或BERT。多模态融合模块使用了Transformer架构。训练过程中,使用了交叉熵损失函数来优化模型的预测性能。LoRA被用于参数高效的训练,通过只训练少量参数来适应新的任务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AlanaVLM在OpenEQA基准测试中取得了显著的成果,超越了包括使用GPT-4作为规划器的强大苏格拉底模型在内的开源模型3.6%。此外,AlanaVLM的性能优于Claude 3和Gemini Pro Vision 1.0,并与Gemini Pro 1.5和GPT-4V相比具有竞争力的结果,甚至在空间推理方面超越了GPT-4V。这些结果表明AlanaVLM在第一视角视频理解方面具有强大的能力。

🎯 应用场景

AlanaVLM在机器人、可穿戴设备和智能助手等领域具有广泛的应用前景。它可以帮助机器人更好地理解人类的指令和行为,从而实现更自然的人机交互。在可穿戴设备中,AlanaVLM可以用于分析用户的活动和环境,提供个性化的建议和服务。此外,AlanaVLM还可以用于视频监控、安全巡逻等领域,提高视频分析的效率和准确性。

📄 摘要(原文)

AI personal assistants deployed via robots or wearables require embodied understanding to collaborate with humans effectively. However, current Vision-Language Models (VLMs) primarily focus on third-person view videos, neglecting the richness of egocentric perceptual experience. To address this gap, we propose three key contributions. First, we introduce the Egocentric Video Understanding Dataset (EVUD) for training VLMs on video captioning and question answering tasks specific to egocentric videos. Second, we present AlanaVLM, a 7B parameter VLM trained using parameter-efficient methods on EVUD. Finally, we evaluate AlanaVLM's capabilities on OpenEQA, a challenging benchmark for embodied video question answering. Our model achieves state-of-the-art performance, outperforming open-source models including strong Socratic models using GPT-4 as a planner by 3.6%. Additionally, we outperform Claude 3 and Gemini Pro Vision 1.0 and showcase competitive results compared to Gemini Pro 1.5 and GPT-4V, even surpassing the latter in spatial reasoning. This research paves the way for building efficient VLMs that can be deployed in robots or wearables, leveraging embodied video understanding to collaborate seamlessly with humans in everyday tasks, contributing to the next generation of Embodied AI.