MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents

作者: Kangsan Kim, Yanlai Yang, Suji Kim, Woongyeong Yeo, Youngwan Lee, Mengye Ren, Sung Ju Hwang

分类: cs.CV, cs.AI

发布日期: 2026-03-10

备注: Under review

💡 一句话要点

提出MA-EgoQA基准，用于评估多智能体具身环境中基于第一视角视频的问答能力。

🎯 匹配领域: 支柱六：视频提取与匹配 (Video Extraction) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 第一视角视频 问答系统 具身智能 共享记忆

📋 核心要点

现有方法难以有效处理多智能体具身环境中，多个第一视角视频流的理解和推理。
提出EgoMAS模型，利用智能体间的共享记忆和动态检索机制，提升多视角信息融合能力。
MA-EgoQA基准测试表明，现有方法在处理复杂的多智能体交互场景时仍有较大提升空间。

📝 摘要（中文）

随着具身模型能力的增强，未来人类将在工作场所或家庭中与多个具身AI智能体协作。为了确保人与多智能体系统之间更好的沟通，至关重要的是并行地解释来自智能体的信息，并为每个查询引用适当的上下文。现有的挑战包括有效地压缩和传递视频形式的大量个体感官输入，以及正确地聚合多个第一视角视频以构建系统级记忆。本文正式定义了一个新的问题，即同时理解从具身智能体收集的多个长时程第一视角视频。为了促进这方面的研究，我们引入了MultiAgent-EgoQA (MA-EgoQA)，这是一个旨在系统地评估现有模型在我们场景中的基准。MA-EgoQA提供了1.7k个针对多个第一视角流的独特问题，涵盖五个类别：社交互动、任务协调、心智理论、时间推理和环境互动。我们进一步提出了一个名为EgoMAS的简单基线模型，用于MA-EgoQA，该模型利用具身智能体之间的共享记忆和智能体动态检索。通过对MA-EgoQA上各种基线和EgoMAS的全面评估，我们发现当前的方法无法有效地处理多个第一视角流，突出了未来在智能体之间的系统级理解方面取得进展的必要性。

🔬 方法详解

问题定义：论文旨在解决多智能体具身环境中，如何理解和推理多个智能体同时采集的第一视角视频流的问题。现有方法难以有效地压缩和传递视频信息，并正确地聚合多个视角的信息以构建系统级的记忆。这导致模型难以理解智能体间的交互、任务协调、心智理论、时间推理和环境互动等复杂场景。

核心思路：论文的核心思路是利用共享记忆和动态检索机制，使模型能够有效地融合来自不同智能体的第一视角视频信息。通过共享记忆，模型可以学习到通用的环境和任务知识。动态检索机制则允许模型根据当前的问题，从共享记忆中检索相关的上下文信息，从而提高推理的准确性。

技术框架：论文提出的EgoMAS模型主要包含以下几个模块：1) 视频编码器：用于将每个智能体的第一视角视频编码成特征向量。2) 共享记忆模块：用于存储和更新所有智能体的通用知识。3) 动态检索模块：根据当前问题，从共享记忆中检索相关的上下文信息。4) 问答模块：根据编码后的视频特征和检索到的上下文信息，回答问题。

关键创新：论文的关键创新在于提出了一个针对多智能体第一视角视频问答的基准数据集MA-EgoQA，并设计了一个基于共享记忆和动态检索的EgoMAS模型。该模型能够有效地融合来自不同智能体的视频信息，并进行准确的推理。与现有方法相比，EgoMAS模型能够更好地处理多智能体交互场景，并提高问答的准确性。

关键设计：EgoMAS模型的关键设计包括：1) 使用Transformer网络作为视频编码器，以捕捉视频中的时序信息。2) 使用记忆网络作为共享记忆模块，以存储和更新通用知识。3) 使用注意力机制作为动态检索模块，以根据问题检索相关的上下文信息。4) 使用多层感知机作为问答模块，以根据视频特征和上下文信息回答问题。

🖼️ 关键图片

📊 实验亮点

论文提出的EgoMAS模型在MA-EgoQA基准测试中取得了显著的性能提升，证明了共享记忆和动态检索机制在多智能体第一视角视频问答中的有效性。实验结果表明，EgoMAS模型在多个问题类别上均优于现有的基线模型，尤其是在社交互动和任务协调等需要多智能体协作的场景中。

🎯 应用场景

该研究成果可应用于多智能体协作机器人、智能家居、自动驾驶等领域。例如，在智能家居中，多个机器人可以协同完成任务，通过理解彼此的视角和行为，更好地服务于人类。在自动驾驶中，多个车辆可以共享感知信息，提高环境感知的准确性和安全性。

📄 摘要（原文）

As embodied models become powerful, humans will collaborate with multiple embodied AI agents at their workplace or home in the future. To ensure better communication between human users and the multi-agent system, it is crucial to interpret incoming information from agents in parallel and refer to the appropriate context for each query. Existing challenges include effectively compressing and communicating high volumes of individual sensory inputs in the form of video and correctly aggregating multiple egocentric videos to construct system-level memory. In this work, we first formally define a novel problem of understanding multiple long-horizon egocentric videos simultaneously collected from embodied agents. To facilitate research in this direction, we introduce MultiAgent-EgoQA (MA-EgoQA), a benchmark designed to systemically evaluate existing models in our scenario. MA-EgoQA provides 1.7k questions unique to multiple egocentric streams, spanning five categories: social interaction, task coordination, theory-of-mind, temporal reasoning, and environmental interaction. We further propose a simple baseline model for MA-EgoQA named EgoMAS, which leverages shared memory across embodied agents and agent-wise dynamic retrieval. Through comprehensive evaluation across diverse baselines and EgoMAS on MA-EgoQA, we find that current approaches are unable to effectively handle multiple egocentric streams, highlighting the need for future advances in system-level understanding across the agents. The code and benchmark are available at https://ma-egoqa.github.io.

MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理