MARS: Technical Report for the CASTLE Challenge at EgoVis 2026

📄 arXiv: 2605.18176v1 📥 PDF

作者: Haoyu Zhang, Qiaohui Chu, Yisen Feng, Meng Liu, Weili Guan, Yaowei Wang, Liqiang Nie

分类: cs.CV, cs.AI

发布日期: 2026-05-18

备注: The Runner-up Solution for CASTLE Challenge @ EgoVis 2026

🔗 代码/项目: GITHUB


💡 一句话要点

MARS:基于多模态Agent推理与源选择的EgoVis 2026 CASTLE挑战赛方案

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态推理 Agentic推理 源选择 自中心视觉 视频理解

📋 核心要点

  1. CASTLE挑战赛需要对多日、多视角、多模态数据进行推理,现有方法难以有效整合所有信息。
  2. MARS采用Agent框架,通过源选择机制,自主决定推理步骤和所需模态,实现更高效的证据收集。
  3. MARS在CASTLE挑战赛中获得第二名,验证了Agent框架在复杂多模态推理任务中的有效性。

📝 摘要(中文)

本报告介绍了MARS,即基于源选择的多模态Agent推理系统,该系统用于参加EgoVis 2026的CASTLE挑战赛。参赛者需要回答基于CASTLE 2024数据集的185个封闭式问题。与之前的单视频自中心基准测试不同,CASTLE需要对四天的活动、15个同步视角、官方文本记录以及包括个人照片、辅助视频、眼动追踪、热成像和心率测量在内的多种辅助模态进行推理。因此,MARS将该任务视为一个基于多模态源的Agent证据选择问题,而不是纯粹的文本管道。MARS首先遵循官方CASTLE目录组织,从视频和文本记录这两个主要来源以及眼动追踪、心率、照片和热成像这四个辅助来源构建证据记忆。由于CASTLE视频太长,无法将所有视频直接放入模型的上下文中以回答每个问题,因此长视频被转换为字幕和基于DeepSeek的摘要;此步骤压缩了时间证据,同时保持照片和其他辅助媒体可用作特定来源的证据。在推理时,GPT-5.4决策Agent会重复选择是继续推理、请求特定的缺失模态、生成答案,还是在证据仍然不足时回退到随机选项。最终系统在CASTLE挑战赛排行榜上获得第二名。我们的代码可在https://github.com/Hyu-Zhang/MARS上找到。

🔬 方法详解

问题定义:CASTLE挑战赛要求系统能够理解和推理来自多个模态(视频、文本、眼动追踪、心率等)的复杂自中心数据,并回答关于参与者活动的问题。现有方法的痛点在于难以有效地融合和利用这些异构数据源,特别是长视频带来的上下文长度限制,以及如何根据问题动态选择相关证据。

核心思路:MARS的核心思路是将问题回答过程建模为一个Agent的决策过程。Agent根据当前证据和问题,决定下一步是继续推理、请求特定模态的信息、生成答案还是回退。这种Agentic的方法允许系统动态地选择和利用最相关的证据,从而提高推理效率和准确性。

技术框架:MARS的整体框架包括以下几个主要模块:1) 证据记忆构建:从视频、文本记录、眼动追踪、心率、照片和热成像等模态构建证据记忆。长视频通过字幕和DeepSeek摘要进行压缩。2) 决策Agent:使用GPT-5.4作为决策Agent,负责选择下一步行动,包括继续推理、请求特定模态的信息、生成答案或回退。3) 多模态融合:在推理过程中,Agent可以根据需要请求特定模态的信息,并将这些信息融合到推理过程中。

关键创新:MARS的关键创新在于将问题回答过程建模为一个Agent的决策过程,并引入了源选择机制。这种Agentic的方法允许系统动态地选择和利用最相关的证据,而不是简单地将所有信息都输入到模型中。此外,系统还采用了视频摘要技术来处理长视频,从而缓解了上下文长度限制。

关键设计:在证据记忆构建阶段,长视频被转换为字幕和DeepSeek摘要,以压缩时间信息。决策Agent使用GPT-5.4,并根据当前证据和问题,通过一个策略网络来选择下一步行动。策略网络的设计需要平衡探索和利用,以避免陷入局部最优解。具体参数设置和损失函数细节在论文中未详细说明。

🖼️ 关键图片

fig_0

📊 实验亮点

MARS在CASTLE挑战赛中取得了第二名的成绩,证明了其在多模态推理任务中的有效性。该系统通过Agentic的证据选择机制,能够更有效地利用多模态信息,并缓解了长视频带来的上下文长度限制。具体的性能数据和对比基线在论文中未详细说明,但第二名的成绩足以证明其优越性。

🎯 应用场景

该研究成果可应用于智能助手、人机交互、视频监控等领域。例如,在智能助手中,可以利用多模态信息更好地理解用户的意图,并提供更准确的回答。在视频监控中,可以利用多模态信息进行异常行为检测和事件分析。该研究为多模态信息融合和Agentic推理提供了一种新的思路,具有重要的实际应用价值和未来发展潜力。

📄 摘要(原文)

This report presents MARS, short for Multimodal Agentic Reasoning with Source selection, our system for the CASTLE Challenge at EgoVis 2026. Participants must answer 185 closed-form questions over the CASTLE 2024 dataset. In contrast to prior single-video egocentric benchmarks, CASTLE requires reasoning over four days of activity, 15 synchronized perspectives, official transcripts, and multiple auxiliary modalities, including personal photos, auxiliary videos, gaze, thermal imagery, and heartrate measurements. MARS therefore treats the task as an agentic evidence-selection problem over multimodal sources rather than a purely text-only pipeline. MARS first follows the official CASTLE directory organization to build evidence memories from two primary sources, videos and transcripts, and four auxiliary sources, gaze, heartrate, photos, and thermal imagery. Long videos are converted into captions and DeepSeek-based summaries only because CASTLE videos are too long to fit directly into the model context for every question; this step compresses temporal evidence while keeping photos and other auxiliary media available as source-specific evidence. At inference time, a GPT-5.4 decision agent repeatedly chooses whether to continue reasoning, request a specific missing modality, produce an answer, or fall back to a random option when the evidence remains insufficient. The resulting system achieved second place on the final CASTLE Challenge leaderboard. Our codes are available at https://github.com/Hyu-Zhang/MARS.