Inaugural MOASEI Competition at AAMAS'2025: A Technical Report

📄 arXiv: 2507.05469v1 📥 PDF

作者: Ceferino Patino, Tyler J. Billings, Alireza Saleh Abadi, Daniel Redder, Adam Eck, Prashant Doshi, Leen-Kiat Soh

分类: cs.MA, cs.AI

发布日期: 2025-07-07

备注: Report from the MOASEI'2025 Competition held at AAMAS'2025


💡 一句话要点

MOASEI竞赛提出开放Agent系统评估基准,聚焦动态环境下的决策。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多Agent系统 开放世界 基准测试 动态环境 决策评估

📋 核心要点

  1. 现有Agent系统在开放、动态环境下的决策能力不足,缺乏统一的评估基准。
  2. MOASEI竞赛通过构建动态、部分可观察的开放世界环境,评估Agent的决策能力。
  3. 竞赛结果展示了图神经网络、大型语言模型等方法在开放环境中的泛化和适应潜力。

📝 摘要(中文)

本文介绍了开放Agent系统评估倡议(MOASEI)竞赛,这是一个多Agent人工智能基准测试活动,旨在评估开放世界条件下的决策能力。MOASEI建立在free-range-zoo环境套件之上,引入了具有Agent和任务开放性的动态、部分可观察领域——在这种环境中,实体可能会随着时间的推移而出现、消失或改变行为。2025年的竞赛包括三个赛道——野火、共享出行和网络安全——每个赛道都突出了开放性和协调复杂性的不同维度。来自国际机构的11支队伍参加了比赛,其中4支队伍提交了多样化的解决方案,包括图神经网络、卷积架构、预测建模和大型语言模型驱动的元优化。评估指标侧重于预期效用、对扰动的鲁棒性和对环境变化的响应能力。结果揭示了在开放环境中进行泛化和适应的有希望的策略,为未来的研究提供了经验洞察和基础设施。本报告详细介绍了竞赛的设计、发现以及对开放Agent系统研究社区的贡献。

🔬 方法详解

问题定义:现有多Agent系统评估方法难以应对开放世界环境,缺乏对Agent和任务动态变化的有效建模和评估。具体痛点包括:环境动态性高、Agent行为多样、任务目标不确定等,导致传统方法难以泛化和适应。

核心思路:MOASEI竞赛的核心思路是构建一个包含Agent和任务开放性的动态、部分可观察环境,通过设计不同的赛道(野火、共享出行、网络安全)来模拟真实世界中开放Agent系统面临的挑战。通过竞赛的方式,鼓励研究者探索在开放环境中进行泛化和适应的有效策略。

技术框架:MOASEI竞赛基于free-range-zoo环境套件,该套件提供了一个灵活的平台,可以方便地构建各种多Agent环境。竞赛包含三个赛道,每个赛道都有不同的环境设置和评估指标。参赛队伍需要设计Agent来解决特定赛道中的任务,并根据评估指标进行排名。评估指标包括预期效用、对扰动的鲁棒性和对环境变化的响应能力。

关键创新:MOASEI竞赛的关键创新在于引入了Agent和任务开放性的概念,并将其作为评估多Agent系统的重要指标。这种开放性体现在Agent和任务的动态变化上,例如Agent的出现和消失、任务目标的改变等。这种开放性使得竞赛更贴近真实世界,也更具挑战性。

关键设计:MOASEI竞赛的关键设计包括:1) 基于free-range-zoo环境套件构建灵活的平台;2) 设计具有不同开放性和复杂度的赛道;3) 采用综合性的评估指标,包括预期效用、鲁棒性和响应能力;4) 鼓励参赛队伍采用多样化的解决方案,例如图神经网络、卷积架构、预测建模和大型语言模型驱动的元优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MOASEI竞赛吸引了来自国际机构的11支队伍参加,提交了包括图神经网络、卷积架构、预测建模和大型语言模型驱动的元优化等多种解决方案。实验结果表明,这些方法在开放环境中具有一定的泛化和适应能力,为未来的研究提供了有价值的经验和启示。具体性能数据和对比基线未在摘要中详细说明,属于未知信息。

🎯 应用场景

该研究成果可应用于开发更智能、更鲁棒的多Agent系统,例如智能交通系统、应急响应系统和网络安全防御系统。通过在开放、动态环境中进行训练和评估,可以提高Agent的泛化能力和适应能力,使其能够更好地应对真实世界的挑战。未来,该研究还可以促进开放Agent系统理论和方法的发展。

📄 摘要(原文)

We present the Methods for Open Agent Systems Evaluation Initiative (MOASEI) Competition, a multi-agent AI benchmarking event designed to evaluate decision-making under open-world conditions. Built on the free-range-zoo environment suite, MOASEI introduced dynamic, partially observable domains with agent and task openness--settings where entities may appear, disappear, or change behavior over time. The 2025 competition featured three tracks--Wildfire, Rideshare, and Cybersecurity--each highlighting distinct dimensions of openness and coordination complexity. Eleven teams from international institutions participated, with four of those teams submitting diverse solutions including graph neural networks, convolutional architectures, predictive modeling, and large language model--driven meta--optimization. Evaluation metrics centered on expected utility, robustness to perturbations, and responsiveness to environmental change. The results reveal promising strategies for generalization and adaptation in open environments, offering both empirical insight and infrastructure for future research. This report details the competition's design, findings, and contributions to the open-agent systems research community.