Less is More: Robust Zero-Communication 3D Pursuit-Evasion via Representational Parsimony

📄 arXiv: 2603.08273v1 📥 PDF

作者: Jialin Ying, Zhihao Li, Zicheng Dong, Guohua Wu, Yihuan Liao

分类: cs.RO, cs.MA

发布日期: 2026-03-09

备注: 7 pages, 10 figures. This work has been submitted to the IEEE for possible publication


💡 一句话要点

通过表征简约性实现鲁棒的零通信3D追逐-逃逸

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多智能体强化学习 追逐-逃逸 无通信协同 表征学习 鲁棒性

📋 核心要点

  1. 现有MARL方法在通信受限的3D追逐-逃逸问题中,过度依赖智能体间通信,导致系统脆弱性。
  2. 论文提出表征简约性原则,通过减少actor观测维度和引入贡献门控信用分配来提升无通信协调的鲁棒性。
  3. 实验表明,该方法在复杂环境下优于全观测方法,并在各种压力测试和零样本迁移中表现出良好的性能。

📝 摘要(中文)

在杂乱的三维体素环境中,非对称的3D追逐-逃逸问题在通信延迟、部分可观测性和非完整运动约束下极具挑战。许多多智能体强化学习方法依赖于更丰富的智能体间耦合或中心化信号,但这些依赖性在通信延迟或嘈杂时可能成为脆弱性的来源。本文基于继承的路径引导分散追逐框架,研究了一个面向鲁棒性的问题:表征简约性能否改善无通信协调?我们通过以下方式实例化这一原则:(i)一个简约的actor观测接口,移除团队耦合通道(从83维降至50维),以及(ii)贡献门控信用分配(CGCA),一种用于无通信合作的局部感知信用结构。在Stage-5评估(4个追逐者 vs. 1个逃逸者)中,我们的配置达到了0.753 +/- 0.091的成功率和0.223 +/- 0.066的碰撞率,优于83维FULL OBS对应配置(0.721 +/- 0.071,0.253 +/- 0.089)。它进一步展示了在速度/偏航/噪声/延迟压力测试下的优雅降级,以及在城市峡谷地图上的弹性零样本迁移(密度为0.24时约61%的成功率)。这些结果支持了一种实用的范式转变:显式切断冗余的跨智能体通道可以抑制复合误差级联,并提高在易受延迟影响的部署中的鲁棒性。

🔬 方法详解

问题定义:论文旨在解决在复杂三维体素环境中,多个追逐者在无通信、部分可观测和非完整运动约束下,协同追逐单个逃逸者的问题。现有方法通常依赖于智能体间的频繁通信,但在实际应用中,通信延迟和噪声会严重影响系统的性能和鲁棒性。因此,如何在通信受限的情况下实现高效的协同追逐是本文要解决的核心问题。

核心思路:论文的核心思路是通过表征简约性来提高系统的鲁棒性。具体来说,通过减少每个智能体的观测维度,去除冗余的跨智能体通道,从而降低信息噪声和误差累积的可能性。同时,引入贡献门控信用分配机制,使智能体能够更好地理解自身行为对团队目标的贡献,从而实现更有效的协同。

技术框架:整体框架基于一个继承的路径引导分散追逐架构。每个智能体根据局部观测和自身状态,独立地规划路径并执行动作。主要包含两个关键模块:(1)简约的Actor观测接口:将原始的83维观测空间降维到50维,减少了智能体间的耦合信息。(2)贡献门控信用分配(CGCA):一种局部感知的信用分配机制,用于在无通信的情况下,评估每个智能体对团队目标的贡献,并据此调整策略。

关键创新:最重要的技术创新点在于将表征简约性原则应用于多智能体协同追逐问题,并提出了相应的技术实现方案。与现有方法相比,该方法不再依赖于复杂的智能体间通信,而是通过减少信息冗余和优化信用分配来提高系统的鲁棒性和效率。这种思路为解决通信受限的多智能体协同问题提供了一种新的视角。

关键设计:在Actor观测接口方面,移除了团队耦合通道,例如其他智能体的位置信息。贡献门控信用分配(CGCA)通过一个门控机制来衡量每个智能体对团队目标的贡献,该门控机制基于智能体的局部观测和行动。损失函数的设计旨在鼓励智能体采取有助于团队成功的行动,并避免碰撞。具体的网络结构和参数设置在论文中有详细描述,但未在此处详细展开。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在Stage-5评估(4个追逐者 vs. 1个逃逸者)中,成功率达到0.753 +/- 0.091,碰撞率为0.223 +/- 0.066,优于83维FULL OBS对应配置(0.721 +/- 0.071,0.253 +/- 0.089)。此外,该方法在速度/偏航/噪声/延迟压力测试下表现出优雅的性能降级,并在城市峡谷地图上实现了良好的零样本迁移(密度为0.24时约61%的成功率)。

🎯 应用场景

该研究成果可应用于无人机集群协同搜索、机器人协同导航、自动驾驶等领域。在这些场景中,通信往往受到限制或不稳定,因此鲁棒的无通信协同策略具有重要的实际价值。该研究为解决复杂环境下的多智能体协同问题提供了一种新的思路,有望推动相关技术的发展。

📄 摘要(原文)

Asymmetric 3D pursuit-evasion in cluttered voxel environments is difficult under communication latency, partial observability, and nonholonomic maneuver limits. While many MARL methods rely on richer inter-agent coupling or centralized signals, these dependencies can become fragility sources when communication is delayed or noisy. Building on an inherited path-guided decentralized pursuit scaffold, we study a robustness-oriented question: can representational parsimony improve communication-free coordination? We instantiate this principle with (i) a parsimonious actor observation interface that removes team-coupled channels (83-D to 50-D), and (ii) Contribution-Gated Credit Assignment (CGCA), a locality-aware credit structure for communication-denied cooperation. In Stage-5 evaluation (4 pursuers vs. 1 evader), our configuration reaches 0.753 +/- 0.091 success and 0.223 +/- 0.066 collision, outperforming the 83-D FULL OBS counterpart (0.721 +/- 0.071, 0.253 +/- 0.089). It further shows graceful degradation under speed/yaw/noise/delay stress tests and resilient zero-shot transfer on urban-canyon maps (about 61% success at density 0.24). These results support a practical paradigm shift: explicitly severing redundant cross-agent channels can suppress compounding error cascades and improve robustness in latency-prone deployment.