Insect-inspired modular architectures as inductive biases for reinforcement learning

📄 arXiv: 2604.22081v1 📥 PDF

作者: Anne E. Staples

分类: cs.LG, physics.comp-ph

发布日期: 2026-04-23


💡 一句话要点

提出昆虫启发式模块化强化学习架构,解决复杂导航任务中动态行为竞争问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 模块化架构 分布式控制 归纳偏置 机器人导航

📋 核心要点

  1. 现有强化学习控制器通常采用集中式架构,难以有效处理复杂环境中动态竞争的行为目标。
  2. 受昆虫分布式控制系统的启发,论文提出一种模块化强化学习架构,将控制分解为多个专门模块。
  3. 实验表明,该模块化策略在复杂导航任务中优于集中式控制器,并实现了更稳定的优化和更具选择性的控制分配。

📝 摘要(中文)

本文提出了一种受昆虫启发的模块化强化学习策略架构,用于连续控制任务。该架构将控制分解为多个交互模块,分别负责感觉编码、航向表示、稀疏联想记忆、循环命令生成和局部运动控制,并通过学习到的仲裁机制在模块间分配运动权限。在需要同时进行觅食、避障和逃避捕食者的二维导航任务中,该模块化策略在六个种子下的实验中,经过75次PPO更新后,取得了最佳的平均性能,最终episodic return为-2798.8±964.4,优于集中式GRU(-3778.0±628.1)和集中式MLP(-4727.5±772.5)。此外,模块化策略还实现了最低的最终价值损失和稳定的PPO优化统计,同时将模块分配熵降低到0.0457±0.0244,表明控制分配具有高度选择性。结果表明,分布式控制可以作为解决涉及动态竞争行为目标的强化学习问题的有效归纳偏置。

🔬 方法详解

问题定义:现有强化学习方法在解决复杂控制问题时,通常采用集中式架构,即将所有观测压缩成一个单一的潜在状态,然后从中产生价值估计和动作。这种架构难以有效处理需要同时优化多个动态竞争行为目标(如觅食、避障、逃避捕食者)的任务,容易导致控制策略的混乱和低效。

核心思路:论文的核心思路是借鉴昆虫的分布式控制系统,将控制任务分解为多个专门的模块,每个模块负责处理特定的感觉信息或执行特定的行为。通过学习一个仲裁机制,动态地在这些模块之间分配控制权限,从而实现对复杂环境的灵活适应。这种模块化设计可以提供更强的归纳偏置,帮助强化学习算法更快地学习到有效的策略。

技术框架:该模块化强化学习架构包含以下主要模块:感觉编码模块(处理原始感觉输入)、航向表示模块(维护当前航向信息)、稀疏联想记忆模块(存储环境信息)、循环命令生成模块(生成高级控制指令)和局部运动控制模块(执行具体动作)。此外,还有一个仲裁模块,负责根据当前环境状态,动态地在各个模块之间分配控制权限。整个架构使用Proximal Policy Optimization (PPO)算法进行端到端训练。

关键创新:最重要的技术创新点在于将分布式控制的思想引入强化学习,并设计了一种模块化的策略架构来实现这种分布式控制。与传统的集中式架构相比,该模块化架构可以更好地解耦不同的行为目标,从而更容易学习到有效的控制策略。此外,学习到的仲裁机制可以根据环境动态地调整模块之间的控制分配,从而实现对复杂环境的灵活适应。

关键设计:仲裁模块的设计是关键。该模块接收各个模块的输出以及环境状态作为输入,然后输出一个概率分布,表示每个模块的控制权重。损失函数包括PPO的策略损失、价值损失和熵正则化项。特别地,论文还引入了模块分配熵,用于鼓励仲裁机制进行选择性的控制分配,避免所有模块都同时参与控制。

🖼️ 关键图片

fig_0

📊 实验亮点

在二维导航任务中,模块化策略的最终episodic return为-2798.8±964.4,显著优于集中式GRU(-3778.0±628.1)和集中式MLP(-4727.5±772.5)。同时,模块化策略实现了最低的最终价值损失和稳定的PPO优化统计,模块分配熵降低到0.0457±0.0244,表明控制分配具有高度选择性。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、游戏AI等领域。通过模仿生物的分布式控制机制,可以设计出更加鲁棒、灵活和高效的控制系统,尤其是在需要同时处理多个动态竞争目标的复杂环境中。未来的研究可以探索更复杂的模块化架构和更有效的仲裁机制,以进一步提高控制系统的性能。

📄 摘要(原文)

Most reinforcement-learning (RL) controllers used in continuous control are architecturally centralized: observations are compressed into a single latent state from which both value estimates and actions are produced. Biological control systems are often organized differently. Insects, in particular, coordinate navigation, heading stabilization, memory, and context-dependent action selection through distributed circuits rather than a single monolithic controller. Motivated by this contrast, we study an RL policy architecture that decomposes control into interacting modules for sensory encoding, heading representation, sparse associative memory, recurrent command generation, and local motor control, with a learned arbitration mechanism that allocates motor authority across modules. The model is evaluated on a two-dimensional navigation task that require simultaneous food seeking, obstacle avoidance, and predator escape. In a six-seed predator-navigation experiment trained with Proximal Policy Optimization (PPO) for 75 updates, the modular policy achieves the strongest final mean performance among the tested controllers, with final episodic return $-2798.8\pm964.4$ versus $-3778.0\pm628.1$ for a centralized gated recurrent unit (GRU) and $-4727.5\pm772.5$ for a centralized multilayer perceptron (MLP). The modular policy also attains the lowest final value loss and stable PPO optimization statistics while driving module-assignment entropy to $0.0457\pm0.0244$, indicating highly selective control allocation. These results suggest that distributed control can serve as a useful inductive bias for RL problems involving dynamically competing behavioral objectives.