A Deep Reinforcement Learning Framework for Closed-loop Guidance of Fish Schools via Virtual Agents

📄 arXiv: 2603.28200v1 📥 PDF

作者: Takato Shibayama, Hiroaki Kawashima

分类: cs.RO, cs.LG, q-bio.PE

发布日期: 2026-03-30

备注: 18 pages, 8 figures


💡 一句话要点

提出基于深度强化学习的鱼群闭环引导框架,通过虚拟智能体实现鱼群控制。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 深度强化学习 鱼群引导 群体行为 近端策略优化 虚拟智能体

📋 核心要点

  1. 生物群体运动引导是理解社会互动规则和开发动物管理自动化系统的关键挑战。
  2. 论文提出利用深度强化学习训练虚拟智能体,通过闭环控制实现对鱼群的有效引导。
  3. 实验表明,该方法在小规模鱼群中有效,但随着规模增大,引导效果显著下降,揭示了群体规模对引导效果的影响。

📝 摘要(中文)

本研究提出了一种基于深度强化学习(RL)的框架,用于通过虚拟智能体闭环引导鱼群。这些智能体由近端策略优化(PPO)算法训练的策略控制,并在真实环境中与红鼻剪刀鱼(Petitella bleheri)进行物理实验,实现人工智能体与真实个体之间的实时交互。为了应对真实个体的随机行为,我们设计了一个复合奖励函数,以平衡方向引导和社会凝聚力。对视觉参数的系统评估表明,白色背景和较大的刺激尺寸可以最大限度地提高物理试验中的引导效果。此外,对不同群体规模的评估表明,该系统对五个个体的群体表现出有效的引导,但随着群体规模增加到八个个体,这种能力明显下降。这项研究突出了深度强化学习在生物群体自动引导方面的潜力,并指出了在较大群体中维持人工影响力的挑战。

🔬 方法详解

问题定义:现有方法难以有效引导鱼群等生物群体,尤其是在真实环境中,生物个体的随机性和群体行为的复杂性使得控制策略设计面临挑战。现有方法缺乏对环境变化的适应性和对群体内部社会动态的建模能力。

核心思路:利用深度强化学习(DRL)训练虚拟智能体,通过与真实鱼群的交互,学习最优的引导策略。核心在于设计合适的奖励函数,平衡引导方向和维持鱼群的社会凝聚力,从而克服个体行为的随机性,实现对整体鱼群的有效控制。

技术框架:整体框架包括仿真环境训练和真实环境部署两个阶段。在仿真环境中,使用PPO算法训练虚拟智能体的控制策略。训练完成后,将策略部署到真实环境中,虚拟智能体通过视觉刺激与真实鱼群互动,实现闭环控制。系统包含视觉参数调整模块,用于优化刺激效果。

关键创新:关键创新在于将深度强化学习应用于生物群体的引导控制,并设计了复合奖励函数,同时考虑了方向引导和社会凝聚力。这种方法能够自适应地学习控制策略,无需人工设计复杂的规则,从而更好地应对真实环境中生物行为的复杂性和不确定性。

关键设计:奖励函数由两部分组成:一部分奖励智能体引导鱼群朝向目标方向,另一部分奖励智能体维持鱼群的社会凝聚力(例如,保持鱼群的紧密度)。视觉参数(如背景颜色和刺激大小)通过实验进行优化,以最大化引导效果。PPO算法使用默认参数,网络结构未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,白色背景和较大的刺激尺寸能够显著提高引导效果。在包含五个个体的鱼群中,该系统能够有效引导鱼群运动。然而,当鱼群规模增加到八个个体时,引导效果明显下降,表明群体规模对引导效果有显著影响。具体的性能数据未知。

🎯 应用场景

该研究成果可应用于水产养殖、野生动物保护和环境管理等领域。例如,可以利用该技术引导鱼群迁徙到更适宜的栖息地,或控制养殖鱼类的运动,提高养殖效率。此外,该方法还可以扩展到其他生物群体,如鸟类或昆虫,实现对生物种群的有效管理和控制。

📄 摘要(原文)

Guiding collective motion in biological groups is a fundamental challenge in understanding social interaction rules and developing automated systems for animal management. In this study, we propose a deep reinforcement learning (RL) framework for the closed-loop guidance of fish schools using virtual agents. These agents are controlled by policies trained via Proximal Policy Optimization (PPO) in simulation and deployed in physical experiments with rummy-nose tetras (Petitella bleheri), enabling real-time interaction between artificial agents and live individuals. To cope with the stochastic behavior of live individuals, we design a composite reward function to balance directional guidance with social cohesion. Our systematic evaluation of visual parameters shows that a white background and larger stimulus sizes maximize guidance efficacy in physical trials. Furthermore, evaluation across group sizes revealed that while the system demonstrates effective guidance for groups of five individuals, this capability markedly degrades as group size increases to eight. This study highlights the potential of deep RL for automated guidance of biological collectives and identifies challenges in maintaining artificial influence in larger groups.