Robots that learn to evaluate models of collective behavior

作者: Mathis Hocke, Andreas Gerken, David Bierbach, Jens Krause, Tim Landgraf

分类: cs.RO

发布日期: 2026-04-08

💡 一句话要点

提出基于强化学习的机器人框架，通过闭环交互评估鱼群行为模型

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 机器人 强化学习 行为建模 动物行为 群体智能

📋 核心要点

现有动物行为模型评估依赖离线静态统计，缺乏动态交互和闭环验证。
提出基于强化学习的RoboFish框架，通过与真实鱼群闭环交互评估行为模型。
实验表明，基于神经网络的模型与真实鱼群行为差距最小，验证了该评估方法有效性。

📝 摘要（中文）

理解和建模动物行为对于研究集体运动、决策制定和生物启发机器人至关重要。然而，评估行为模型的准确性通常依赖于离线比较静态轨迹统计数据。本文介绍了一种基于强化学习的框架，该框架使用仿生机器鱼（RoboFish）通过闭环交互来评估活鱼行为的计算模型。我们使用四种不同的鱼类模型（一个简单的恒定跟随基线、两个基于规则的模型和一个基于生物学原理的卷积神经网络模型）在模拟中训练策略，并将这些策略转移到真实的RoboFish设置中，在那里它们与活鱼互动。策略被训练来引导一条模拟鱼到达目标位置，使我们能够量化真实鱼的反应与模拟鱼的反应有何不同。我们通过量化模拟到真实之间的差距来评估鱼类模型，该差距定义为行为指标（如目标到达性能、个体间距离、墙壁交互和对齐）的模拟分布和真实分布之间的Wasserstein距离。基于神经网络的鱼类模型在目标到达性能和大多数其他指标上表现出最小的差距，表明在这种基准下，其行为保真度高于传统的基于规则的模型。更重要的是，这种分离表明，所提出的评估可以在匹配的闭环条件下定量区分候选模型。我们的工作展示了基于学习的机器人实验如何揭示行为模型的缺陷，并为通过具身交互评估动物行为模型提供了一个通用框架。

🔬 方法详解

问题定义：现有动物行为模型评估方法主要依赖于离线分析，例如比较轨迹统计特征。这种方法无法捕捉动物行为的动态性和交互性，难以准确评估模型在真实环境中的表现。因此，如何设计一种能够动态评估动物行为模型，并考虑其与真实环境交互的框架是一个关键问题。

核心思路：本文的核心思路是利用强化学习训练一个控制机器鱼（RoboFish）的策略，使其能够与真实鱼群进行交互。通过比较机器鱼在模拟环境和真实环境中的行为差异，可以量化不同行为模型的准确性。这种闭环交互的方式能够更全面地评估模型的动态性和适应性。

技术框架：该框架包含以下几个主要模块：1) 行为模型：包括基于规则的模型和基于神经网络的模型，用于模拟鱼的行为。2) 强化学习环境：包括模拟环境和真实环境，用于训练和测试机器鱼的控制策略。3) 机器鱼控制策略：使用强化学习算法训练，目标是引导机器鱼到达目标位置。4) 评估指标：使用Wasserstein距离等指标，量化模拟环境和真实环境中机器鱼行为的差异。整体流程是先在模拟环境中训练机器鱼的控制策略，然后将策略迁移到真实环境中，与真实鱼群进行交互，最后通过评估指标比较不同行为模型的表现。

关键创新：该方法最重要的创新点在于利用强化学习和机器人技术，构建了一个能够与真实动物进行闭环交互的评估框架。与传统的离线评估方法相比，该框架能够更全面地评估行为模型的动态性和适应性。此外，该方法还提供了一种量化模型准确性的方法，可以用于比较不同行为模型的优劣。

关键设计：在强化学习方面，使用了合适的奖励函数来引导机器鱼到达目标位置，并考虑了与鱼群的交互行为。在模型评估方面，选择了Wasserstein距离作为评估指标，因为它能够比较两个分布的差异，并且对异常值不敏感。在神经网络模型方面，使用了卷积神经网络来提取鱼群的视觉特征，并用于预测鱼的行为。

🖼️ 关键图片

📊 实验亮点

实验结果表明，基于神经网络的鱼类模型在目标到达性能和大多数其他行为指标上表现出最小的模拟到真实差距，优于传统的基于规则的模型。具体而言，神经网络模型在目标到达性能上的Wasserstein距离显著小于其他模型，表明其行为保真度更高。该结果验证了所提出的评估框架能够有效区分不同行为模型的优劣。

🎯 应用场景

该研究成果可应用于动物行为学研究、生物启发机器人设计和群体智能算法开发。通过该框架，研究人员可以更准确地评估动物行为模型，从而更好地理解动物行为的内在机制。此外，该框架还可以用于设计更智能的机器人，使其能够更好地与动物或人类进行交互。该方法在人群疏散、交通管理等领域也有潜在应用价值。

📄 摘要（原文）

Understanding and modeling animal behavior is essential for studying collective motion, decision-making, and bio-inspired robotics. Yet, evaluating the accuracy of behavioral models still often relies on offline comparisons to static trajectory statistics. Here we introduce a reinforcement-learning-based framework that uses a biomimetic robotic fish (RoboFish) to evaluate computational models of live fish behavior through closed-loop interaction. We trained policies in simulation using four distinct fish models-a simple constant-follow baseline, two rule-based models, and a biologically grounded convolutional neural network model-and transferred these policies to the real RoboFish setup, where they interacted with live fish. Policies were trained to guide a simulated fish to goal locations, enabling us to quantify how the response of real fish differs from the simulated fish's response. We evaluate the fish models by quantifying the sim-to-real gaps, defined as the Wasserstein distance between simulated and real distributions of behavioral metrics such as goal-reaching performance, inter-individual distances, wall interactions, and alignment. The neural network-based fish model exhibited the smallest gap across goal-reaching performance and most other metrics, indicating higher behavioral fidelity than conventional rule-based models under this benchmark. More importantly, this separation shows that the proposed evaluation can quantitatively distinguish candidate models under matched closed-loop conditions. Our work demonstrates how learning-based robotic experiments can uncover deficiencies in behavioral models and provides a general framework for evaluating animal behavior models through embodied interaction.

Robots that learn to evaluate models of collective behavior

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理