Evolving Afferent Architectures: Biologically-inspired Models for Damage-Avoidance Learning

📄 arXiv: 2602.04807v1 📥 PDF

作者: Wolfgang Maass, Sabine Janzen, Prajvi Saxena, Sach Mukherjee

分类: cs.LG

发布日期: 2026-02-04

备注: 16 pages, 6 figures


💡 一句话要点

提出基于进化仿生模型的传入学习框架,用于损伤规避学习。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 损伤规避学习 传入学习 进化算法 强化学习 生物力学数字孪生 风险感知 自适应控制

📋 核心要点

  1. 现有损伤规避方法缺乏有效的内部风险信号,难以适应长期复杂的生物力学系统。
  2. 该文提出传入学习框架,通过进化优化搜索有效的传入感知架构,为强化学习提供自适应风险信号。
  3. 实验表明,该方法在生物力学数字孪生体中显著提高了损伤规避策略的效率和年龄鲁棒性。

📝 摘要(中文)

本文提出了一种名为传入学习的框架,该框架生成计算传入轨迹(CATs)作为自适应的内部风险信号,用于损伤规避学习。该框架受到生物系统的启发,采用两层架构:进化优化(外循环)发现能够有效进行策略学习的传入感知架构,而强化学习(内循环)则利用这些信号训练损伤规避策略。这形式化了传入感知,将其作为有效学习的归纳偏置:架构的选择基于其实现有效学习的能力(而不是直接最小化损伤)。我们在平滑性和有界噪声假设下提供了理论收敛保证。我们在生物力学数字孪生体长期运行(生命历程的数十年)这一具有挑战性的背景下,展示了该通用方法。结果表明,基于CAT的进化架构比手工设计的基线实现了更高的效率和更好的年龄鲁棒性,从而实现了表现出年龄依赖性行为适应的策略(高风险行为减少23%)。消融研究验证了CAT信号、进化和预测差异的必要性。我们发布了代码和数据以保证可重复性。

🔬 方法详解

问题定义:论文旨在解决在长期、复杂的生物力学系统中,如何有效地学习损伤规避策略的问题。现有方法通常依赖于手工设计的风险信号或直接最小化损伤,但这些方法难以适应环境变化,且缺乏有效的内部风险表征,导致学习效率低下和泛化能力不足。

核心思路:论文的核心思路是借鉴生物系统的传入感知机制,通过进化算法自动搜索能够提供有效风险信号的感知架构。这种架构能够将环境信息转化为自适应的内部风险信号,为强化学习提供更有效的归纳偏置,从而加速学习过程并提高策略的鲁棒性。

技术框架:该框架包含两个主要模块:进化优化(外循环)和强化学习(内循环)。进化优化模块负责搜索不同的传入感知架构,评估其在强化学习中的表现。强化学习模块则利用进化优化模块提供的感知架构,训练损伤规避策略。整个流程迭代进行,直到找到最优的感知架构和策略。

关键创新:该方法最重要的创新点在于将进化算法与强化学习相结合,自动学习有效的传入感知架构。与传统的手工设计方法相比,该方法能够更有效地利用环境信息,生成自适应的风险信号,从而提高学习效率和策略的鲁棒性。此外,该方法形式化了传入感知作为一种归纳偏置,强调了架构选择基于其实现有效学习的能力,而非直接最小化损伤。

关键设计:进化优化模块使用遗传算法搜索不同的感知架构,包括感知器的类型、数量和连接方式。强化学习模块使用标准的强化学习算法(如Q-learning或Actor-Critic方法)训练损伤规避策略。损失函数通常包括损伤成本和行为成本,旨在平衡损伤规避和行为效率。关键参数包括进化算法的种群大小、变异率和选择策略,以及强化学习算法的学习率和探索率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于CAT的进化架构在生物力学数字孪生体中实现了显著的性能提升。与手工设计的基线相比,该方法能够实现更高的效率和更好的年龄鲁棒性,使得策略能够表现出年龄依赖性的行为适应(高风险行为减少23%)。消融研究验证了CAT信号、进化和预测差异的必要性。

🎯 应用场景

该研究成果可应用于机器人控制、自动驾驶、医疗健康等领域。例如,可以用于设计更安全、更可靠的机器人系统,使其能够自主感知环境风险并采取规避措施。在医疗健康领域,可以用于开发个性化的康复训练方案,帮助患者更好地恢复运动功能。

📄 摘要(原文)

We introduce Afferent Learning, a framework that produces Computational Afferent Traces (CATs) as adaptive, internal risk signals for damage-avoidance learning. Inspired by biological systems, the framework uses a two-level architecture: evolutionary optimization (outer loop) discovers afferent sensing architectures that enable effective policy learning, while reinforcement learning (inner loop) trains damage-avoidance policies using these signals. This formalizes afferent sensing as providing an inductive bias for efficient learning: architectures are selected based on their ability to enable effective learning (rather than directly minimizing damage). We provide theoretical convergence guarantees under smoothness and bounded-noise assumptions. We illustrate the general approach in the challenging context of biomechanical digital twins operating over long time horizons (multiple decades of the life-course). Here, we find that CAT-based evolved architectures achieve significantly higher efficiency and better age-robustness than hand-designed baselines, enabling policies that exhibit age-dependent behavioral adaptation (23% reduction in high-risk actions). Ablation studies validate CAT signals, evolution, and predictive discrepancy as essential. We release code and data for reproducibility.