Enhancing reinforcement learning for population setpoint tracking in co-cultures

📄 arXiv: 2411.09177v2 📥 PDF

作者: Sebastián Espinel-Ríos, Joyce Qiaoxi Mo, Dongda Zhang, Ehecatl Antonio del Rio-Chanona, José L. Avalos

分类: eess.SY

发布日期: 2024-11-14 (更新: 2025-03-15)

DOI: 10.1016/j.ifacol.2025.07.122


💡 一句话要点

提出一种改进回报函数的强化学习方法,用于共培养中群体设定点追踪。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 共培养 设定点追踪 回报函数 策略梯度

📋 核心要点

  1. 现有强化学习方法在共培养群体设定点追踪中,难以平衡多个设定点的贡献,导致性能次优。
  2. 提出一种新颖的回报函数,奖励同时满足多个设定点,并包含参数以微调学习过程。
  3. 通过大肠杆菌共培养实验验证,利用光遗传控制和营养缺陷型调节生长,展示了该方法的有效性。

📝 摘要(中文)

本研究采用强化学习作为共培养中群体设定点追踪的控制方法,侧重于控制策略由神经网络参数化的策略梯度技术。在强化学习中,跨多个设定点实现精确追踪是一个重大挑战,因为智能体必须有效地平衡各个设定点的贡献,以最大化预期系统性能。传统的基于二次成本的回报函数通常会产生次优性能,因为它们无法有效地引导智能体同时满足所有设定点。为了克服这个问题,我们提出了一种新颖的回报函数,该函数奖励同时满足多个设定点,否则会减少整体奖励增益,同时考虑阶段性和最终系统性能。该回报函数包含参数,用于微调所需学习过程的平滑度和陡峭度。我们通过考虑在恒化器中对氨基酸合成途径进行光遗传控制的大肠杆菌共培养来展示我们的方法,利用营养缺陷型来调节生长。

🔬 方法详解

问题定义:论文旨在解决共培养中群体设定点追踪问题。现有的强化学习方法,特别是使用传统回报函数(如二次成本函数)的方法,难以有效地引导智能体同时满足多个设定点,导致追踪精度不高,系统性能受限。痛点在于智能体无法很好地平衡不同设定点的重要性,从而难以实现全局最优控制。

核心思路:论文的核心思路是设计一种新的回报函数,该函数能够更有效地奖励智能体同时满足多个设定点的行为。这种回报函数不仅考虑了智能体在每个阶段的表现,还考虑了最终状态的表现,并且能够通过参数调节学习过程的平滑度和陡峭度。通过这种方式,智能体能够更快、更准确地学习到最优控制策略。

技术框架:整体框架包括以下几个主要部分:首先,建立一个共培养系统模型,该模型描述了大肠杆菌在恒化器中的生长情况,并考虑了光遗传控制和营养缺陷型的影响。其次,使用强化学习算法(策略梯度方法)训练一个智能体,该智能体的目标是控制氨基酸合成途径,从而调节不同菌株的生长速率,最终实现对群体设定点的精确追踪。第三,设计并实现新的回报函数,该函数能够奖励智能体同时满足多个设定点的行为。最后,通过实验验证该方法的有效性。

关键创新:最重要的技术创新点在于提出了新的回报函数。与传统的回报函数相比,该回报函数能够更有效地引导智能体学习到最优控制策略,因为它能够奖励智能体同时满足多个设定点的行为,并且能够通过参数调节学习过程的平滑度和陡峭度。这种回报函数的设计考虑了阶段性和最终系统性能,从而能够更好地平衡不同设定点的重要性。

关键设计:新的回报函数包含多个参数,用于微调学习过程的平滑度和陡峭度。这些参数允许用户根据具体问题调整回报函数的形状,从而优化学习效果。此外,论文还使用了策略梯度方法,并采用神经网络来参数化控制策略。神经网络的结构和参数选择也会影响最终的学习效果。具体的损失函数是基于新的回报函数设计的,目标是最大化累积回报。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出的新回报函数能够更有效地引导强化学习智能体实现共培养中群体设定点追踪。通过实验验证,该方法在多个设定点追踪任务中表现出优越的性能,相较于传统回报函数,能够更准确地维持目标群体比例,并提高系统的稳定性和鲁棒性。具体性能数据和提升幅度在论文中进行了详细展示。

🎯 应用场景

该研究成果可应用于生物技术领域,例如优化共培养体系,实现代谢分工,提高生物合成效率。通过精确控制不同菌株的群体比例,可以最大化目标产物的产量。此外,该方法还可扩展到其他需要多目标优化的控制问题,如机器人控制、资源分配等,具有广泛的应用前景。

📄 摘要(原文)

Efficient multiple setpoint tracking can enable advanced biotechnological applications, such as maintaining desired population levels in co-cultures for optimal metabolic division of labor. In this study, we employ reinforcement learning as a control method for population setpoint tracking in co-cultures, focusing on policy-gradient techniques where the control policy is parameterized by neural networks. However, achieving accurate tracking across multiple setpoints is a significant challenge in reinforcement learning, as the agent must effectively balance the contributions of various setpoints to maximize the expected system performance. Traditional return functions, such as those based on a quadratic cost, often yield suboptimal performance due to their inability to efficiently guide the agent toward the simultaneous satisfaction of all setpoints. To overcome this, we propose a novel return function that rewards the simultaneous satisfaction of multiple setpoints and diminishes overall reward gains otherwise, accounting for both stage and terminal system performance. This return function includes parameters to fine-tune the desired smoothness and steepness of the learning process. We demonstrate our approach considering an $\textit{Escherichia coli}$ co-culture in a chemostat with optogenetic control over amino acid synthesis pathways, leveraging auxotrophies to modulate growth.