Reinforcement learning for efficient and robust multi-setpoint and multi-trajectory tracking in bioprocesses

📄 arXiv: 2503.22409v2 📥 PDF

作者: Sebastián Espinel-Ríos, José L. Avalos, Ehecatl Antonio del Rio Chanona, Dongda Zhang

分类: eess.SY

发布日期: 2025-03-28 (更新: 2025-06-24)

DOI: 10.1016/j.compchemeng.2025.109297


💡 一句话要点

提出基于强化学习的生物过程多目标点和多轨迹高效鲁棒跟踪方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 生物过程控制 多目标优化 轨迹跟踪 鲁棒控制

📋 核心要点

  1. 现有方法难以在生物过程中同时跟踪多个目标点和时变轨迹,尤其是在存在系统不确定性的情况下。
  2. 论文提出一种基于乘法倒数饱和函数的新型回报函数,显式地将奖励与多个参考目标的满足程度关联。
  3. 实验表明,该方法在微生物群落控制中实现了更快的收敛、更高的稳定性和更好的控制效果,并具有鲁棒性。

📝 摘要(中文)

本文提出了一种用于多目标点和多轨迹跟踪的强化学习框架,旨在实现高效且鲁棒的生物过程控制,从而最大化先进生物技术系统的性能和适应性。在强化学习中,由于需要平衡多个目标,同时还要应对不确定的初始条件和随机动态等系统不确定性,因此跟踪多个目标点和时变轨迹极具挑战。例如,在涉及微生物群落的生物过程中,需要精确控制种群组成。本文引入了一种基于乘法倒数饱和函数的新型回报函数,该函数将奖励增益与同时满足多个参考目标显式耦合。通过微生物群落中光介导的控制遗传学生长控制案例研究,计算实验表明,与传统的基于二次成本的回报函数相比,该方法实现了更快的收敛速度、更高的稳定性和更优越的控制性能。此外,该方法还可以调整饱和函数的参数,从而塑造学习过程和策略更新。通过结合系统不确定性,该框架还展示了鲁棒性,这是工业生物过程中的关键要求。总而言之,这项工作推进了基于强化学习的生物过程工程控制策略,并对更广泛的过程和系统工程领域具有重要意义。

🔬 方法详解

问题定义:生物过程控制面临着多目标点和多轨迹跟踪的挑战,尤其是在微生物群落等复杂系统中。现有的基于二次成本的回报函数在处理多个目标时,难以平衡各个目标之间的关系,且对系统不确定性较为敏感,导致控制性能下降。

核心思路:论文的核心思路是设计一种能够显式耦合多个目标的回报函数,并使其对系统不确定性具有一定的鲁棒性。通过引入乘法倒数饱和函数,将奖励增益与多个参考目标的满足程度直接关联,从而实现对多个目标的有效跟踪。

技术框架:该方法采用强化学习框架,智能体通过与生物过程环境交互,学习最优控制策略。整体流程包括:1)定义生物过程的状态空间、动作空间和回报函数;2)使用强化学习算法(例如,Q-learning、SARSA或Actor-Critic方法)训练智能体;3)将训练好的智能体应用于实际生物过程控制。

关键创新:最重要的技术创新点在于新型回报函数的设计。与传统的基于二次成本的回报函数不同,该回报函数使用乘法倒数饱和函数,能够显式地将奖励与多个目标的满足程度耦合,从而更好地平衡各个目标之间的关系,并提高控制性能。此外,该方法还考虑了系统不确定性,提高了控制策略的鲁棒性。

关键设计:乘法倒数饱和函数的具体形式为:R = ∏(S_i),其中S_i = k_i / (k_i + |e_i|),e_i是第i个目标的跟踪误差,k_i是第i个目标的饱和参数。通过调整饱和参数k_i,可以控制每个目标对总回报的贡献程度,从而塑造学习过程和策略更新。强化学习算法的选择和参数调整也会影响最终的控制性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

通过光介导的微生物群落生长控制案例研究,实验结果表明,与传统的基于二次成本的回报函数相比,该方法实现了更快的收敛速度、更高的稳定性和更优越的控制性能。具体而言,该方法能够更快地达到目标状态,且在存在系统不确定性的情况下,仍能保持良好的控制效果,表明其具有较强的鲁棒性。具体提升幅度未知,原文未提供量化数据。

🎯 应用场景

该研究成果可应用于各种生物过程控制领域,例如微生物发酵、细胞培养、生物反应器优化等。通过实现对多个关键参数的精确控制,可以提高生物过程的生产效率、产品质量和稳定性,从而降低生产成本,加速生物技术产品的开发和商业化进程。此外,该方法还可推广到其他复杂系统的控制问题,例如化工过程控制、机器人控制等。

📄 摘要(原文)

Efficient and robust bioprocess control is essential for maximizing performance and adaptability in advanced biotechnological systems. In this work, we present a reinforcement-learning framework for multi-setpoint and multi-trajectory tracking. Tracking multiple setpoints and time-varying trajectories in reinforcement learning is challenging due to the complexity of balancing multiple objectives, a difficulty further exacerbated by system uncertainties such as uncertain initial conditions and stochastic dynamics. This challenge is relevant, e.g., in bioprocesses involving microbial consortia, where precise control over population compositions is required. We introduce a novel return function based on multiplicative reciprocal saturation functions, which explicitly couples reward gains to the simultaneous satisfaction of multiple references. Through a case study involving light-mediated cybergenetic growth control in microbial consortia, we demonstrate via computational experiments that our approach achieves faster convergence, improved stability, and superior control compliance compared to conventional quadratic-cost-based return functions. Moreover, our method enables tuning of the saturation function's parameters, shaping the learning process and policy updates. By incorporating system uncertainties, our framework also demonstrates robustness, a key requirement in industrial bioprocessing. Overall, this work advances reinforcement-learning-based control strategies in bioprocess engineering, with implications in the broader field of process and systems engineering.