Recurrent Deep Reinforcement Learning for Chemotherapy Control under Partial Observability
作者: Firas Mohamed Elamine Kiram, Imane Youkana, Rachida Saouli, Gian Antonio Susto, Laid Kahloul
分类: cs.LG, cs.AI
发布日期: 2026-05-04
备注: Accepted for publication at the VI. International Conference on Electrical, Computer and Energy Technologies (ICECET 2026)
💡 一句话要点
提出基于循环深度强化学习的化疗控制方法,提升部分可观测性下的治疗效果
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 深度强化学习 循环神经网络 化疗控制 部分可观测性 LSTM TD3 动态治疗方案
📋 核心要点
- 化疗剂量优化面临部分可观测性挑战,现有强化学习方法通常假设完全可观测,限制了其临床应用。
- 论文提出基于循环神经网络的深度强化学习方法,利用LSTM记忆能力处理部分可观测状态下的序贯决策问题。
- 实验表明,该方法在部分可观测环境下,相较于传统方法,能更有效地抑制肿瘤并保护正常细胞。
📝 摘要(中文)
化疗剂量优化可以被建模为动态治疗方案,需要在不确定性下进行序贯决策,以平衡肿瘤抑制和毒性。然而,大多数强化学习方法假设患者状态完全可观测,这在临床实践中很少满足。本文研究了记忆增强策略是否可以改善部分可观测性下的化疗控制。为此,我们采用了一种基于循环TD3的方法,使用分离的LSTM Actor-Critic网络,并在DTR-Bench的AhnChemoEnv基准上对其进行评估,考虑了离策略和在策略循环架构,并与前馈TD3和Soft Actor-Critic进行比较。药代动力学和药效学变异性保持固定,以隔离隐藏状态不确定性和观测噪声,并避免患者间变异性的混淆效应。在十个随机种子中,循环在完全可观测性下产生适度的益处,但在部分可观测性下产生更强和更稳定的性能,具有更一致的肿瘤抑制和改善的正常细胞保护。这些发现表明,当临床相关的状态信息不完整或嘈杂时,基于记忆的策略特别有益。
🔬 方法详解
问题定义:化疗剂量优化问题旨在寻找最佳的化疗方案,以在抑制肿瘤生长的同时最小化对患者的毒副作用。现有的强化学习方法在解决该问题时,通常假设可以完全观测到患者的状态,例如肿瘤大小、药物浓度等。然而,在实际临床环境中,由于检测手段的限制和个体差异的存在,患者状态往往是部分可观测的,这导致传统强化学习方法的性能下降。
核心思路:本文的核心思路是利用循环神经网络(RNN)的记忆能力来处理部分可观测性问题。RNN可以通过记忆之前的状态信息来推断当前的状态,从而在部分可观测的情况下做出更明智的决策。具体来说,本文使用LSTM作为RNN的变体,因为LSTM具有更好的长期依赖性建模能力。
技术框架:本文采用Actor-Critic框架,并使用TD3算法作为基础的强化学习算法。Actor网络负责生成化疗剂量,Critic网络负责评估Actor网络生成的剂量的价值。为了处理部分可观测性,Actor网络和Critic网络都使用了LSTM。整个框架包括以下几个主要步骤:1)从环境中获取部分观测状态;2)将部分观测状态输入到LSTM Actor网络中,生成化疗剂量;3)将化疗剂量施加到环境中,并获取新的部分观测状态和奖励;4)将部分观测状态、化疗剂量、奖励和新的部分观测状态输入到LSTM Critic网络中,评估Actor网络生成的剂量的价值;5)使用TD3算法更新Actor网络和Critic网络的参数。
关键创新:本文的关键创新在于将循环神经网络(LSTM)引入到深度强化学习框架中,以处理化疗剂量优化问题中的部分可观测性。与传统的基于前馈神经网络的强化学习方法相比,本文提出的方法能够更好地利用历史信息,从而在部分可观测的情况下做出更明智的决策。
关键设计:本文使用了分离的LSTM Actor-Critic网络,这意味着Actor网络和Critic网络使用不同的LSTM层。这种设计可以避免Actor网络和Critic网络之间的相互干扰,从而提高算法的性能。此外,本文还使用了TD3算法中的一些技巧,例如目标网络和噪声注入,以提高算法的稳定性和探索能力。药代动力学和药效学变异性被固定,以隔离隐藏状态不确定性和观测噪声的影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在部分可观测环境下,基于循环TD3的方法显著优于传统的前馈TD3和Soft Actor-Critic方法。具体来说,该方法在肿瘤抑制方面表现出更强的稳定性和一致性,并且能够更好地保护正常细胞。在完全可观测环境下,循环TD3也表现出适度的性能提升,验证了其在不同观测条件下的有效性。
🎯 应用场景
该研究成果可应用于临床化疗方案的个性化定制,尤其适用于患者状态信息不完整或存在噪声的情况。通过结合患者的历史治疗数据和部分可观测的当前状态,该方法能够为医生提供更精准的剂量建议,从而提高化疗疗效,降低毒副作用,改善患者的生活质量。未来,该方法还可扩展到其他疾病的治疗方案优化中。
📄 摘要(原文)
Chemotherapy dose optimization can be formulated as a dynamic treatment regime, requiring sequential decisions under uncertainty that must balance tumor suppression against toxicity. However, most reinforcement learning approaches assume full observability of the patient state, a condition rarely met in clinical practice. We investigate whether memory-augmented policies can improve chemotherapy control under partial observability. To this end, we employ a recurrent TD3-based approach with separate LSTM actor-critic networks and evaluate it on the AhnChemoEnv benchmark from DTR-Bench, considering both off-policy and on-policy recurrent architectures against feed-forward TD3 and Soft Actor-Critic. Pharmacokinetic and pharmacodynamic variability are held fixed to isolate hidden-state uncertainty and observation noise and to avoid confounding effects from inter-patient variability. Across ten random seeds, recurrence yields modest benefit under full observability but substantially stronger and more stable performance under partial observability, with more consistent tumor suppression and improved normal-cell preservation. These findings indicate that memory-based policies are particularly beneficial when clinically relevant state information is incomplete or noisy.