Laboratory Experiments of Model-based Reinforcement Learning for Adaptive Optics Control
作者: Jalo Nousiainen, Byron Engler, Markus Kasper, Chang Rajani, Tapio Helin, Cédric T. Heritier, Sascha P. Quanz, Adrian M. Glauser
分类: astro-ph.IM, cs.LG, cs.RO
发布日期: 2023-12-30
备注: Accepted for publication in JATIS
💡 一句话要点
提出基于模型强化学习的自适应光学控制方法,并在实验室环境中验证其性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 自适应光学 强化学习 模型预测控制 系外行星成像 波前校正
📋 核心要点
- 传统自适应光学控制算法难以有效区分系外行星与宿主恒星残余光,探测微弱的系外行星信号。
- 论文提出基于模型强化学习的自适应光学控制方法PO4AO,通过与环境交互学习控制策略,实现自动化控制。
- 在GHOST测试台上验证了PO4AO的性能,展示了其预测和自校准能力,并开源了相关代码。
📝 摘要(中文)
下一代地面望远镜的重要科学驱动力之一是直接成像类地系外行星。由于类地行星通常位于离其宿主恒星很小的角度范围内,因此很难探测到它们。因此,必须仔细设计自适应光学(AO)系统的控制算法,以区分系外行星和宿主恒星产生的残余光。强化学习(RL)等数据驱动的控制方法为改进AO控制提供了一个新的有希望的研究途径。RL是机器学习研究领域的一个活跃分支,通过与环境的交互来学习系统的控制。因此,RL可以被看作是一种自动化的AO控制方法。特别是,基于模型的强化学习(MBRL)已被证明可以应对时间和未对准误差。同样,它已被证明可以适应非线性波前传感,同时在训练和执行方面都很有效率。在这项工作中,我们在ESO总部的GHOST测试台上实施并调整了一种名为AO策略优化(PO4AO)的RL方法,我们在实验室环境中展示了该方法的强大性能。我们的实现允许训练与推理并行执行,这对于在天空操作至关重要。我们特别研究了该方法的预测和自校准方面。在GHOST上运行PyTorch的新实现仅在硬件、管道和Python接口延迟之外引入了约700微秒的延迟。我们开源了有据可查的实现代码,并指定了RTC管道的要求。我们还讨论了该方法的重要超参数、延迟的来源以及降低延迟的可能途径。
🔬 方法详解
问题定义:自适应光学系统的核心目标是校正大气湍流引起的波前畸变,从而提高望远镜的成像质量。传统的控制算法,如积分控制器,在面对复杂和动态的大气条件时,性能会受到限制。此外,系统误差(如未对准)和非线性波前传感也会降低控制效果。因此,需要一种能够自适应地学习和优化控制策略的方法,以应对这些挑战。
核心思路:论文的核心思路是利用基于模型的强化学习(MBRL)来学习自适应光学系统的控制策略。MBRL通过建立环境(即自适应光学系统)的动态模型,并利用该模型来优化控制策略。这种方法允许智能体在模拟环境中进行训练,从而减少了对真实数据的依赖,并提高了训练效率。此外,MBRL还具有较强的泛化能力,可以适应不同的系统误差和非线性波前传感。
技术框架:该方法采用Policy Optimization for AO (PO4AO)算法,整体流程包括以下几个阶段:1) 环境建模:利用观测数据建立自适应光学系统的动态模型。2) 策略学习:使用强化学习算法,如策略梯度法,在模拟环境中学习控制策略。3) 策略部署:将学习到的控制策略部署到真实的自适应光学系统中。4) 在线优化:在实际运行过程中,根据观测数据不断优化控制策略。
关键创新:该方法的主要创新在于将MBRL应用于自适应光学控制,并提出了一种名为PO4AO的特定算法。与传统的控制算法相比,PO4AO能够自适应地学习和优化控制策略,从而提高了系统的性能和鲁棒性。此外,该方法还具有较强的泛化能力,可以适应不同的系统误差和非线性波前传感。
关键设计:PO4AO算法的关键设计包括:1) 动态模型:使用神经网络来表示自适应光学系统的动态模型。2) 策略网络:使用神经网络来表示控制策略。3) 奖励函数:设计合适的奖励函数,以鼓励智能体学习到期望的控制行为。4) 并行训练:采用并行训练的方式,以提高训练效率。论文中提到,在GHOST测试台上运行PyTorch的新实现仅引入了约700微秒的额外延迟。
📊 实验亮点
实验结果表明,PO4AO方法在GHOST测试台上表现出强大的性能。该方法不仅能够有效地校正波前畸变,而且还具有良好的预测和自校准能力。在实际应用中,该方法引入的额外延迟仅为约700微秒,表明其具有较高的实时性。此外,该团队开源了代码,为其他研究人员提供了便利。
🎯 应用场景
该研究成果可应用于下一代地面望远镜的自适应光学系统,提高高分辨率成像能力,尤其是在直接成像系外行星方面具有重要价值。通过更精确地校正大气湍流,可以更清晰地观测到系外行星,并对其进行光谱分析,从而更好地了解它们的物理性质和宜居性。此外,该方法还可应用于其他需要精确控制的光学系统,如激光通信和显微镜。
📄 摘要(原文)
Direct imaging of Earth-like exoplanets is one of the most prominent scientific drivers of the next generation of ground-based telescopes. Typically, Earth-like exoplanets are located at small angular separations from their host stars, making their detection difficult. Consequently, the adaptive optics (AO) system's control algorithm must be carefully designed to distinguish the exoplanet from the residual light produced by the host star. A new promising avenue of research to improve AO control builds on data-driven control methods such as Reinforcement Learning (RL). RL is an active branch of the machine learning research field, where control of a system is learned through interaction with the environment. Thus, RL can be seen as an automated approach to AO control, where its usage is entirely a turnkey operation. In particular, model-based reinforcement learning (MBRL) has been shown to cope with both temporal and misregistration errors. Similarly, it has been demonstrated to adapt to non-linear wavefront sensing while being efficient in training and execution. In this work, we implement and adapt an RL method called Policy Optimization for AO (PO4AO) to the GHOST test bench at ESO headquarters, where we demonstrate a strong performance of the method in a laboratory environment. Our implementation allows the training to be performed parallel to inference, which is crucial for on-sky operation. In particular, we study the predictive and self-calibrating aspects of the method. The new implementation on GHOST running PyTorch introduces only around 700 microseconds in addition to hardware, pipeline, and Python interface latency. We open-source well-documented code for the implementation and specify the requirements for the RTC pipeline. We also discuss the important hyperparameters of the method, the source of the latency, and the possible paths for a lower latency implementation.