Stochastic Differential Dynamic Programming for Trajectory Optimization under Partial Observability

作者: Masahiro Fujiwara, Naoya Ozaki

分类: eess.SY, math.OC

发布日期: 2026-05-08

备注: 43 pages, 13 figures; submitted to the Journal of Guidance, Control, and Dynamics

💡 一句话要点

提出随机微分动态规划算法，解决部分可观测环境下的航天器轨迹优化问题。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 轨迹优化 随机微分动态规划 部分可观测性 信念空间规划 航天器动力学 鲁棒控制 轨道确定

📋 核心要点

现有方法难以有效处理部分可观测环境下轨迹设计、轨道确定与机动规划之间的高度耦合性。
提出随机微分动态规划算法，通过联合优化标称控制与反馈增益，显式建模协方差传播的依赖性。
实验表明该方法在复杂动力学系统中能显著降低燃料消耗，并提升轨迹的导航感知能力与鲁棒性。

📝 摘要（中文）

在存在机动执行误差和观测不确定性等随机效应的情况下，设计航天器轨迹极具挑战性。尽管协方差控制和信念空间规划为设计鲁棒控制策略和信息感知轨迹提供了有效工具，但针对部分可观测轨迹优化问题（其中轨迹设计、轨道确定和修正机动规划紧密耦合）的实用方法仍然有限。本文提出了一种针对此类耦合问题的随机微分动态规划（SDDP）算法。该方法在信念动力学和一般任务约束下优化标称控制序列和反馈增益，明确考虑了协方差传播对标称轨迹的依赖性，且不依赖于分离原理。数值算例表明，该算法在多种动力学系统、观测模型和不确定性水平下，均能产生具有导航感知能力且鲁棒的解。特别是在圆型限制性三体问题中，该方法能利用轨迹设计与轨道确定之间的耦合，获得比确定性局部优化方案燃料消耗更低的导航感知解。

🔬 方法详解

问题定义：论文旨在解决部分可观测（POMDP）框架下的航天器轨迹优化问题。现有方法通常依赖分离原理，即分别进行轨迹规划和状态估计，这导致在存在机动误差和观测噪声时，无法充分利用轨迹设计来优化导航性能，从而造成燃料浪费或鲁棒性不足。

核心思路：引入随机微分动态规划（SDDP），将标称轨迹优化与反馈增益设计统一在同一个优化框架内。通过将协方差演化纳入动力学约束，使优化过程能够主动寻找那些既满足任务需求又具备良好可观测性的轨迹。

技术框架：算法基于信念空间（Belief Space）进行推导，通过迭代求解贝尔曼方程的二阶近似。流程包括：首先定义包含状态均值与协方差的增广信念动力学；其次，在每次迭代中通过后向传递计算最优反馈增益，并前向传播更新标称轨迹；最后，通过满足任务约束的非线性规划求解器进行收敛。

关键创新：最大的创新在于打破了传统控制与估计的分离假设，显式地将协方差传播对标称轨迹的依赖性纳入优化目标。这种“导航感知”设计使得轨迹能够自动避开观测不确定性大的区域，或主动靠近观测源以降低状态估计误差。

关键设计：核心技术细节在于对信念动力学的线性化处理，以及在代价函数中引入了对协方差矩阵的惩罚项。通过优化反馈增益，算法能够自动调整控制策略以适应不同程度的随机扰动，从而实现鲁棒的轨迹跟踪。

📊 实验亮点

在圆型限制性三体问题（CR3BP）的仿真中，该算法展现了显著优势。相比于传统的确定性局部优化方法，该方法在保证任务鲁棒性的前提下，通过利用轨迹与导航的耦合特性，实现了更低的燃料消耗，并有效提升了轨道确定的精度与可靠性。

🎯 应用场景

该研究主要应用于深空探测任务中的航天器轨迹设计，特别是在受限三体问题等复杂引力场环境下的轨道维持与机动规划。此外，该方法也可推广至自动驾驶、机器人导航等存在传感器噪声与执行器不确定性的复杂控制系统，具有极高的工程实用价值。

📄 摘要（原文）

Designing spacecraft trajectories remains challenging in the presence of stochastic effects such as maneuver execution errors and observation uncertainties. Although covariance control and belief-space planning provide useful tools for designing robust control policies and information-aware trajectories under uncertainty, practical methods remain limited for partially observable trajectory optimization problems in which trajectory design, orbit determination, and correction maneuver planning are tightly coupled. This paper presents a stochastic differential dynamic programming algorithm for such coupled problems. The proposed method optimizes the nominal control sequence and feedback gains subject to belief dynamics and general mission constraints, explicitly accounting for the dependence of covariance propagation on the nominal trajectory without relying on the separation principle. Numerical examples demonstrate that the proposed algorithm produces navigation-aware and uncertainty-robust solutions across a range of dynamical systems, observation models, and uncertainty levels. In particular, the circular restricted three-body problem shows that the proposed method can exploit the coupling between trajectory design and orbit determination to obtain navigation-aware solutions with substantially lower fuel consumption than those from deterministic local optimization starting from the same initial guess.

Stochastic Differential Dynamic Programming for Trajectory Optimization under Partial Observability

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理