Interpretable Deep Reinforcement Learning for Element-level Bridge Life-cycle Optimization

📄 arXiv: 2604.02528 📥 PDF

作者: Seyyed Amirhossein Moayyedi, David Y. Yang

分类: cs.AI, cs.LG

发布日期: 2026-04-06


💡 一句话要点

提出一种可解释的深度强化学习方法,用于桥梁构件级全寿命周期优化。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 深度强化学习 可解释性 决策树 桥梁管理 生命周期优化

📋 核心要点

  1. 现有桥梁管理系统难以处理基于构件级状态表示的复杂策略空间,阻碍了桥梁全寿命周期优化。
  2. 提出一种基于可微软树模型的强化学习方法,生成易于理解和实施的倾斜决策树策略。
  3. 通过温度退火和正则化剪枝,有效控制策略复杂度,并在钢梁桥梁优化问题中验证了框架有效性。

📝 摘要(中文)

本研究提出了一种新的可解释强化学习(RL)方法,用于基于构件级状态表示寻求最优的桥梁全寿命周期策略。与现有RL方法相比,该算法生成的生命周期策略是具有合理节点数量和深度的倾斜决策树形式,使其能够被人直接理解和审核,并易于实施到当前的桥梁管理系统中。为了获得接近最优的策略,该方法对现有RL方法进行了三项主要改进:(a)使用可微软树模型作为Actor函数逼近器,(b)训练期间的温度退火过程,以及(c)与剪枝规则配对的正则化以限制策略复杂性。这些改进共同作用,可以产生确定性倾斜决策树形式的可解释生命周期策略。这些技术的好处和权衡在监督和强化学习环境中都得到了证明。最终的框架在一个钢梁桥梁的生命周期优化问题中得到了说明。

🔬 方法详解

问题定义:传统桥梁管理依赖于组件级的整体评估,而新的SNBI标准采用构件级状态评估,导致状态空间从单一类别整数扩展到四维概率数组,这使得利用强化学习制定最优全寿命周期策略变得极具挑战。现有强化学习方法难以处理如此高维的状态空间,且生成的策略通常难以解释和审计,难以直接应用于实际的桥梁管理系统。

核心思路:本研究的核心思路是将强化学习与可解释的决策树模型相结合,利用深度强化学习的能力在高维状态空间中学习策略,同时保证策略的可解释性。通过使用可微软树模型作为Actor函数逼近器,可以将学习到的策略表示为倾斜决策树,从而实现策略的可视化和理解。

技术框架:该方法采用Actor-Critic框架,其中Actor使用可微软树模型,Critic使用传统的神经网络。训练过程包括以下几个阶段:1) 使用强化学习算法(如PPO)训练Actor和Critic;2) 在训练过程中,使用温度退火策略逐渐降低探索的随机性,使策略更加稳定;3) 使用正则化和剪枝规则限制决策树的复杂度,防止过拟合;4) 将训练好的软决策树转化为确定性的倾斜决策树,以便于理解和实施。

关键创新:该方法最重要的创新在于使用可微软树模型作为Actor函数逼近器。与传统的神经网络相比,决策树具有天然的可解释性,可以直接将状态映射到动作。此外,通过使用可微的软决策树,可以利用梯度下降算法进行端到端的训练,从而避免了传统决策树学习中的离散优化问题。

关键设计:可微软树模型的核心在于使用sigmoid函数对节点的决策进行软化,从而实现可微性。温度退火策略通过逐渐降低softmax函数的温度参数,使策略逐渐收敛到确定性策略。正则化项用于惩罚决策树的复杂度,防止过拟合。剪枝规则用于移除不重要的节点,进一步简化决策树。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法能够生成具有合理节点数量和深度的倾斜决策树策略,且性能接近最优。与传统的强化学习方法相比,该方法生成的策略具有更高的可解释性,更易于理解和实施。在钢梁桥梁的生命周期优化问题中,该方法能够有效地降低维护成本,并延长桥梁的使用寿命。

🎯 应用场景

该研究成果可应用于桥梁、道路、隧道等基础设施的智能运维管理。通过构建可解释的生命周期策略,帮助工程师制定更科学、经济的维护计划,延长基础设施的使用寿命,降低维护成本,并提高安全性。该方法还可推广到其他具有复杂状态空间和需要可解释策略的决策问题中。

📄 摘要(原文)

The new Specifications for the National Bridge Inventory (SNBI), in effect from 2022, emphasize the use of element-level condition states (CS) for risk-based bridge management. Instead of a general component rating, element-level condition data use an array of relative CS quantities (i.e., CS proportions) to represent the condition of a bridge. Although this greatly increases the granularity of bridge condition data, it introduces challenges to set up optimal life-cycle policies due to the expanded state space from one single categorical integer to four-dimensional probability arrays. This study proposes a new interpretable reinforcement learning (RL) approach to seek optimal life-cycle policies based on element-level state representations. Compared to existing RL methods, the proposed algorithm yields life-cycle policies in the form of oblique decision trees with reasonable amounts of nodes and depth, making them directly understandable and auditable by humans and easily implementable into current bridge management systems. To achieve near-optimal policies, the proposed approach introduces three major improvements to existing RL methods: (a) the use of differentiable soft tree models as actor function approximators, (b) a temperature annealing process during training, and (c) regularization paired with pruning rules to limit policy complexity. Collectively, these improvements can yield interpretable life-cycle policies in the form of deterministic oblique decision trees. The benefits and trade-offs from these techniques are demonstrated in both supervised and reinforcement learning settings. The resulting framework is illustrated in a life-cycle optimization problem for steel girder bridges.