Probabilistic Verification of Recurrent Neural Networks for Single and Multi-Agent Reinforcement Learning

📄 arXiv: 2605.14758v1 📥 PDF

作者: Luca Marzari, Enrico Marchesini

分类: cs.AI

发布日期: 2026-05-14

备注: Accepted at the 35th International Joint Conference on Artificial Intelligence (IJCAI) 2026


💡 一句话要点

提出RNN-ProVe,用于强化学习中RNN策略的概率验证

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 循环神经网络 强化学习 概率验证 部分可观察 多智能体系统

📋 核心要点

  1. 现有RNN验证方法依赖于严格假设或粗略近似,导致结果保守或不确定,难以有效验证。
  2. RNN-ProVe通过策略驱动采样近似可行隐藏状态集,并利用统计误差界限提供高置信度的行为违规估计。
  3. 实验表明,RNN-ProVe在单智能体和多智能体任务中,相比现有方法,能提供更定量、可行性感知的概率保证。

📝 摘要(中文)

循环神经网络(RNN)产生的历史依赖策略依赖于潜在的隐藏状态动态,这使得在部分可观察强化学习(RL)中进行验证具有挑战性。现有的RNN验证工具通常依赖于限制性的建模假设或对隐藏状态空间的粗略过度近似,这可能导致过于保守或不确定的结果。我们提出了RNN概率验证(RNN-ProVe),这是一个概率框架,用于估计基于RNN的策略中不期望行为的可能性。RNN-ProVe使用策略驱动的采样来近似在训练策略下可行的隐藏状态集合,并推导统计误差界限,以产生有界误差、高置信度的行为违规估计。在部分可观察的单智能体和合作多智能体任务上的实验表明,RNN-ProVe比现有工具产生更定量的、可行性感知的概率保证,同时扩展到循环和多智能体设置。

🔬 方法详解

问题定义:论文旨在解决部分可观测强化学习中,对基于RNN的策略进行验证的难题。现有方法主要存在两个痛点:一是依赖于过于严格的建模假设,限制了适用范围;二是采用粗糙的过度近似,导致验证结果过于保守甚至无效。这些问题使得难以准确评估RNN策略的安全性与可靠性。

核心思路:论文的核心思路是采用概率验证框架,通过估计RNN策略中不期望行为发生的可能性,来评估策略的安全性。关键在于,不再试图精确计算所有可能的状态,而是通过采样来近似可行状态空间,并利用统计方法来保证估计的准确性。这种方法避免了对隐藏状态空间的过度近似,从而提高了验证的精度。

技术框架:RNN-ProVe框架主要包含以下几个阶段:1) 策略训练:首先训练一个基于RNN的强化学习策略。2) 策略驱动采样:利用训练好的策略,通过采样生成一系列隐藏状态序列,以此来近似可行状态空间。3) 行为违规检测:定义需要验证的不期望行为(例如,进入危险区域),并检测采样得到的隐藏状态序列中是否存在这些行为。4) 概率估计与误差界定:根据检测结果,估计不期望行为发生的概率,并利用统计方法计算误差界限,从而得到高置信度的概率保证。

关键创新:RNN-ProVe的关键创新在于其概率验证框架和策略驱动的采样方法。与现有方法相比,它不再依赖于严格的建模假设,而是通过采样来近似可行状态空间,从而提高了验证的精度和适用性。此外,通过统计误差界定,可以保证验证结果的可靠性。

关键设计:RNN-ProVe的关键设计包括:1) 采样策略:采用策略驱动的采样方法,确保采样得到的隐藏状态序列具有代表性。2) 误差界定方法:利用统计学习理论,推导误差界限,保证概率估计的准确性。3) 行为违规定义:需要根据具体任务,精确定义需要验证的不期望行为。4) RNN结构:可以使用各种常见的RNN结构,如LSTM或GRU。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RNN-ProVe在部分可观察的单智能体和合作多智能体任务中,相比现有工具,能够提供更定量、可行性感知的概率保证。具体来说,RNN-ProVe能够更准确地估计不期望行为发生的概率,并提供可靠的误差界限,从而提高了验证的精度和可靠性。

🎯 应用场景

该研究成果可应用于对安全性要求较高的强化学习任务中,例如自动驾驶、机器人控制等。通过概率验证,可以评估智能体在复杂环境中的行为安全性,降低事故发生的风险。未来,该方法可以进一步扩展到更复杂的环境和策略,为强化学习的可靠部署提供保障。

📄 摘要(原文)

History-dependent policies induced by recurrent neural networks (RNNs) rely on latent hidden state dynamics, making verification in partially observable reinforcement learning (RL) challenging. Existing RNN verification tools typically rely on restrictive modeling assumptions or coarse over-approximations of the hidden state space, which can lead to overly conservative or inconclusive results. We propose $\textbf{RNN}$ $\textbf{Pro}$babilistic $\textbf{Ve}$rification ($\texttt{RNN-ProVe}$), a probabilistic framework that $\textit{estimates the likelihood}$ of undesired behaviors in RNN-based policies. $\texttt{RNN-ProVe}$ uses policy-driven sampling to approximate the set of hidden states that are feasible under a trained policy, and derives statistical error bounds to produce bounded-error, high-confidence estimates of behavioral violations. Experiments on partially observable single-agent and cooperative multi-agent tasks show that $\texttt{RNN-ProVe}$ yields more quantitative, feasibility-aware probabilistic guarantees than existing tools, while scaling to recurrent and multi-agent settings.