Actor-Critic with Active Importance Sampling
作者: Majid Molaei, Gabor Paczolay, Matteo Papini, Alberto Maria Metelli, Marcello Restelli
分类: cs.LG
发布日期: 2026-05-08
💡 一句话要点
提出主动重要性采样Actor-Critic(AISAC)算法,通过优化行为策略显著降低梯度估计方差。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 Actor-Critic 重要性采样 方差缩减 策略梯度 连续控制
📋 核心要点
- 核心问题:传统Actor-Critic方法在策略梯度估计中存在高方差问题,导致训练不稳定且样本效率低下。
- 方法要点:AISAC通过主动优化行为策略,使其分布与目标策略梯度对齐,利用重要性采样实现无偏且低方差的梯度估计。
- 实验效果:在连续控制任务中,AISAC显著提升了收敛速度与训练稳定性,并在不同超参数配置下展现出更强的鲁棒性。
📝 摘要(中文)
本文提出了主动重要性采样Actor-Critic(AISAC)算法,这是对Actor-Critic框架的扩展,旨在降低策略梯度估计中的方差。AISAC通过优化行为策略来最小化梯度方差,同时保持梯度估计的无偏性。利用重要性采样原理,该算法将行为策略调整为与目标策略梯度相一致的高效数据采集分布。对于连续动作空间,AISAC采用通过交叉熵最小化进行优化的高斯行为策略。我们提供了证明方差降低和无偏性的理论分析。在Inverted Pendulum和Half Cheetah任务上的实验表明,与标准Actor-Critic方法相比,该算法提高了学习速度、样本效率和训练稳定性。结果显示,优化行为策略改善了不同超参数设置下的目标策略更新和评论家(Critic)估计精度。AISAC加速了收敛并稳定了强化学习训练,在实际应用中具有广阔前景。未来的工作包括将其集成到Soft Actor-Critic和TD3等高级算法中,以应对更复杂的环境。
🔬 方法详解
问题定义:在强化学习中,策略梯度估计的方差直接影响算法的收敛速度与稳定性。现有方法通常使用固定的行为策略进行采样,导致数据分布与梯度更新方向不匹配,从而引入了不必要的方差。
核心思路:AISAC的核心思想是将行为策略视为一个可优化的参数化分布。通过最小化重要性采样梯度估计的方差,使行为策略主动向“信息量更大”的区域偏移,从而在保持无偏性的前提下提高样本利用效率。
技术框架:算法包含两个主要循环:一是基于当前行为策略采集数据并更新Critic;二是利用重要性采样权重计算策略梯度,并同步更新行为策略以最小化该梯度的方差,形成闭环优化。
关键创新:该方法首次将“主动重要性采样”引入Actor-Critic框架,通过交叉熵最小化策略,实现了行为策略与梯度估计目标的动态对齐,打破了传统方法中行为策略与目标策略分离的局限。
关键设计:针对连续动作空间,AISAC采用高斯分布作为行为策略,通过最小化梯度方差的代理损失函数来更新策略参数,确保了在复杂环境下的计算可行性与理论上的无偏性。
🖼️ 关键图片
📊 实验亮点
实验结果显示,AISAC在Inverted Pendulum和Half Cheetah等基准任务中表现优异。相比标准Actor-Critic方法,AISAC不仅显著加快了收敛速度,还在不同超参数设置下保持了极高的训练稳定性,证明了其在优化目标策略更新和提升Critic估计精度方面的显著优势。
🎯 应用场景
AISAC适用于对样本效率和训练稳定性要求极高的连续控制领域,如机器人运动规划、自动驾驶决策控制以及复杂的工业过程自动化。其降低方差的特性使其在需要高精度策略更新的现实物理系统中具有显著的实际应用价值。
📄 摘要(原文)
This paper introduces the Active-Importance-Sampling Actor-Critic (AISAC) algorithm, an extension of the Actor-Critic framework for reducing variance in policy gradient estimation. AISAC optimizes the behavior policy to minimize gradient variance while preserving unbiased gradient estimates. Using importance sampling principles, the algorithm adapts the behavior policy toward efficient data collection distributions aligned with target policy gradients. For continuous action spaces, AISAC employs Gaussian behavior policies optimized through cross-entropy minimization. We provide theoretical analysis demonstrating variance reduction and unbiasedness. Experiments on Inverted Pendulum and Half Cheetah tasks show improved learning speed, sample efficiency, and training stability compared to standard Actor-Critic methods. Results indicate that optimizing the behavior policy improves both target policy updates and critic estimation accuracy across different hyperparameter settings. AISAC accelerates convergence and stabilizes reinforcement learning training, making it promising for real-world applications. Future work includes integration with advanced algorithms such as Soft Actor-Critic and TD3 for more complex environments.