Streetwise Agents: Empowering Offline RL Policies to Outsmart Exogenous Stochastic Disturbances in RTC

📄 arXiv: 2411.06815v1 📥 PDF

作者: Aditya Soni, Mayukh Das, Anjaly Parayil, Supriyo Ghosh, Shivam Shandilya, Ching-An Cheng, Vishak Gopal, Sami Khairy, Gabriel Mittag, Yasaman Hosseinkashi, Chetan Bansal

分类: cs.LG

发布日期: 2024-11-11


💡 一句话要点

提出Streetwise方法,增强离线RL策略在实时通信中应对随机扰动的鲁棒性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 离线强化学习 领域自适应 鲁棒性 实时通信 带宽估计

📋 核心要点

  1. 现有离线强化学习策略在部署后,易受外生随机因素引起的领域偏移影响,导致性能下降甚至失效。
  2. 论文提出Streetwise方法,通过实时表征分布外子空间,对策略进行部署后塑造,以增强其鲁棒性。
  3. 实验结果表明,Streetwise方法在带宽估计和标准离线RL基准测试中,显著提高了最终回报。

📝 摘要(中文)

在实际生产系统中进行在线探索和训练的难度限制了实时在线数据/反馈驱动决策的范围。最可行的方法是从有限的轨迹样本中采用离线强化学习。然而,部署后,由于外生因素暂时或永久地扰乱/改变了离线样本所诱导的决策过程结构的转移分布,这些策略会失效。这导致了在实时通信(RTC)等敏感领域中的严重策略失败和泛化误差。我们解决了在存在由于野外未见过的外生随机因素引起的领域偏移时,识别鲁棒动作的关键问题。由于不可能在离线数据的支持范围内学习对这些未见过的外生扰动具有鲁棒性的广义离线策略,我们提出了一种新颖的策略部署后塑造方法(Streetwise),该方法以实时表征的分布外子空间为条件。这导致了RTC中网络瓶颈的带宽估计(BWE)和标准基准测试中的鲁棒动作。我们在BWE和其他标准离线RL基准环境中的大量实验结果表明,相对于最先进的基线,最终回报在最终用户指标方面有显著提高(在某些情况下约为18%)。

🔬 方法详解

问题定义:论文旨在解决离线强化学习策略在实际部署中,由于未知的、随机的外生因素导致的性能下降问题。现有离线RL方法通常假设训练数据能够覆盖所有可能的状态转移,但在实际应用中,环境会受到各种未知的扰动,导致策略泛化能力不足,尤其是在实时通信等对延迟和稳定性要求高的场景下。

核心思路:论文的核心思路是,与其试图在离线训练阶段学习一个能够应对所有未知扰动的通用策略,不如在部署后,根据实时观测到的环境状态,动态地调整策略。具体来说,就是识别出当前状态属于分布外(out-of-distribution)的哪个子空间,然后根据该子空间的特征,对策略进行微调或塑造,使其能够更好地适应当前环境。

技术框架:Streetwise方法包含以下几个主要阶段:1) 离线策略训练:使用离线数据集训练一个初始的强化学习策略。2) 分布外子空间识别:在部署阶段,使用某种方法(例如,基于密度估计或聚类)识别当前状态所属的分布外子空间。3) 策略塑造:根据识别出的分布外子空间,对初始策略进行调整。这可以通过多种方式实现,例如,使用一个额外的神经网络来预测在当前子空间下应该采取的动作,或者使用一个奖励塑造函数来引导策略探索更鲁棒的动作。

关键创新:Streetwise方法的关键创新在于其部署后的策略塑造机制。与传统的离线RL方法不同,Streetwise方法不是试图学习一个静态的、通用的策略,而是学习一个能够根据环境变化动态调整的策略。这种动态调整的能力使得Streetwise方法能够更好地应对未知的扰动,提高策略的鲁棒性。

关键设计:论文中,分布外子空间的识别可以使用多种方法,例如,基于高斯混合模型的密度估计,或者基于k-means的聚类。策略塑造可以使用一个额外的神经网络,该网络以当前状态和分布外子空间的表征作为输入,输出一个动作。该网络的训练可以使用强化学习或监督学习方法。奖励塑造函数的设计需要根据具体的应用场景进行调整,目标是引导策略探索更鲁棒的动作。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,Streetwise方法在实时通信的带宽估计任务中,相对于最先进的基线方法,最终回报提高了约18%。此外,在其他标准离线RL基准测试中,Streetwise方法也取得了显著的性能提升,验证了其有效性和泛化能力。

🎯 应用场景

Streetwise方法具有广泛的应用前景,尤其是在需要部署强化学习策略到复杂、动态环境中的场景。例如,可以应用于自动驾驶、机器人控制、智能交通管理等领域。通过实时感知环境变化,动态调整策略,可以提高系统的鲁棒性和可靠性,降低安全风险。

📄 摘要(原文)

The difficulty of exploring and training online on real production systems limits the scope of real-time online data/feedback-driven decision making. The most feasible approach is to adopt offline reinforcement learning from limited trajectory samples. However, after deployment, such policies fail due to exogenous factors that temporarily or permanently disturb/alter the transition distribution of the assumed decision process structure induced by offline samples. This results in critical policy failures and generalization errors in sensitive domains like Real-Time Communication (RTC). We solve this crucial problem of identifying robust actions in presence of domain shifts due to unseen exogenous stochastic factors in the wild. As it is impossible to learn generalized offline policies within the support of offline data that are robust to these unseen exogenous disturbances, we propose a novel post-deployment shaping of policies (Streetwise), conditioned on real-time characterization of out-of-distribution sub-spaces. This leads to robust actions in bandwidth estimation (BWE) of network bottlenecks in RTC and in standard benchmarks. Our extensive experimental results on BWE and other standard offline RL benchmark environments demonstrate a significant improvement ($\approx$ 18% on some scenarios) in final returns wrt. end-user metrics over state-of-the-art baselines.