Adversarially Robust Decision Transformer

📄 arXiv: 2407.18414v2 📥 PDF

作者: Xiaohang Tang, Afonso Marques, Parameswaran Kamalaruban, Ilija Bogunovic

分类: cs.LG, cs.AI

发布日期: 2024-07-25 (更新: 2024-11-01)

备注: Accepted to NeurIPS 2024


💡 一句话要点

提出ARDT,通过学习最坏情况回报提升决策Transformer在对抗环境中的鲁棒性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 对抗鲁棒性 决策Transformer 离线强化学习 极小极大回归 对抗环境

📋 核心要点

  1. 现有决策Transformer在对抗环境中鲁棒性不足,易受对抗策略影响,导致泛化性能下降。
  2. ARDT通过学习并以样本内极小极大回报为条件来训练策略,对齐目标回报与最坏情况回报,提升鲁棒性。
  3. 实验表明,ARDT在序列博弈和连续对抗RL环境中,相比现有DT方法,能显著提升对抗鲁棒性和最坏情况回报。

📝 摘要(中文)

决策Transformer (DT) 作为一种具有代表性的基于监督学习的强化学习 (RvS) 方法,通过利用强大的Transformer架构进行序列决策,在离线学习任务中取得了强大的性能。然而,在对抗环境中,这些方法可能不具备鲁棒性,因为回报取决于决策者和对抗者的策略。以观察到的回报为条件训练概率模型来预测动作可能会泛化失败,因为数据集中的轨迹可能由于次优的对抗行为而获得回报。为了解决这个问题,我们提出了一种最坏情况感知的RvS算法,即对抗鲁棒决策Transformer (ARDT),该算法学习策略并以样本内极小极大回报为条件。ARDT通过极小极大期望回归将目标回报与学习到的最坏情况回报对齐,从而增强了针对强大测试时对抗的鲁棒性。在具有完整数据覆盖的序列博弈中进行的实验表明,ARDT可以生成最大最小(纳什均衡)策略,即具有最大对抗鲁棒性的解。在具有部分数据覆盖的大规模序列博弈和连续对抗RL环境中,ARDT表现出比当代DT方法显著更优越的对抗强大测试时对抗的鲁棒性,并获得更高的最坏情况回报。

🔬 方法详解

问题定义:论文旨在解决决策Transformer在对抗环境中鲁棒性不足的问题。现有的决策Transformer方法在训练时没有考虑到对抗者的存在,因此在测试时面对强大的对抗者时,性能会显著下降。尤其是在回报依赖于决策者和对抗者双方策略的情况下,仅以观察到的回报为条件进行策略学习,容易受到次优对抗行为的影响,导致泛化能力不足。

核心思路:论文的核心思路是训练一个能够感知最坏情况的决策Transformer,即Adversarially Robust Decision Transformer (ARDT)。ARDT通过学习样本内的极小极大回报,并将策略训练的目标回报与学习到的最坏情况回报对齐,从而提高模型在面对强大对抗者时的鲁棒性。这种方法旨在使模型能够生成一种最大最小策略,即在最坏情况下也能保证一定性能的策略。

技术框架:ARDT的整体框架仍然基于Decision Transformer,但引入了对抗训练的思想。主要包含以下几个阶段:1) 数据收集:收集包含决策者和对抗者交互的轨迹数据。2) 极小极大回报学习:使用极小极大期望回归学习样本内的最坏情况回报。3) 策略训练:以学习到的最坏情况回报为条件,训练决策Transformer,使其能够预测在给定最坏情况回报下的最优动作。

关键创新:ARDT的关键创新在于将对抗训练的思想融入到离线强化学习的Decision Transformer框架中。通过学习最坏情况回报,ARDT能够更好地应对测试时可能出现的强大对抗者,从而提高模型的鲁棒性。与传统的Decision Transformer相比,ARDT不再仅仅依赖于观察到的回报,而是更加关注在最坏情况下的性能。

关键设计:ARDT的关键设计包括:1) 使用极小极大期望回归来学习最坏情况回报。期望回归是一种对异常值不敏感的回归方法,可以有效地估计最坏情况回报。2) 将学习到的最坏情况回报作为条件输入到Decision Transformer中,从而引导模型学习更加鲁棒的策略。3) 在训练过程中,使用对抗训练的方法来模拟测试时可能出现的对抗者,从而提高模型的泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ARDT在序列博弈和连续对抗RL环境中,相比于传统的Decision Transformer方法,能够显著提升对抗鲁棒性和最坏情况回报。具体来说,ARDT能够生成一种最大最小策略,即使在面对强大的对抗者时,也能保证一定的性能水平。在部分数据覆盖的情况下,ARDT的性能提升尤为明显。

🎯 应用场景

ARDT可应用于各种对抗环境下的决策问题,例如:网络安全(防御恶意攻击)、金融交易(应对市场操纵)、自动驾驶(避免恶意干扰)和机器人控制(抵抗物理攻击)。该研究有助于提升智能系统在复杂和不确定环境中的可靠性和安全性,具有重要的实际应用价值。

📄 摘要(原文)

Decision Transformer (DT), as one of the representative Reinforcement Learning via Supervised Learning (RvS) methods, has achieved strong performance in offline learning tasks by leveraging the powerful Transformer architecture for sequential decision-making. However, in adversarial environments, these methods can be non-robust, since the return is dependent on the strategies of both the decision-maker and adversary. Training a probabilistic model conditioned on observed return to predict action can fail to generalize, as the trajectories that achieve a return in the dataset might have done so due to a suboptimal behavior adversary. To address this, we propose a worst-case-aware RvS algorithm, the Adversarially Robust Decision Transformer (ARDT), which learns and conditions the policy on in-sample minimax returns-to-go. ARDT aligns the target return with the worst-case return learned through minimax expectile regression, thereby enhancing robustness against powerful test-time adversaries. In experiments conducted on sequential games with full data coverage, ARDT can generate a maximin (Nash Equilibrium) strategy, the solution with the largest adversarial robustness. In large-scale sequential games and continuous adversarial RL environments with partial data coverage, ARDT demonstrates significantly superior robustness to powerful test-time adversaries and attains higher worst-case returns compared to contemporary DT methods.