Learning Robust Reward Machines from Noisy Labels

作者: Roko Parac, Lorenzo Nodari, Leo Ardon, Daniel Furelos-Blanco, Federico Cerutti, Alessandra Russo

分类: cs.AI, cs.LG

发布日期: 2024-08-27 (更新: 2025-03-21)

备注: Accepted at the 21st International Conference on Principles of Knowledge Representation and Reasoning (KR 2024)

DOI: 10.24963/kr.2024/85

💡 一句话要点

PROB-IRM：从噪声标签中学习鲁棒奖励机，提升强化学习智能体性能

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 强化学习 奖励机 噪声标签 归纳逻辑编程 贝叶斯方法 策略学习 奖励塑造

📋 核心要点

现有强化学习方法在处理复杂任务时，依赖人工设计的奖励函数或奖励机，成本高且易出错，难以适应真实环境中的噪声数据。
PROB-IRM通过交错学习奖励机和策略，并利用贝叶斯后验置信度来处理噪声轨迹，从而实现从噪声数据中自动学习鲁棒奖励机。
实验结果表明，PROB-IRM能够从噪声轨迹中学习奖励机，并训练强化学习智能体成功完成任务，性能与人工设计的奖励机相当。

📝 摘要（中文）

本文提出了一种名为PROB-IRM的方法，用于从带噪声的执行轨迹中学习鲁棒的奖励机（RM），以用于强化学习（RL）智能体。RM驱动的RL的关键在于利用有限状态机将智能体的任务分解为不同的子任务。PROB-IRM使用最先进的归纳逻辑编程框架，该框架对噪声示例具有鲁棒性，通过贝叶斯后验置信度从噪声轨迹中学习RM，从而确保对不一致性的鲁棒性。结果的关键在于RM学习和策略学习之间的交错：每当RL智能体生成一条被认为不被当前RM接受的轨迹时，就会学习一个新的RM。为了加速RL智能体的训练，PROB-IRM采用了一种概率奖励塑造公式，该公式使用从轨迹导出的后验贝叶斯置信度。实验分析表明，PROB-IRM可以从噪声轨迹中学习（可能不完美的）RM，并利用它们来训练RL智能体成功地解决其任务。尽管从噪声轨迹中学习RM的复杂性很高，但使用PROB-IRM训练的智能体的性能与提供手工制作的RM的智能体相当。

🔬 方法详解

问题定义：论文旨在解决强化学习中，从带有噪声标签的执行轨迹中学习鲁棒奖励机（Reward Machine, RM）的问题。现有的RM学习方法对噪声数据敏感，导致学习到的RM不稳定，影响强化学习智能体的性能。人工设计的RM成本高昂且容易出错，难以适应复杂环境。

核心思路：PROB-IRM的核心思路是通过交错学习RM和策略，并利用贝叶斯后验置信度来处理噪声轨迹。具体来说，当智能体生成一条被认为不被当前RM接受的轨迹时，就学习一个新的RM。同时，利用贝叶斯后验置信度对奖励进行塑造，加速智能体的训练。

技术框架：PROB-IRM的整体框架包含以下几个主要模块：1) 轨迹生成：RL智能体与环境交互，生成执行轨迹；2) RM学习：使用归纳逻辑编程框架，从轨迹中学习RM，该框架对噪声示例具有鲁棒性；3) 策略学习：使用学习到的RM对奖励进行塑造，训练RL智能体；4) RM更新：当智能体生成一条被认为不被当前RM接受的轨迹时，重新学习RM。这个过程不断迭代，直到智能体能够成功完成任务。

关键创新：PROB-IRM的关键创新在于：1) 提出了一种交错学习RM和策略的方法，能够有效地利用智能体的经验来改进RM；2) 利用贝叶斯后验置信度来处理噪声轨迹，提高了RM的鲁棒性；3) 提出了一种概率奖励塑造公式，加速了智能体的训练。

关键设计：PROB-IRM使用归纳逻辑编程框架ALEPH来学习RM。ALEPH使用贝叶斯后验置信度来评估候选RM的质量，从而选择最鲁棒的RM。奖励塑造函数的设计基于贝叶斯后验置信度，使得智能体能够更快地学习到最优策略。具体的参数设置和损失函数选择取决于具体的强化学习算法和环境。

🖼️ 关键图片

📊 实验亮点

实验结果表明，PROB-IRM能够从噪声轨迹中学习到有效的奖励机，并训练强化学习智能体成功完成任务。在多个测试环境中，使用PROB-IRM训练的智能体的性能与使用人工设计的奖励机的智能体相当，甚至在某些情况下优于人工设计的奖励机。这表明PROB-IRM具有很强的鲁棒性和泛化能力。

🎯 应用场景

PROB-IRM具有广泛的应用前景，例如机器人导航、游戏AI、自动驾驶等领域。它可以帮助智能体从不完美的示范或带有噪声的反馈中学习复杂的任务，降低人工干预的成本，提高智能体的自主性和适应性。未来，该方法可以进一步扩展到多智能体系统和更复杂的任务场景。

📄 摘要（原文）

This paper presents PROB-IRM, an approach that learns robust reward machines (RMs) for reinforcement learning (RL) agents from noisy execution traces. The key aspect of RM-driven RL is the exploitation of a finite-state machine that decomposes the agent's task into different subtasks. PROB-IRM uses a state-of-the-art inductive logic programming framework robust to noisy examples to learn RMs from noisy traces using the Bayesian posterior degree of beliefs, thus ensuring robustness against inconsistencies. Pivotal for the results is the interleaving between RM learning and policy learning: a new RM is learned whenever the RL agent generates a trace that is believed not to be accepted by the current RM. To speed up the training of the RL agent, PROB-IRM employs a probabilistic formulation of reward shaping that uses the posterior Bayesian beliefs derived from the traces. Our experimental analysis shows that PROB-IRM can learn (potentially imperfect) RMs from noisy traces and exploit them to train an RL agent to solve its tasks successfully. Despite the complexity of learning the RM from noisy traces, agents trained with PROB-IRM perform comparably to agents provided with handcrafted RMs.

Learning Robust Reward Machines from Noisy Labels

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理