Multi-action Tangled Program Graphs for Multi-task Reinforcement Learning with Continuous Control

作者: Quentin Vacher, Nicolas Beuve, Mickaël Dardaillon, Karol Desnos

分类: cs.AI

发布日期: 2026-04-28

期刊: EuroGP 2026, Apr 2026, Toulouse, France. pp. 259-274

💡 一句话要点

提出基于多动作缠结程序图的MATPG算法，用于连续控制多任务强化学习。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 多任务强化学习 连续控制 遗传编程 缠结程序图 机器人控制

📋 核心要点

传统强化学习算法难以应对需要学习多种行为的多任务环境，泛化能力不足。
提出多动作缠结程序图(MATPG)算法，通过聚合多个MAPLE代理并控制它们的激活来实现多任务学习。
在新的MuJoCo Half Cheetah基准测试中，MATPG结合词典选择，表现优于其他方法，并具有良好的可解释性。

📝 摘要（中文）

本文提出了一种用于连续控制多任务强化学习(MTRL)环境的算法。强化学习(RL)通过学习特定任务的行为来模拟人类行为。为了进一步挑战算法，引入了多任务RL(MTRL)环境，要求单个模型学习多种行为。缠结程序图(TPG)算法是一种为离散MTRL环境设计的遗传编程(GP)算法。最近，MAPLE算法被提出，它在单任务连续RL环境中取得了很好的效果。本文提出了TPG的一种变体，即多动作TPG(MATPG)，它聚合了MAPLE代理，并创建了一个控制流来激活它们。MATPG最初仅在单任务RL环境中进行了测试，取得了与MAPLE相似的结果。本文基于Gymnasium的MuJoCo Half Cheetah提出了一个新的基准。该基准包含五个不同的障碍物，随机放置在智能体前方，每个障碍物都需要独特的行为。该基准用作MATPG的用例，以证明其作为连续MTRL环境GP解决方案的能力。实验表明，当与词典选择相结合时，MATPG在该多任务用例中表现出优越性。此外，本文还研究了进化图的可解释性，揭示了模型决策流是完全可解释的。

🔬 方法详解

问题定义：论文旨在解决连续控制的多任务强化学习问题。现有的强化学习算法在处理需要智能体学习多种不同行为的任务时，泛化能力较弱，难以适应动态变化的环境。特别是在连续控制领域，如何有效地组合和协调不同的控制策略是一个挑战。

核心思路：论文的核心思路是利用遗传编程(GP)算法，进化出一个能够根据环境状态选择合适动作的控制策略。具体来说，通过聚合多个MAPLE代理，并使用一个控制流来决定激活哪个代理，从而实现多任务学习。这种方法允许模型学习多个不同的行为，并根据当前的任务需求进行切换。

技术框架：MATPG算法的技术框架主要包括以下几个部分：1) MAPLE代理：每个MAPLE代理负责学习一种特定的行为或策略。2) 缠结程序图(TPG)：TPG定义了代理之间的控制流，决定在给定状态下激活哪个代理。3) 遗传编程(GP)：GP算法用于进化TPG的结构和参数，使其能够有效地解决多任务问题。4) 词典选择：一种选择策略，用于在进化过程中选择优秀的个体。

关键创新：该论文的关键创新在于将TPG算法扩展到连续控制领域，并将其应用于多任务强化学习。通过聚合多个MAPLE代理，并使用一个可进化的控制流来协调它们，MATPG能够学习多个不同的行为，并根据当前的任务需求进行切换。此外，该论文还提出了一个新的基准测试，用于评估多任务强化学习算法的性能。

关键设计：MATPG的关键设计包括：1) MAPLE代理的结构和参数：MAPLE代理可以使用各种不同的神经网络结构，例如多层感知机(MLP)或循环神经网络(RNN)。2) TPG的结构和参数：TPG的结构决定了代理之间的控制流，其参数决定了代理的激活条件。3) 遗传编程的参数：遗传编程的参数包括种群大小、交叉概率、变异概率等。4) 词典选择的参数：词典选择的参数包括选择的个体数量和选择标准。

📊 实验亮点

实验结果表明，MATPG算法在新的MuJoCo Half Cheetah基准测试中表现优于其他方法。具体来说，MATPG结合词典选择，能够有效地学习多个不同的行为，并根据当前的任务需求进行切换。此外，实验还表明，MATPG进化出的控制策略具有良好的可解释性，可以清晰地了解模型是如何做出决策的。

🎯 应用场景

该研究成果可应用于机器人控制、自动驾驶、游戏AI等领域。例如，在机器人控制中，可以训练机器人完成多个不同的任务，如抓取、放置、移动等。在自动驾驶中，可以训练车辆在不同的交通状况下做出合适的决策，如变道、超车、避让行人等。该研究有助于开发更智能、更灵活的智能系统。

📄 摘要（原文）

Over the past few decades, machine learning has been widely used to learn complex tasks. Reinforcement Learning (RL), inspired by human behavior, is a great example, as it involves developing specific behaviours for specific tasks. To further challenge algorithms, Multi-Task RL (MTRL) environments have been introduced, requiring a single model to learn multiple behaviors. The Tangled Program Graph (TPG) algorithm is a Genetic Programming (GP) algorithm designed for discrete MTRL environments. Recently, the MAPLE algorithm has been proposed, as another GP algorithm that achieves high results in single task continuous RL environments. A variation of the TPG is proposed alongside MAPLE, named Multi-Action TPG (MATPG) that aggregates MAPLE agents, and creates a control flow to activate them. Initially tested on single task RL environments only, MATPG achieved similar results to MAPLE. In this work, we present a new benchmark based on the MuJoCo Half Cheetah from Gymnasium. This benchmark features five distinct obstacles that are randomly positioned in front of the agent, each of which demands a unique behavior. This benchmark serves as a use case for MATPG, to prove its ability as a GP solution for continuous MTRL environments. Our experiments demonstrate its superiority in this multi-task use case when combined with lexicase selection. Furthermore, we examine the interpretability of the evolved graph, revealing that the decision flow of the model is fully interpretable.

Multi-action Tangled Program Graphs for Multi-task Reinforcement Learning with Continuous Control

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理