Multi-action Tangled Program Graphs for Multi-task Reinforcement Learning with Continuous Control
作者: Quentin Vacher, Nicolas Beuve, Mickaël Dardaillon, Karol Desnos
分类: cs.AI
发布日期: 2026-04-28
期刊: EuroGP 2026, Apr 2026, Toulouse, France. pp. 259-274
💡 一句话要点
提出基于多动作缠结程序图的MATPG算法,用于连续控制多任务强化学习。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 多任务强化学习 连续控制 遗传编程 缠结程序图 机器人控制
📋 核心要点
- 传统强化学习算法难以应对需要学习多种行为的多任务环境,泛化能力不足。
- 提出多动作缠结程序图(MATPG)算法,通过聚合多个MAPLE代理并控制它们的激活来实现多任务学习。
- 在新的MuJoCo Half Cheetah基准测试中,MATPG结合词典选择,表现优于其他方法,并具有良好的可解释性。
📝 摘要(中文)
本文提出了一种用于连续控制多任务强化学习(MTRL)环境的算法。强化学习(RL)通过学习特定任务的行为来模拟人类行为。为了进一步挑战算法,引入了多任务RL(MTRL)环境,要求单个模型学习多种行为。缠结程序图(TPG)算法是一种为离散MTRL环境设计的遗传编程(GP)算法。最近,MAPLE算法被提出,它在单任务连续RL环境中取得了很好的效果。本文提出了TPG的一种变体,即多动作TPG(MATPG),它聚合了MAPLE代理,并创建了一个控制流来激活它们。MATPG最初仅在单任务RL环境中进行了测试,取得了与MAPLE相似的结果。本文基于Gymnasium的MuJoCo Half Cheetah提出了一个新的基准。该基准包含五个不同的障碍物,随机放置在智能体前方,每个障碍物都需要独特的行为。该基准用作MATPG的用例,以证明其作为连续MTRL环境GP解决方案的能力。实验表明,当与词典选择相结合时,MATPG在该多任务用例中表现出优越性。此外,本文还研究了进化图的可解释性,揭示了模型决策流是完全可解释的。
🔬 方法详解
问题定义:论文旨在解决连续控制的多任务强化学习问题。现有的强化学习算法在处理需要智能体学习多种不同行为的任务时,泛化能力较弱,难以适应动态变化的环境。特别是在连续控制领域,如何有效地组合和协调不同的控制策略是一个挑战。
核心思路:论文的核心思路是利用遗传编程(GP)算法,进化出一个能够根据环境状态选择合适动作的控制策略。具体来说,通过聚合多个MAPLE代理,并使用一个控制流来决定激活哪个代理,从而实现多任务学习。这种方法允许模型学习多个不同的行为,并根据当前的任务需求进行切换。
技术框架:MATPG算法的技术框架主要包括以下几个部分:1) MAPLE代理:每个MAPLE代理负责学习一种特定的行为或策略。2) 缠结程序图(TPG):TPG定义了代理之间的控制流,决定在给定状态下激活哪个代理。3) 遗传编程(GP):GP算法用于进化TPG的结构和参数,使其能够有效地解决多任务问题。4) 词典选择:一种选择策略,用于在进化过程中选择优秀的个体。
关键创新:该论文的关键创新在于将TPG算法扩展到连续控制领域,并将其应用于多任务强化学习。通过聚合多个MAPLE代理,并使用一个可进化的控制流来协调它们,MATPG能够学习多个不同的行为,并根据当前的任务需求进行切换。此外,该论文还提出了一个新的基准测试,用于评估多任务强化学习算法的性能。
关键设计:MATPG的关键设计包括:1) MAPLE代理的结构和参数:MAPLE代理可以使用各种不同的神经网络结构,例如多层感知机(MLP)或循环神经网络(RNN)。2) TPG的结构和参数:TPG的结构决定了代理之间的控制流,其参数决定了代理的激活条件。3) 遗传编程的参数:遗传编程的参数包括种群大小、交叉概率、变异概率等。4) 词典选择的参数:词典选择的参数包括选择的个体数量和选择标准。
📊 实验亮点
实验结果表明,MATPG算法在新的MuJoCo Half Cheetah基准测试中表现优于其他方法。具体来说,MATPG结合词典选择,能够有效地学习多个不同的行为,并根据当前的任务需求进行切换。此外,实验还表明,MATPG进化出的控制策略具有良好的可解释性,可以清晰地了解模型是如何做出决策的。
🎯 应用场景
该研究成果可应用于机器人控制、自动驾驶、游戏AI等领域。例如,在机器人控制中,可以训练机器人完成多个不同的任务,如抓取、放置、移动等。在自动驾驶中,可以训练车辆在不同的交通状况下做出合适的决策,如变道、超车、避让行人等。该研究有助于开发更智能、更灵活的智能系统。
📄 摘要(原文)
Over the past few decades, machine learning has been widely used to learn complex tasks. Reinforcement Learning (RL), inspired by human behavior, is a great example, as it involves developing specific behaviours for specific tasks. To further challenge algorithms, Multi-Task RL (MTRL) environments have been introduced, requiring a single model to learn multiple behaviors. The Tangled Program Graph (TPG) algorithm is a Genetic Programming (GP) algorithm designed for discrete MTRL environments. Recently, the MAPLE algorithm has been proposed, as another GP algorithm that achieves high results in single task continuous RL environments. A variation of the TPG is proposed alongside MAPLE, named Multi-Action TPG (MATPG) that aggregates MAPLE agents, and creates a control flow to activate them. Initially tested on single task RL environments only, MATPG achieved similar results to MAPLE. In this work, we present a new benchmark based on the MuJoCo Half Cheetah from Gymnasium. This benchmark features five distinct obstacles that are randomly positioned in front of the agent, each of which demands a unique behavior. This benchmark serves as a use case for MATPG, to prove its ability as a GP solution for continuous MTRL environments. Our experiments demonstrate its superiority in this multi-task use case when combined with lexicase selection. Furthermore, we examine the interpretability of the evolved graph, revealing that the decision flow of the model is fully interpretable.