Interactive LLM-assisted Curriculum Learning for Multi-Task Evolutionary Policy Search

📄 arXiv: 2602.10891v1 📥 PDF

作者: Berfin Sakallioglu, Giorgia Nadizar, Eric Medvet

分类: cs.NE, cs.AI

发布日期: 2026-02-11

备注: 8 pages, 7 figures, with Appendix


💡 一句话要点

提出交互式LLM辅助的课程学习框架,用于多任务进化策略搜索。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 课程学习 多任务学习 进化策略搜索 大型语言模型 交互式学习 具身智能 机器人导航

📋 核心要点

  1. 多任务策略搜索需要策略具备泛化能力,而传统课程学习设计耗时且依赖专家知识。
  2. 论文提出交互式LLM辅助的在线课程生成框架,LLM根据优化器的实时反馈自适应设计训练案例。
  3. 实验表明,结合进展图和行为可视化的多模态反馈,交互式课程生成性能可与专家设计课程媲美。

📝 摘要(中文)

多任务策略搜索是一个具有挑战性的问题,因为策略需要泛化到训练案例之外。课程学习已被证明在这种情况下是有效的,因为它逐步引入复杂性。然而,设计有效的课程是劳动密集型的,并且需要广泛的领域专业知识。基于LLM的课程生成最近才出现,但仅限于在静态、离线模式下运行,而没有利用来自优化器的实时反馈。本文提出了一个交互式LLM辅助的在线课程生成框架,其中LLM基于来自进化优化过程的实时反馈自适应地设计训练案例。研究了不同的反馈模式(从单独的数字指标到与绘图和行为可视化相结合)如何影响LLM生成有意义的课程的能力。通过一个二维机器人导航案例研究,使用遗传编程作为优化器,评估了该方法与静态LLM生成的课程和专家设计的基线相比的性能。结果表明,交互式课程生成优于静态方法,结合了进展图和行为可视化的多模态反馈产生了与专家设计的课程具有竞争力的性能。这项工作有助于理解LLM如何作为具身AI系统的交互式课程设计者,并有可能扩展到更广泛的进化机器人应用。

🔬 方法详解

问题定义:多任务策略搜索旨在寻找能够同时解决多个任务的策略。现有的课程学习方法在设计课程时,往往需要人工干预,依赖领域专家知识,并且难以根据优化过程的实时反馈进行调整,导致效率低下和泛化能力受限。

核心思路:利用大型语言模型(LLM)的强大生成能力和理解能力,使其能够根据优化器的实时反馈(例如性能指标、行为可视化等)动态地生成和调整训练课程。通过这种交互式的方式,LLM可以更好地理解优化过程中的难点和瓶颈,从而生成更有针对性的训练案例,提高策略的学习效率和泛化能力。

技术框架:该框架包含以下主要模块:1) 进化优化器(例如遗传编程),负责搜索最优策略;2) LLM课程生成器,负责根据优化器的反馈生成训练案例;3) 环境模拟器,负责模拟训练案例并评估策略的性能;4) 反馈机制,负责将优化器的性能指标、行为可视化等信息传递给LLM。整个流程是一个迭代过程,优化器不断搜索策略,LLM不断调整课程,最终找到能够有效解决多任务的策略。

关键创新:该方法的核心创新在于将LLM与进化优化器相结合,构建了一个交互式的课程学习框架。与传统的静态课程生成方法相比,该方法能够根据优化过程的实时反馈动态地调整课程,从而提高学习效率和泛化能力。此外,该方法还探索了不同的反馈模式(例如数字指标、行为可视化等)对LLM课程生成能力的影响。

关键设计:LLM采用提示工程(Prompt Engineering)来指导其生成课程。提示中包含了任务描述、优化器的性能指标、行为可视化等信息。LLM根据这些信息生成新的训练案例,并将其传递给环境模拟器进行评估。反馈机制的设计至关重要,需要选择合适的性能指标和可视化方法,以便LLM能够准确地理解优化过程中的难点和瓶颈。此外,还需要设计合适的奖励函数,以便引导优化器朝着期望的方向搜索策略。

📊 实验亮点

实验结果表明,交互式LLM辅助的课程生成方法优于静态LLM生成的课程,并且结合了进展图和行为可视化的多模态反馈,其性能可与专家设计的课程相媲美。这表明LLM可以有效地作为交互式课程设计者,为具身AI系统提供有效的训练策略。

🎯 应用场景

该研究成果可应用于各种具身智能系统,例如机器人导航、控制和操作等领域。通过利用LLM的强大能力,可以自动生成高效的训练课程,降低人工干预的成本,并提高系统的性能和鲁棒性。此外,该方法还可以扩展到更广泛的进化机器人应用,例如机器人设计和控制器的协同优化。

📄 摘要(原文)

Multi-task policy search is a challenging problem because policies are required to generalize beyond training cases. Curriculum learning has proven to be effective in this setting, as it introduces complexity progressively. However, designing effective curricula is labor-intensive and requires extensive domain expertise. LLM-based curriculum generation has only recently emerged as a potential solution, but was limited to operate in static, offline modes without leveraging real-time feedback from the optimizer. Here we propose an interactive LLM-assisted framework for online curriculum generation, where the LLM adaptively designs training cases based on real-time feedback from the evolutionary optimization process. We investigate how different feedback modalities, ranging from numeric metrics alone to combinations with plots and behavior visualizations, influence the LLM ability to generate meaningful curricula. Through a 2D robot navigation case study, tackled with genetic programming as optimizer, we evaluate our approach against static LLM-generated curricula and expert-designed baselines. We show that interactive curriculum generation outperforms static approaches, with multimodal feedback incorporating both progression plots and behavior visualizations yielding performance competitive with expert-designed curricula. This work contributes to understanding how LLMs can serve as interactive curriculum designers for embodied AI systems, with potential extensions to broader evolutionary robotics applications.