Combining Trained Models in Reinforcement Learning

📄 arXiv: 2605.02159v1 📥 PDF

作者: Ujjwal Patil, Javad Ghofrani

分类: cs.LG, cs.AI, cs.NE

发布日期: 2026-05-04

备注: 6 pages, 2 figures, 3 tables; Literature Review, Hochschule Bonn-Rhein-Sieg


💡 一句话要点

对深度强化学习中预训练模型复用方法进行系统性综述,分析其有效性和局限性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 深度强化学习 迁移学习 知识蒸馏 集成学习 联邦学习 预训练模型 系统性综述

📋 核心要点

  1. 深度强化学习存在样本效率低和泛化能力弱的问题,需要有效利用已训练模型。
  2. 本文系统性地回顾了深度强化学习中预训练知识复用的实证研究,并进行了定性分析。
  3. 研究发现源-目标任务相似性、模型多样性和公平的计算资源对比是影响结果的关键因素。

📝 摘要(中文)

深度强化学习(DRL)在Atari和Go等领域取得了显著成果,但仍然面临样本效率低和泛化能力弱的问题。一种常见的解决方案是复用先前训练的模型中的信息,通过迁移学习、知识蒸馏、集成方法或联邦学习等方式,而不是从随机初始化开始学习每个目标任务。然而,关于这些机制的研究分散,且已发表的比较结果难以解释,因为任务、基线和计算预算各不相同。本文对DRL中预训练知识复用的实证研究进行了PRISMA指导的系统性综述。从IEEE Xplore、ACM Digital Library和引文追踪中检索到的589条记录开始,我们筛选了570条唯一记录,并评估了89篇全文。在应用最终的纳入标准后,最终合成了15项实证研究。我们从三个因素对其进行了定性分析:源任务-目标任务相似性、重用模型之间的多样性以及与从头开始训练的基线相比的公平性。本文贡献了一个范围更窄且内部一致的综述范围、一项研究层面的实证证据综合,以及一个临时的独立性谱,该谱应被视为未来基准测试的假设,而不是经过验证的指标。

🔬 方法详解

问题定义:深度强化学习在复杂任务中表现出色,但训练过程需要大量样本,且模型泛化能力有限。现有方法尝试通过迁移学习、知识蒸馏等方式复用已训练模型,但缺乏系统性的研究和比较,导致结果难以解释和复用。现有研究在任务设置、基线选择和计算资源等方面存在差异,难以评估各种方法的真实效果。

核心思路:本文旨在通过系统性的文献综述,分析深度强化学习中预训练模型复用的有效性和局限性。通过严格的筛选标准,选择高质量的实证研究,并从源-目标任务相似性、模型多样性和计算资源公平性三个维度进行定性分析,从而揭示各种方法的适用场景和潜在问题。

技术框架:本文采用PRISMA指南进行系统性综述。首先,从多个数据库检索相关文献;然后,根据预设的纳入和排除标准筛选文献;接着,对筛选出的文献进行全文评估;最后,对符合条件的文献进行定性分析,并总结出关键模式和结论。分析框架主要关注三个因素:源-目标任务的相似性、重用模型之间的多样性,以及与从头开始训练的基线相比的计算资源公平性。

关键创新:本文的创新之处在于其系统性和严谨性。通过PRISMA指南,确保了文献综述的全面性和可重复性。通过对源-目标任务相似性、模型多样性和计算资源公平性三个关键因素的分析,揭示了现有方法的局限性和潜在改进方向。提出了一个临时的独立性谱,用于衡量不同方法之间的差异,为未来的基准测试提供参考。

关键设计:本文的关键设计在于其严格的文献筛选标准和定性分析框架。文献筛选标准包括研究的实证性、深度强化学习的应用、预训练知识的复用等。定性分析框架包括源-目标任务的相似性(例如,任务类型、状态空间、动作空间)、重用模型之间的多样性(例如,模型架构、训练数据)、以及与从头开始训练的基线相比的计算资源公平性(例如,训练时间、GPU数量)。

📊 实验亮点

研究发现,当源任务和目标任务具有高度相似性,或者方法包含显式的门控或对齐机制时,预训练知识复用能取得较好的效果。集成方法和联邦学习在特定场景下表现出潜力,但相关研究较少。此外,计算资源匹配的对比实验非常罕见,这削弱了关于效率提升的结论。

🎯 应用场景

该研究成果可应用于机器人控制、游戏AI、自动驾驶等领域,帮助研究人员和工程师更有效地利用已有的深度强化学习模型,降低训练成本,提高模型泛化能力。通过理解不同方法在不同场景下的适用性,可以更好地选择和组合预训练模型,从而加速新任务的学习。

📄 摘要(原文)

Deep reinforcement learning (DRL) has delivered strong results in domains such as Atari and Go, but it still suffers from high sample cost and weak transfer beyond the training setting. A common response is to reuse information from previously trained models through transfer, distillation, ensemble methods, or federated training instead of learning each target task from random initialization. The literature on these mechanisms is fragmented, and published comparisons are hard to interpret because tasks, baselines, and compute budgets differ. This paper presents a PRISMA-guided systematic review of empirical studies on pretrained knowledge reuse in DRL. Starting from 589 records retrieved from IEEE Xplore, the ACM Digital Library, and citation tracing, we screened 570 unique records and assessed 89 full texts. After applying the final eligibility criteria, 15 empirical studies remained in the main synthesis. We analyzed them qualitatively across three factors: source-target similarity, diversity among reused models, and the fairness of comparisons against from-scratch baselines. Three patterns recur across the surviving corpus. First, positive results are concentrated in settings where source and target tasks share substantial structure or where the method includes an explicit gating or alignment mechanism. Second, evidence for ensembles and federated aggregation is promising but sparse and mostly limited to narrow settings. Third, compute-matched comparisons are rare, which weakens claims about efficiency gains over stronger single-agent baselines. The paper contributes a narrower and internally consistent review scope, a study-level synthesis of empirical evidence, and a provisional independence spectrum that should be treated as a hypothesis for future benchmarking rather than a validated metric.