Knowledge Transfer in Model-Based Reinforcement Learning Agents for Efficient Multi-Task Learning

📄 arXiv: 2501.05329v1 📥 PDF

作者: Dmytro Kuzmenko, Nadiya Shvai

分类: cs.LG, cs.RO

发布日期: 2025-01-09

备注: Preprint of an extended abstract accepted to AAMAS 2025

期刊: Proceedings of the 24th International Conference on Autonomous Agents and Multiagent Systems (AAMAS 2025), pp. 2597-2599, ACM, 2025


💡 一句话要点

提出一种基于知识蒸馏的模型强化学习方法,用于高效多任务学习。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 知识蒸馏 模型压缩 多任务学习 机器人 模型量化 世界模型

📋 核心要点

  1. 现有基于模型的强化学习方法在资源受限环境下部署大型世界模型时面临挑战。
  2. 通过知识蒸馏,将大型多任务智能体的知识迁移到小型模型,实现性能与效率的平衡。
  3. 实验表明,该方法在MT30基准测试中显著提升了小型模型的性能,并能通过量化进一步压缩模型。

📝 摘要(中文)

本文提出了一种高效的知识迁移方法,用于基于模型的强化学习,旨在解决在资源受限环境中部署大型世界模型的挑战。该方法将一个高容量多任务智能体(3.17亿参数)提炼成一个紧凑的100万参数模型,在MT30基准测试中取得了最先进的性能,归一化得分达到28.45,相比原始100万参数模型的得分18.93有了显著提升。这证明了该蒸馏技术能够有效地整合复杂的多任务知识。此外,应用FP16后训练量化,将模型大小减少了50%,同时保持了性能。该工作弥合了大型模型的强大功能与实际部署约束之间的差距,为机器人和其他资源受限领域中高效且可访问的多任务强化学习提供了一个可扩展的解决方案。

🔬 方法详解

问题定义:论文旨在解决在资源受限的环境中部署大型、计算成本高的基于模型的强化学习智能体的问题。现有方法通常需要大量的计算资源和内存,这限制了它们在机器人等实际应用中的部署。因此,如何在保持性能的同时,减小模型的尺寸和计算复杂度是一个关键挑战。

核心思路:论文的核心思路是利用知识蒸馏技术,将一个大型、高性能的多任务智能体(教师模型)的知识迁移到一个小型、低计算成本的模型(学生模型)。通过让学生模型学习教师模型的行为和预测,可以在保持性能的同时显著减小模型尺寸。

技术框架:整体框架包含两个主要阶段:首先,训练一个大型的多任务智能体作为教师模型。然后,使用知识蒸馏技术,训练一个小型智能体(学生模型)来模仿教师模型的行为。具体来说,学生模型学习预测教师模型的动作分布和值函数。最后,对学生模型进行后训练量化,进一步减小模型尺寸。

关键创新:该方法最重要的创新点在于有效地将知识蒸馏技术应用于基于模型的强化学习,并成功地将一个大型多任务智能体的知识迁移到一个小型模型,同时保持了最先进的性能。此外,结合后训练量化,进一步提高了模型的部署效率。

关键设计:教师模型是一个参数量为3.17亿的大型模型,学生模型是一个参数量为100万的小型模型。知识蒸馏过程中,使用KL散度损失函数来衡量学生模型和教师模型动作分布之间的差异。值函数的蒸馏也采用类似的损失函数。后训练量化采用FP16格式,在保持性能的同时将模型尺寸减少了50%。

🖼️ 关键图片

fig_0
img_1

📊 实验亮点

实验结果表明,通过知识蒸馏,100万参数的学生模型在MT30基准测试中取得了28.45的归一化得分,相比原始100万参数模型的18.93分有了显著提升。此外,FP16后训练量化将模型大小减少了50%,同时保持了性能。这些结果表明该方法能够有效地压缩模型并保持性能。

🎯 应用场景

该研究成果可广泛应用于机器人、自动驾驶、游戏AI等领域。通过将大型模型的知识迁移到小型模型,可以在资源受限的平台上部署高性能的强化学习智能体,从而实现更智能、更高效的控制和决策。该方法有助于推动强化学习技术在实际场景中的应用,并降低部署成本。

📄 摘要(原文)

We propose an efficient knowledge transfer approach for model-based reinforcement learning, addressing the challenge of deploying large world models in resource-constrained environments. Our method distills a high-capacity multi-task agent (317M parameters) into a compact 1M parameter model, achieving state-of-the-art performance on the MT30 benchmark with a normalized score of 28.45, a substantial improvement over the original 1M parameter model's score of 18.93. This demonstrates the ability of our distillation technique to consolidate complex multi-task knowledge effectively. Additionally, we apply FP16 post-training quantization, reducing the model size by 50% while maintaining performance. Our work bridges the gap between the power of large models and practical deployment constraints, offering a scalable solution for efficient and accessible multi-task reinforcement learning in robotics and other resource-limited domains.