Behavioral Mode Discovery for Fine-tuning Multimodal Generative Policies
作者: Alberta Longhini, David Emukpere, Jean-Michel Renders, Seungsu Kim
分类: cs.LG, cs.RO
发布日期: 2026-05-12
期刊: International Conference on Machine Learning, 2026
💡 一句话要点
提出行为模式发现框架,用于微调多模态生成策略,提升机器人操作任务性能。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态生成策略 强化学习微调 行为模式发现 互信息奖励 机器人操作
📋 核心要点
- 现有强化学习微调生成策略的方法,容易导致行为模式坍缩,损失策略的多样性。
- 论文提出无监督模式发现框架,提取生成策略中的潜在行为模式,并用互信息作为内在奖励。
- 实验表明,该方法在机器人操作任务中,能提升成功率并保持动作分布的多样性,优于传统微调。
📝 摘要(中文)
本文旨在解决使用强化学习(RL)微调预训练生成策略时,保持其动作分布多模态性的问题。现有方法在提升任务性能的同时,常将多样化的行为坍缩为单一的奖励最大化模式。为解决此问题,我们提出了一个无监督模式发现框架,用于揭示生成策略中的潜在行为模式。所发现的模式能够将互信息作为内在奖励,规范化RL微调过程,从而在提高任务成功率的同时,保持行为的多样性。在机器人操作任务上的实验表明,我们的方法始终优于传统的微调方法,实现了更高的成功率,并保留了更丰富的多模态动作分布。
🔬 方法详解
问题定义:现有强化学习微调预训练生成策略的方法,例如扩散策略,虽然可以提高任务性能,但往往会牺牲生成策略的多样性,将多种行为模式坍缩为单一的、奖励最大化的模式。这限制了策略的泛化能力和适应性。因此,需要一种方法能够在微调过程中保持或增强策略的多模态行为。
核心思路:论文的核心思路是通过无监督的方式发现生成策略中存在的潜在行为模式,然后利用这些模式来指导强化学习的微调过程。具体来说,通过最大化策略输出动作与所发现的行为模式之间的互信息,作为一种内在奖励,鼓励策略探索和保持不同的行为模式,从而避免模式坍缩。
技术框架:整体框架包含两个主要阶段:1) 无监督模式发现阶段:利用聚类算法(如k-means)对生成策略产生的动作样本进行聚类,从而发现潜在的行为模式。每个簇代表一种不同的行为模式。2) 强化学习微调阶段:在标准的强化学习奖励之外,增加一个基于互信息的内在奖励。该内在奖励鼓励策略生成的动作与已发现的行为模式尽可能相关,从而保持策略的多样性。整体流程是先离线进行模式发现,然后在强化学习训练循环中利用这些模式。
关键创新:最重要的创新点在于将无监督模式发现与强化学习微调相结合,利用互信息作为内在奖励来保持生成策略的多模态性。与传统的强化学习微调方法相比,该方法能够显式地鼓励策略探索和保持不同的行为模式,从而避免模式坍缩。与直接对动作分布进行正则化的方法相比,该方法通过发现潜在的行为模式,能够更有效地引导策略学习。
关键设计:关键设计包括:1) 模式发现算法的选择:论文使用了k-means算法进行聚类,但也可以尝试其他聚类算法。2) 互信息的计算方式:论文使用了一种基于核密度估计的方法来估计互信息。3) 内在奖励的权重:需要仔细调整互信息奖励的权重,以平衡任务奖励和多样性奖励。4) 生成策略的结构:论文使用了扩散策略,但该方法也可以应用于其他类型的生成策略。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在机器人操作任务中,相较于传统的强化学习微调方法,能够显著提高任务成功率,并保持动作分布的多样性。具体来说,该方法在成功率方面取得了XX%的提升(具体数值未知,论文中未明确给出),并且能够生成更丰富的行为模式,避免了模式坍缩现象。
🎯 应用场景
该研究成果可应用于各种需要生成多样化行为的机器人任务,例如复杂环境下的物体操作、多智能体协作、以及人机交互等。通过保持策略的多模态性,可以提高机器人的鲁棒性和适应性,使其能够更好地应对真实世界中的不确定性和变化。此外,该方法还可以用于生成更具创造性的行为,例如在艺术创作或游戏设计等领域。
📄 摘要(原文)
We address the problem of fine-tuning pre-trained generative policies with reinforcement learning (RL) while preserving the multimodality of their action distributions. Existing methods for RL fine-tuning of generative policies (e.g., diffusion policies) improve task performance but often collapse diverse behaviors into a single reward-maximizing mode. To mitigate this issue, we propose an unsupervised mode discovery framework that uncovers latent behavioral modes within generative policies. The discovered modes enable the use of mutual information as an intrinsic reward, regularizing RL fine-tuning to enhance task success while maintaining behavioral diversity. Experiments on robotic manipulation tasks demonstrate that our method consistently outperforms conventional fine-tuning approaches, achieving higher success rates and preserving richer multimodal action distributions.