GEM: Guided Expectation-Maximization for Behavior-Normalized Candidate Action Selection in Offline RL

📄 arXiv: 2603.23232v1 📥 PDF

作者: Haoyu Wang, Jingcheng Wang, Shunyu Wu, Xinwei Xiao

分类: cs.LG

发布日期: 2026-03-24


💡 一句话要点

GEM:离线强化学习中基于引导期望最大化的行为归一化候选动作选择

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 离线强化学习 高斯混合模型 期望最大化算法 行为归一化 多模态动作选择

📋 核心要点

  1. 离线强化学习面临挑战,即从固定数据集学习的策略可能选择数据支持不足的“中间”动作,导致决策脆弱。
  2. GEM通过引导期望最大化(EM)算法训练高斯混合模型(GMM)Actor,显式建模多模态动作空间,并学习行为模型来量化动作支持。
  3. GEM在D4RL基准测试中表现出色,并提供了一个可调节的候选动作数量参数,允许在推理时权衡计算成本和决策质量。

📝 摘要(中文)

离线强化学习能够从固定的数据集中拟合强大的价值函数,但可靠的部署仍然取决于用于查询价值函数的动作选择接口。当数据集产生分支或多模态动作空间时,单峰策略提取会模糊竞争假设,并产生数据支持薄弱的“中间”动作,即使使用强大的评论家也会使决策变得脆弱。我们引入了GEM(Guided Expectation-Maximization),这是一个分析框架,使动作选择既多模态又可显式控制。GEM通过评论家引导的、优势加权的EM风格更新来训练高斯混合模型(GMM)Actor,从而保留不同的组件,同时将概率质量转移到高价值区域,并学习易于处理的GMM行为模型来量化支持。在推理过程中,GEM执行基于候选的动作选择:它生成一个并行候选集,并使用保守的集成下置信界以及行为归一化支持来重新排序动作,其中行为对数似然在每个状态的候选集中进行标准化,以在状态和候选预算之间产生稳定、可比较的控制。在D4RL基准测试中,GEM具有竞争力,并提供了一个简单的推理时预算旋钮(候选计数),可以在不重新训练的情况下用计算换取决策质量。

🔬 方法详解

问题定义:离线强化学习中,从固定数据集学习到的策略容易选择数据集中支持度低的动作,尤其是在动作空间呈现多模态或分支结构时。传统的单峰策略提取方法会模糊不同的动作选择假设,导致策略在实际部署时表现不稳定,对环境变化敏感。

核心思路:GEM的核心思路是通过显式建模动作空间的多模态特性来解决上述问题。它使用高斯混合模型(GMM)来表示策略,每个高斯分量代表一种不同的行为模式。通过引导期望最大化(EM)算法,GEM能够将GMM的各个分量引导到高价值的动作区域,同时保留其多样性。此外,GEM还学习一个行为模型,用于评估每个候选动作在数据集中的支持度。

技术框架:GEM的整体框架包括以下几个主要模块:1) GMM Actor训练:使用评论家引导的、优势加权的EM算法更新GMM Actor的参数。2) 行为模型学习:学习一个GMM行为模型,用于估计每个动作在数据集中的对数似然。3) 候选动作选择:在推理时,生成一组候选动作,并使用保守的集成下置信界和行为归一化支持来重新排序这些动作。4) 动作执行:选择排序最高的动作执行。

关键创新:GEM的关键创新在于其将GMM与EM算法相结合,用于离线强化学习中的策略学习。与传统的单峰策略学习方法不同,GEM能够显式地建模动作空间的多模态特性,从而避免选择数据支持不足的“中间”动作。此外,GEM还引入了行为归一化支持的概念,用于评估每个候选动作在数据集中的支持度,从而提高策略的鲁棒性。

关键设计:GEM的关键设计包括:1) 优势加权的EM更新:使用评论家估计的优势函数来加权EM算法的更新,从而将GMM的各个分量引导到高价值的动作区域。2) 行为归一化支持:在每个状态的候选集中,对行为对数似然进行标准化,从而使得不同状态之间的动作选择具有可比性。3) 候选动作数量:GEM提供了一个可调节的候选动作数量参数,允许在推理时权衡计算成本和决策质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GEM在D4RL基准测试中表现出竞争力,证明了其有效性。更重要的是,GEM提供了一个简单的推理时预算旋钮(候选计数),允许用户在不重新训练模型的情况下,通过增加计算量来提高决策质量。这意味着用户可以根据实际需求,灵活地调整策略的性能和计算成本。

🎯 应用场景

GEM适用于需要从离线数据中学习复杂行为策略的机器人控制、自动驾驶、推荐系统等领域。例如,在机器人控制中,可以利用历史数据学习各种技能,并根据当前环境选择合适的技能执行。在自动驾驶中,可以学习不同驾驶风格,并根据路况和驾驶员偏好进行调整。GEM通过显式建模动作空间的多模态特性,能够提高策略的鲁棒性和泛化能力。

📄 摘要(原文)

Offline reinforcement learning (RL) can fit strong value functions from fixed datasets, yet reliable deployment still hinges on the action selection interface used to query them. When the dataset induces a branched or multimodal action landscape, unimodal policy extraction can blur competing hypotheses and yield "in-between" actions that are weakly supported by data, making decisions brittle even with a strong critic. We introduce GEM (Guided Expectation-Maximization), an analytical framework that makes action selection both multimodal and explicitly controllable. GEM trains a Gaussian Mixture Model (GMM) actor via critic-guided, advantage-weighted EM-style updates that preserve distinct components while shifting probability mass toward high-value regions, and learns a tractable GMM behavior model to quantify support. During inference, GEM performs candidate-based selection: it generates a parallel candidate set and reranks actions using a conservative ensemble lower-confidence bound together with behavior-normalized support, where the behavior log-likelihood is standardized within each state's candidate set to yield stable, comparable control across states and candidate budgets. Empirically, GEM is competitive across D4RL benchmarks, and offers a simple inference-time budget knob (candidate count) that trades compute for decision quality without retraining.