GEM: Guided Expectation-Maximization for Behavior-Normalized Candidate Action Selection in Offline RL

作者: Haoyu Wang, Jingcheng Wang, Shunyu Wu, Xinwei Xiao

分类: cs.LG

发布日期: 2026-03-24

💡 一句话要点

GEM：离线强化学习中基于引导期望最大化的行为归一化候选动作选择

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 离线强化学习 高斯混合模型 期望最大化算法 行为归一化 多模态动作选择

📋 核心要点

离线强化学习面临挑战，即从固定数据集学习的策略可能选择数据支持不足的“中间”动作，导致决策脆弱。
GEM通过引导期望最大化（EM）算法训练高斯混合模型（GMM）Actor，显式建模多模态动作空间，并学习行为模型来量化动作支持。
GEM在D4RL基准测试中表现出色，并提供了一个可调节的候选动作数量参数，允许在推理时权衡计算成本和决策质量。

📝 摘要（中文）

离线强化学习能够从固定的数据集中拟合强大的价值函数，但可靠的部署仍然取决于用于查询价值函数的动作选择接口。当数据集产生分支或多模态动作空间时，单峰策略提取会模糊竞争假设，并产生数据支持薄弱的“中间”动作，即使使用强大的评论家也会使决策变得脆弱。我们引入了GEM（Guided Expectation-Maximization），这是一个分析框架，使动作选择既多模态又可显式控制。GEM通过评论家引导的、优势加权的EM风格更新来训练高斯混合模型（GMM）Actor，从而保留不同的组件，同时将概率质量转移到高价值区域，并学习易于处理的GMM行为模型来量化支持。在推理过程中，GEM执行基于候选的动作选择：它生成一个并行候选集，并使用保守的集成下置信界以及行为归一化支持来重新排序动作，其中行为对数似然在每个状态的候选集中进行标准化，以在状态和候选预算之间产生稳定、可比较的控制。在D4RL基准测试中，GEM具有竞争力，并提供了一个简单的推理时预算旋钮（候选计数），可以在不重新训练的情况下用计算换取决策质量。

🔬 方法详解

问题定义：离线强化学习中，从固定数据集学习到的策略容易选择数据集中支持度低的动作，尤其是在动作空间呈现多模态或分支结构时。传统的单峰策略提取方法会模糊不同的动作选择假设，导致策略在实际部署时表现不稳定，对环境变化敏感。

核心思路：GEM的核心思路是通过显式建模动作空间的多模态特性来解决上述问题。它使用高斯混合模型（GMM）来表示策略，每个高斯分量代表一种不同的行为模式。通过引导期望最大化（EM）算法，GEM能够将GMM的各个分量引导到高价值的动作区域，同时保留其多样性。此外，GEM还学习一个行为模型，用于评估每个候选动作在数据集中的支持度。

技术框架：GEM的整体框架包括以下几个主要模块：1) GMM Actor训练：使用评论家引导的、优势加权的EM算法更新GMM Actor的参数。2) 行为模型学习：学习一个GMM行为模型，用于估计每个动作在数据集中的对数似然。3) 候选动作选择：在推理时，生成一组候选动作，并使用保守的集成下置信界和行为归一化支持来重新排序这些动作。4) 动作执行：选择排序最高的动作执行。

关键创新：GEM的关键创新在于其将GMM与EM算法相结合，用于离线强化学习中的策略学习。与传统的单峰策略学习方法不同，GEM能够显式地建模动作空间的多模态特性，从而避免选择数据支持不足的“中间”动作。此外，GEM还引入了行为归一化支持的概念，用于评估每个候选动作在数据集中的支持度，从而提高策略的鲁棒性。

关键设计：GEM的关键设计包括：1) 优势加权的EM更新：使用评论家估计的优势函数来加权EM算法的更新，从而将GMM的各个分量引导到高价值的动作区域。2) 行为归一化支持：在每个状态的候选集中，对行为对数似然进行标准化，从而使得不同状态之间的动作选择具有可比性。3) 候选动作数量：GEM提供了一个可调节的候选动作数量参数，允许在推理时权衡计算成本和决策质量。

🖼️ 关键图片

📊 实验亮点

GEM在D4RL基准测试中表现出竞争力，证明了其有效性。更重要的是，GEM提供了一个简单的推理时预算旋钮（候选计数），允许用户在不重新训练模型的情况下，通过增加计算量来提高决策质量。这意味着用户可以根据实际需求，灵活地调整策略的性能和计算成本。

🎯 应用场景

GEM适用于需要从离线数据中学习复杂行为策略的机器人控制、自动驾驶、推荐系统等领域。例如，在机器人控制中，可以利用历史数据学习各种技能，并根据当前环境选择合适的技能执行。在自动驾驶中，可以学习不同驾驶风格，并根据路况和驾驶员偏好进行调整。GEM通过显式建模动作空间的多模态特性，能够提高策略的鲁棒性和泛化能力。

📄 摘要（原文）

Offline reinforcement learning (RL) can fit strong value functions from fixed datasets, yet reliable deployment still hinges on the action selection interface used to query them. When the dataset induces a branched or multimodal action landscape, unimodal policy extraction can blur competing hypotheses and yield "in-between" actions that are weakly supported by data, making decisions brittle even with a strong critic. We introduce GEM (Guided Expectation-Maximization), an analytical framework that makes action selection both multimodal and explicitly controllable. GEM trains a Gaussian Mixture Model (GMM) actor via critic-guided, advantage-weighted EM-style updates that preserve distinct components while shifting probability mass toward high-value regions, and learns a tractable GMM behavior model to quantify support. During inference, GEM performs candidate-based selection: it generates a parallel candidate set and reranks actions using a conservative ensemble lower-confidence bound together with behavior-normalized support, where the behavior log-likelihood is standardized within each state's candidate set to yield stable, comparable control across states and candidate budgets. Empirically, GEM is competitive across D4RL benchmarks, and offers a simple inference-time budget knob (candidate count) that trades compute for decision quality without retraining.

GEM: Guided Expectation-Maximization for Behavior-Normalized Candidate Action Selection in Offline RL

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理