Enhancing Human-Likeness in Reinforcement Learning Agents via Hierarchical Macro Action Quantization

作者: Usman Nizamani, M. Shaheer Luqman, Fawad Javed Fateh, Ali Shah Ali, Murad Popattia, M. Zeeshan Zia, Quoc-Huy Tran

分类: cs.RO

发布日期: 2026-05-29

💡 一句话要点

提出层次化宏动作量化方法以增强强化学习代理的人类相似性

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 强化学习 人类相似性 宏动作量化 层次化方法 行为模拟

📋 核心要点

现有的强化学习代理往往表现出与人类行为的显著差异，限制了其可解释性和可靠性。
本文提出了一种层次化宏动作量化方法（HiMAQ），通过编码人类示范来生成更接近人类行为的动作序列。
在D4RL基准测试中，所提方法在人类相似性评分上优于非层次化基线，同时保持或提升了成功率。

📝 摘要（中文）

人类相似的代理是人工智能的长期目标。尽管现有的强化学习（RL）代理在性能上表现强劲，但大多数仍然以奖励驱动，行为往往与人类不同，限制了其可解释性和可靠性。本文提出了一种新的人类相似RL框架，通过层次化宏动作量化方法（HiMAQ）将人类示范编码为宏动作，最大化奖励。该方法通过两级向量量化，将输入动作映射到细粒度的子动作簇，并将这些子动作簇聚合为动作簇。广泛的评估结果表明，该层次化方法在D4RL基准测试中超越了非层次化基线（MAQ），在人类相似性评分上表现更佳，同时保持与之前RL代理相当或更好的成功率。改进效果在与多种RL算法（如IQL、SAC和RLPD）的整合中具有广泛的普适性。

🔬 方法详解

问题定义：本文旨在解决现有强化学习代理在行为上与人类的差异，导致可解释性和可靠性不足的问题。现有方法通常以奖励为驱动，缺乏对人类行为的有效模拟。

核心思路：提出的HiMAQ方法通过层次化的方式将人类示范转化为宏动作，旨在生成更符合人类行为的动作序列，同时最大化奖励。该方法通过两级向量量化实现对动作的精细化处理。

技术框架：HiMAQ方法包含两个主要阶段：第一阶段是低级量化，将输入动作映射到细粒度的子动作簇；第二阶段是高级量化，将这些子动作簇聚合为更高层次的动作簇。

关键创新：该方法的创新在于其层次化的宏动作量化策略，能够更好地捕捉人类行为的复杂性，与传统的单一层次量化方法相比，显著提升了人类相似性。

关键设计：在技术细节上，HiMAQ使用了特定的损失函数来优化动作的选择，并设计了适应性参数设置，以确保在不同RL算法（如IQL、SAC、RLPD）中的有效性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，HiMAQ方法在人类相似性评分上显著优于非层次化基线（MAQ），具体表现为在D4RL基准测试中获得了更高的评分，同时在成功率上与之前的RL代理持平或更优，展示了该方法的有效性和广泛适用性。

🎯 应用场景

该研究的潜在应用领域包括人机交互、自动驾驶、游戏AI等，能够提升智能代理的可解释性和可靠性，进而增强用户体验和信任度。未来，该方法可能在更广泛的AI系统中得到应用，推动人类相似代理的发展。

📄 摘要（原文）

Human-like agents are a long-standing goal of artificial intelligence. Despite strong performance, most reinforcement learning (RL) agents remain reward-driven and often exhibit behaviors that differ from humans, limiting interpretability and reliability. In this work, we introduce a novel human-like RL framework that predicts action sequences closely aligned with human behaviors while maximizing rewards. Specifically, we encode human demonstrations into macro actions using a hierarchical macro action quantization approach (termed HiMAQ) consisting of two successive levels of vector quantization. The lower quantization level maps input actions to fine-grained subaction clusters, while the higher quantization level aggregates these subaction clusters into action clusters. Extensive evaluations on the D4RL benchmarks show that our hierarchical approach outperforms the non-hierarchical baseline (MAQ), achieving better human-likeness scores while maintaining comparable or better success rates than previous RL agents. The improvements generalize across integrations with various RL algorithms, namely IQL, SAC, and RLPD.

Enhancing Human-Likeness in Reinforcement Learning Agents via Hierarchical Macro Action Quantization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理