Enhancing Human-Likeness in Reinforcement Learning Agents via Hierarchical Macro Action Quantization
作者: Usman Nizamani, M. Shaheer Luqman, Fawad Javed Fateh, Ali Shah Ali, Murad Popattia, M. Zeeshan Zia, Quoc-Huy Tran
分类: cs.RO
发布日期: 2026-05-29
💡 一句话要点
提出层次化宏动作量化方法以增强强化学习代理的人类相似性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 人类相似性 宏动作量化 层次化方法 行为模拟
📋 核心要点
- 现有的强化学习代理往往表现出与人类行为的显著差异,限制了其可解释性和可靠性。
- 本文提出了一种层次化宏动作量化方法(HiMAQ),通过编码人类示范来生成更接近人类行为的动作序列。
- 在D4RL基准测试中,所提方法在人类相似性评分上优于非层次化基线,同时保持或提升了成功率。
📝 摘要(中文)
人类相似的代理是人工智能的长期目标。尽管现有的强化学习(RL)代理在性能上表现强劲,但大多数仍然以奖励驱动,行为往往与人类不同,限制了其可解释性和可靠性。本文提出了一种新的人类相似RL框架,通过层次化宏动作量化方法(HiMAQ)将人类示范编码为宏动作,最大化奖励。该方法通过两级向量量化,将输入动作映射到细粒度的子动作簇,并将这些子动作簇聚合为动作簇。广泛的评估结果表明,该层次化方法在D4RL基准测试中超越了非层次化基线(MAQ),在人类相似性评分上表现更佳,同时保持与之前RL代理相当或更好的成功率。改进效果在与多种RL算法(如IQL、SAC和RLPD)的整合中具有广泛的普适性。
🔬 方法详解
问题定义:本文旨在解决现有强化学习代理在行为上与人类的差异,导致可解释性和可靠性不足的问题。现有方法通常以奖励为驱动,缺乏对人类行为的有效模拟。
核心思路:提出的HiMAQ方法通过层次化的方式将人类示范转化为宏动作,旨在生成更符合人类行为的动作序列,同时最大化奖励。该方法通过两级向量量化实现对动作的精细化处理。
技术框架:HiMAQ方法包含两个主要阶段:第一阶段是低级量化,将输入动作映射到细粒度的子动作簇;第二阶段是高级量化,将这些子动作簇聚合为更高层次的动作簇。
关键创新:该方法的创新在于其层次化的宏动作量化策略,能够更好地捕捉人类行为的复杂性,与传统的单一层次量化方法相比,显著提升了人类相似性。
关键设计:在技术细节上,HiMAQ使用了特定的损失函数来优化动作的选择,并设计了适应性参数设置,以确保在不同RL算法(如IQL、SAC、RLPD)中的有效性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,HiMAQ方法在人类相似性评分上显著优于非层次化基线(MAQ),具体表现为在D4RL基准测试中获得了更高的评分,同时在成功率上与之前的RL代理持平或更优,展示了该方法的有效性和广泛适用性。
🎯 应用场景
该研究的潜在应用领域包括人机交互、自动驾驶、游戏AI等,能够提升智能代理的可解释性和可靠性,进而增强用户体验和信任度。未来,该方法可能在更广泛的AI系统中得到应用,推动人类相似代理的发展。
📄 摘要(原文)
Human-like agents are a long-standing goal of artificial intelligence. Despite strong performance, most reinforcement learning (RL) agents remain reward-driven and often exhibit behaviors that differ from humans, limiting interpretability and reliability. In this work, we introduce a novel human-like RL framework that predicts action sequences closely aligned with human behaviors while maximizing rewards. Specifically, we encode human demonstrations into macro actions using a hierarchical macro action quantization approach (termed HiMAQ) consisting of two successive levels of vector quantization. The lower quantization level maps input actions to fine-grained subaction clusters, while the higher quantization level aggregates these subaction clusters into action clusters. Extensive evaluations on the D4RL benchmarks show that our hierarchical approach outperforms the non-hierarchical baseline (MAQ), achieving better human-likeness scores while maintaining comparable or better success rates than previous RL agents. The improvements generalize across integrations with various RL algorithms, namely IQL, SAC, and RLPD.