Is there Value in Reinforcement Learning?

📄 arXiv: 2505.04822v1 📥 PDF

作者: Lior Fox, Yonatan Loewenstein

分类: cs.AI, cs.LG

发布日期: 2025-05-07

备注: Accepted to The 6th Multidisciplinary Conference on Reinforcement Learning and Decision Making (RLDM 2025)


💡 一句话要点

重新审视强化学习中的价值表征:算法视角下的模型复杂性分析

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 价值表征 策略梯度 建模假设 算法复杂性

📋 核心要点

  1. 现有强化学习模型对动作价值的显式表征存在争议,策略梯度方法被认为是潜在的替代方案。
  2. 论文指出策略梯度方法并非完全“无价值”,学习过程仍然依赖于价值表征,问题的根源在于对优化目标的潜在假设。
  3. 论文建议将辩论焦点转移到批判性评估建模假设上,并强调在放松标准假设时重新考虑价值概念的重要性。

📝 摘要(中文)

动作价值在流行的强化学习(RL)行为模型中起着核心作用。然而,动作价值是否被显式表示一直备受争议。因此,批评者多次建议,策略梯度(PG)模型应优于基于价值(VB)的模型,作为解决这一困境的潜在方案。本文认为这种解决方案并不令人满意。因为PG方法实际上并非“无价值”——虽然它们不依赖于价值的显式表示来进行动作(刺激-反应映射),但它们确实需要价值来进行学习。因此,仅仅切换到PG模型不足以从行为模型中消除价值。更广泛地说,对价值表征的需求源于标准RL框架对优化目标的潜在假设,而不是选择用于解决它的特定算法。之前的研究大多将这些标准RL假设视为理所当然,作为其概念化或问题建模的一部分,同时争论用于优化它的不同方法(即,PG或VB)。我们建议,辩论的重点应该转移到批判性地评估潜在的建模假设。从实验的角度来看,这种评估尤其重要。事实上,当标准假设(例如,风险中性、完全可观察性、马尔可夫环境、指数折扣)被放宽时,价值的概念必须重新考虑,这在自然环境中很可能发生。最后,我们使用价值辩论作为一个案例研究,以支持对认知科学中“模型”的更细致的算法而非统计的观点。我们的分析表明,除了“参数”统计复杂性之外,在评估模型复杂性时,还必须考虑诸如计算复杂性等其他方面。

🔬 方法详解

问题定义:论文旨在解决强化学习中价值表征的必要性问题。现有方法,特别是基于价值的方法,依赖于显式的价值函数,这在生物学上和计算上都存在争议。策略梯度方法被认为是避免显式价值表征的替代方案,但论文认为这种替代方案并不彻底。

核心思路:论文的核心思路是,价值表征的需求并非源于特定的算法(如基于价值或策略梯度),而是源于强化学习框架本身对优化目标的假设。即使使用策略梯度方法,学习过程仍然需要某种形式的价值评估。因此,问题的关键不在于选择哪种算法,而在于重新审视和批判性地评估强化学习框架的底层假设。

技术框架:论文并没有提出一个具体的算法框架,而是从理论层面分析了强化学习的建模假设。它强调了标准强化学习假设(如风险中性、完全可观察性、马尔可夫环境、指数折扣)在实际应用中的局限性,并建议在放松这些假设的情况下重新思考价值的概念。论文还提出了从算法而非统计的角度看待模型复杂性的观点,强调了计算复杂性在模型评估中的重要性。

关键创新:论文最重要的创新在于它将价值表征的辩论从算法层面提升到建模假设层面。它挑战了将策略梯度方法视为“无价值”的观点,并指出即使使用策略梯度方法,价值评估仍然是学习过程的必要组成部分。此外,论文还提出了从算法复杂性的角度评估模型复杂性的新思路。

关键设计:论文没有涉及具体的参数设置、损失函数或网络结构。它主要关注的是对强化学习框架的理论分析和建模假设的批判性评估。论文的核心在于概念上的创新,而非技术细节的改进。

🖼️ 关键图片

img_0

📊 实验亮点

论文的核心亮点在于对强化学习中价值表征的重新审视。它论证了策略梯度方法并非完全“无价值”,并强调了批判性评估建模假设的重要性。虽然论文没有提供具体的实验数据,但其理论分析为未来的研究方向提供了新的视角。

🎯 应用场景

该研究成果对认知科学和人工智能领域具有重要意义。它促使研究人员重新思考强化学习模型的构建方式,并更加关注底层建模假设的合理性。这有助于开发更具生物学合理性和适应性的智能系统,例如在复杂、非马尔可夫环境中进行决策的智能体。

📄 摘要(原文)

Action-values play a central role in popular Reinforcement Learing (RL) models of behavior. Yet, the idea that action-values are explicitly represented has been extensively debated. Critics had therefore repeatedly suggested that policy-gradient (PG) models should be favored over value-based (VB) ones, as a potential solution for this dilemma. Here we argue that this solution is unsatisfying. This is because PG methods are not, in fact, "Value-free" -- while they do not rely on an explicit representation of Value for acting (stimulus-response mapping), they do require it for learning. Hence, switching to PG models is, per se, insufficient for eliminating Value from models of behavior. More broadly, the requirement for a representation of Value stems from the underlying assumptions regarding the optimization objective posed by the standard RL framework, not from the particular algorithm chosen to solve it. Previous studies mostly took these standard RL assumptions for granted, as part of their conceptualization or problem modeling, while debating the different methods used to optimize it (i.e., PG or VB). We propose that, instead, the focus of the debate should shift to critically evaluating the underlying modeling assumptions. Such evaluation is particularly important from an experimental perspective. Indeed, the very notion of Value must be reconsidered when standard assumptions (e.g., risk neutrality, full-observability, Markovian environment, exponential discounting) are relaxed, as is likely in natural settings. Finally, we use the Value debate as a case study to argue in favor of a more nuanced, algorithmic rather than statistical, view of what constitutes "a model" in cognitive sciences. Our analysis suggests that besides "parametric" statistical complexity, additional aspects such as computational complexity must also be taken into account when evaluating model complexity.