Information-theoretic analysis of world models in optimal reward maximizers

作者: Alfred Harwood, Jose Faustino, Alex Altair

分类: cs.AI

发布日期: 2026-02-13

备注: 28 pages, 0 figures. Not submitted to any conference yet

💡 一句话要点

量化最优策略所需的世界模型信息量下界，揭示智能行为的内在表征需求

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 信息论 世界模型 强化学习 最优策略 互信息

📋 核心要点

现有AI方法缺乏对智能行为所需内部世界表征信息量的精确量化。
论文通过信息论方法，建立了最优策略与环境之间的互信息下界。
证明了最优策略蕴含的环境信息量为n log m比特，适用于多种奖励目标。

📝 摘要（中文）

本文研究了成功行为在多大程度上需要对世界的内部表征。我们量化了一个最优策略提供的关于底层环境的信息量。考虑一个具有n个状态和m个动作的受控马尔可夫过程(CMP)，并假设在可能的转移动态空间上存在一个均匀先验。我们证明，观察到一个对于任何非恒定奖励函数都是最优的确定性策略，那么它传递了关于环境的精确的n log m比特的信息。具体来说，我们证明了环境和最优策略之间的互信息是n log m比特。这个界限适用于广泛的目标类别，包括有限视界、无限视界折扣和时间平均奖励最大化。这些发现为最优性所需的“隐式世界模型”提供了一个精确的信息论下界。

🔬 方法详解

问题定义：论文旨在量化智能体在最优行为下，需要对环境有多少了解，即需要多少关于环境的信息。现有方法缺乏对这种“隐式世界模型”的精确量化，难以理解智能行为的内在需求。

核心思路：论文的核心思路是利用信息论中的互信息概念，将智能体的最优策略视为一种对环境的观测，并计算这种观测所能提供的信息量。通过建立最优策略与环境之间的互信息下界，来量化智能体所需的世界模型信息量。

技术框架：论文的技术框架基于受控马尔可夫过程(CMP)，假设环境的转移动态服从均匀先验分布。智能体的目标是最大化累积奖励，策略的选择会受到环境转移动态的影响。论文通过计算环境和最优策略之间的互信息，来量化策略所蕴含的环境信息。

关键创新：论文的关键创新在于将信息论方法应用于量化智能行为所需的世界模型信息量。通过证明最优策略与环境之间的互信息下界为n log m比特，为理解智能行为的内在表征需求提供了一个精确的理论工具。

关键设计：论文的关键设计包括：1) 假设环境转移动态服从均匀先验分布；2) 考虑多种奖励目标，包括有限视界、无限视界折扣和时间平均奖励最大化；3) 利用互信息作为量化环境信息量的指标；4) 证明了互信息下界与状态空间大小n和动作空间大小m的关系。

📊 实验亮点

论文证明了对于任何非恒定奖励函数，最优确定性策略传递了关于环境的精确的n log m比特的信息。该结果适用于广泛的奖励目标，包括有限视界、无限视界折扣和时间平均奖励最大化，表明该下界具有普遍性。

🎯 应用场景

该研究成果可应用于强化学习算法设计，指导智能体学习更有效的世界模型，提升泛化能力和鲁棒性。同时，也有助于理解人类智能的内在机制，例如，人类在解决问题时需要多少关于环境的信息。

📄 摘要（原文）

An important question in the field of AI is the extent to which successful behaviour requires an internal representation of the world. In this work, we quantify the amount of information an optimal policy provides about the underlying environment. We consider a Controlled Markov Process (CMP) with $n$ states and $m$ actions, assuming a uniform prior over the space of possible transition dynamics. We prove that observing a deterministic policy that is optimal for any non-constant reward function then conveys exactly $n \log m$ bits of information about the environment. Specifically, we show that the mutual information between the environment and the optimal policy is $n \log m$ bits. This bound holds across a broad class of objectives, including finite-horizon, infinite-horizon discounted, and time-averaged reward maximization. These findings provide a precise information-theoretic lower bound on the "implicit world model'' necessary for optimality.

Information-theoretic analysis of world models in optimal reward maximizers

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理