AXIOM: Learning to Play Games in Minutes with Expanding Object-Centric Models
作者: Conor Heins, Toon Van de Maele, Alexander Tschantz, Hampus Linander, Dimitrije Markovic, Tommaso Salvatori, Corrado Pezzato, Ozan Catal, Ran Wei, Magnus Koudahl, Marco Perin, Karl Friston, Tim Verbelen, Christopher Buckley
分类: cs.AI, cs.LG, stat.ML
发布日期: 2025-05-30
备注: 10 pages main text, 4 figures, 2 tables; 25 pages supplementary material, 8 figures
💡 一句话要点
AXIOM:通过扩展的以对象为中心的模型,在几分钟内学会玩游戏
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 主动推理 对象中心表示 强化学习 贝叶斯模型简化 数据效率 游戏AI 世界模型
📋 核心要点
- 深度强化学习在数据效率上不如人类,人类能利用对象及其交互的先验知识。
- AXIOM结合主动推理和对象中心表示,利用核心先验知识加速学习,提高数据效率。
- AXIOM在少量交互步骤内掌握多种游戏,参数少,无需梯度优化,泛化能力强。
📝 摘要(中文)
现有的深度强化学习(DRL)方法在各个领域都取得了最先进的性能,但与人类学习相比,其数据效率较低,人类学习利用了关于对象及其交互的核心先验知识。主动推理提供了一个原则性框架,用于将感觉信息与先验知识相结合,以学习世界模型并量化其自身信念和预测的不确定性。然而,主动推理模型通常是为具有定制知识的单个任务而设计的,因此它们缺乏DRL方法典型的领域灵活性。为了弥合这一差距,我们提出了一种新颖的架构,该架构集成了关于以对象为中心的动力学和交互的最小但富有表现力的核心先验知识,以加速低数据环境中的学习。由此产生的方法,我们称之为AXIOM,将贝叶斯方法通常的数据效率和可解释性与通常与DRL相关的跨任务泛化相结合。AXIOM将场景表示为对象的组合,其动力学被建模为分段线性轨迹,以捕获稀疏的对象-对象交互。生成模型的结构通过从单个事件中增长和学习混合模型在线扩展,并通过贝叶斯模型简化定期细化,以诱导泛化。AXIOM仅在10,000个交互步骤内就掌握了各种游戏,与DRL相比,参数数量更少,并且没有基于梯度的优化的计算开销。
🔬 方法详解
问题定义:现有深度强化学习方法虽然在许多领域表现出色,但在数据效率方面不如人类。人类能够利用关于对象及其交互的先验知识快速学习,而深度强化学习通常需要大量数据进行训练。此外,主动推理模型虽然具有良好的数据效率和可解释性,但通常是为特定任务定制的,缺乏跨任务的泛化能力。
核心思路:AXIOM的核心思路是将主动推理的优势与深度强化学习的泛化能力相结合。它通过引入关于对象及其交互的核心先验知识,并采用以对象为中心的表示方法,来提高数据效率和泛化能力。AXIOM通过在线扩展和简化生成模型,使其能够适应不同的任务和环境。
技术框架:AXIOM的整体架构包括以下几个主要模块:1) 对象检测与表示:将场景表示为对象的组合,每个对象具有自己的状态和属性。2) 动力学建模:使用分段线性轨迹对对象的动力学进行建模,捕捉对象之间的稀疏交互。3) 模型扩展与简化:通过从单个事件中学习混合模型来在线扩展生成模型,并通过贝叶斯模型简化来定期细化模型。4) 主动推理:利用主动推理框架,根据当前信念和预测选择行动。
关键创新:AXIOM最重要的技术创新点在于其结合了主动推理和以对象为中心的表示方法,并能够在线扩展和简化生成模型。与传统的深度强化学习方法相比,AXIOM能够更有效地利用数据,并具有更强的泛化能力。与传统的主动推理模型相比,AXIOM具有更强的领域灵活性。
关键设计:AXIOM的关键设计包括:1) 使用分段线性轨迹对对象动力学进行建模,以简化学习过程。2) 采用贝叶斯模型简化来防止过拟合,并提高泛化能力。3) 使用混合模型来表示对象之间的交互,以捕捉复杂的关系。4) 采用主动推理框架来选择行动,以最大化信息增益。
🖼️ 关键图片
📊 实验亮点
AXIOM在多个游戏环境中进行了测试,结果表明,它仅需10,000个交互步骤即可掌握这些游戏,而传统的深度强化学习方法通常需要数百万个步骤。此外,AXIOM的参数数量远少于深度强化学习模型,并且无需基于梯度的优化,从而降低了计算成本。实验结果表明,AXIOM在数据效率、泛化能力和计算效率方面均优于现有方法。
🎯 应用场景
AXIOM具有广泛的应用前景,例如在机器人控制、游戏AI、自动驾驶等领域。它可以用于训练机器人在低数据环境下快速学习新的技能,并具有良好的泛化能力。此外,AXIOM的可解释性使其能够用于理解和调试机器人的行为,从而提高系统的可靠性和安全性。该研究的未来影响在于推动人工智能向更高效、更智能的方向发展。
📄 摘要(原文)
Current deep reinforcement learning (DRL) approaches achieve state-of-the-art performance in various domains, but struggle with data efficiency compared to human learning, which leverages core priors about objects and their interactions. Active inference offers a principled framework for integrating sensory information with prior knowledge to learn a world model and quantify the uncertainty of its own beliefs and predictions. However, active inference models are usually crafted for a single task with bespoke knowledge, so they lack the domain flexibility typical of DRL approaches. To bridge this gap, we propose a novel architecture that integrates a minimal yet expressive set of core priors about object-centric dynamics and interactions to accelerate learning in low-data regimes. The resulting approach, which we call AXIOM, combines the usual data efficiency and interpretability of Bayesian approaches with the across-task generalization usually associated with DRL. AXIOM represents scenes as compositions of objects, whose dynamics are modeled as piecewise linear trajectories that capture sparse object-object interactions. The structure of the generative model is expanded online by growing and learning mixture models from single events and periodically refined through Bayesian model reduction to induce generalization. AXIOM masters various games within only 10,000 interaction steps, with both a small number of parameters compared to DRL, and without the computational expense of gradient-based optimization.