From Kicking to Causality: Simulating Infant Agency Detection with a Robust Intrinsic Reward
作者: Xia Xu, Jochen Triesch
分类: cs.AI, cs.RO
发布日期: 2025-07-20
备注: 13 pages, 5 figures
💡 一句话要点
提出基于因果推理的内在奖励CAIS,解决婴儿能动性模拟中传统强化学习的脆弱性问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 因果推理 内在奖励 强化学习 能动性检测 婴儿认知 自主系统 Wasserstein距离
📋 核心要点
- 传统强化学习智能体在模拟婴儿能动性时,易受环境噪声干扰,无法有效发现自身因果效力。
- 论文提出CAIS,通过计算动作对感觉结果分布的影响,提供鲁棒的内在奖励,隔离环境噪声。
- 实验表明,CAIS使智能体在含噪声环境中成功学习策略,并能重现“消退爆发”现象。
📝 摘要(中文)
本文提出了一种基于因果推理的新型内在奖励——因果行为影响评分(CAIS),旨在解决标准强化学习智能体在模拟婴儿能动性检测时,因依赖基于相关的奖励而表现出的脆弱性问题。CAIS通过测量在给定动作条件下感觉结果的分布p(h|a)与基线结果分布p(h)之间的1-Wasserstein距离,来量化动作的影响。这种差异提供了一种鲁棒的奖励,能够将智能体的因果影响从混淆的环境噪声中分离出来。在模拟的婴儿-移动环境测试中,当移动物体受到外力时,基于相关的感知奖励完全失效,而CAIS能够过滤噪声,识别智能体的影响,并学习正确的策略。此外,CAIS学习的高质量预测模型,在加入惊奇信号后,成功地重现了“消退爆发”现象。结论是,显式地推断因果关系是发展鲁棒能动性意识的关键机制,为更具适应性的自主系统提供了一个心理学上合理的框架。
🔬 方法详解
问题定义:现有基于相关性的强化学习方法在模拟婴儿能动性检测时,容易受到环境噪声的干扰,导致智能体无法准确识别自身行为对环境的影响,从而难以学习有效的策略。这种方法的痛点在于,它无法区分智能体自身行为产生的因果效应和环境中的随机噪声。
核心思路:论文的核心思路是利用因果推理来设计内在奖励。通过显式地估计智能体行为对环境状态分布的影响,而不是简单地基于观察到的相关性进行奖励,从而使智能体能够区分自身行为的因果效应和环境噪声。CAIS通过计算条件概率分布p(h|a)和基线分布p(h)之间的差异来衡量行为的影响。
技术框架:整体框架包括一个强化学习智能体和一个环境模拟器。智能体通过执行动作与环境交互,并接收CAIS作为内在奖励。CAIS的计算依赖于一个预测模型,该模型用于估计在给定动作条件下环境状态的分布p(h|a)。智能体使用强化学习算法(例如,Q-learning或策略梯度方法)来优化其策略,以最大化累积的CAIS奖励。
关键创新:最重要的技术创新点是CAIS内在奖励的提出。与传统的基于相关性的奖励不同,CAIS直接量化了智能体行为对环境状态分布的因果影响。这种方法能够有效地过滤环境噪声,使智能体能够更准确地识别自身行为的因果效应。CAIS使用1-Wasserstein距离来衡量分布之间的差异,这是一种对噪声具有鲁棒性的距离度量。
关键设计:CAIS的关键设计在于使用1-Wasserstein距离来计算p(h|a)和p(h)之间的差异。1-Wasserstein距离,也称为Earth Mover's Distance (EMD),衡量了将一个分布转换为另一个分布所需的最小“工作量”。这种距离度量对噪声具有鲁棒性,因为它考虑了整个分布的形状,而不仅仅是单个样本点。预测模型可以使用神经网络来学习,损失函数可以是均方误差或交叉熵损失,具体取决于环境状态的表示形式。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在模拟的婴儿-移动环境中,当移动物体受到外力干扰时,传统的基于相关性的感知奖励完全失效,而使用CAIS作为内在奖励的智能体能够成功学习正确的策略。此外,该智能体在加入惊奇信号后,能够重现“消退爆发”现象,这进一步验证了CAIS的有效性和心理学合理性。具体性能数据未知。
🎯 应用场景
该研究成果可应用于开发更鲁棒、更具适应性的自主系统,例如机器人、自动驾驶汽车等。通过引入因果推理机制,这些系统能够更好地理解自身行为对环境的影响,从而在复杂、噪声环境中做出更明智的决策。此外,该研究也为理解婴儿的认知发展提供了一个计算模型。
📄 摘要(原文)
While human infants robustly discover their own causal efficacy, standard reinforcement learning agents remain brittle, as their reliance on correlation-based rewards fails in noisy, ecologically valid scenarios. To address this, we introduce the Causal Action Influence Score (CAIS), a novel intrinsic reward rooted in causal inference. CAIS quantifies an action's influence by measuring the 1-Wasserstein distance between the learned distribution of sensory outcomes conditional on that action, $p(h|a)$, and the baseline outcome distribution, $p(h)$. This divergence provides a robust reward that isolates the agent's causal impact from confounding environmental noise. We test our approach in a simulated infant-mobile environment where correlation-based perceptual rewards fail completely when the mobile is subjected to external forces. In stark contrast, CAIS enables the agent to filter this noise, identify its influence, and learn the correct policy. Furthermore, the high-quality predictive model learned for CAIS allows our agent, when augmented with a surprise signal, to successfully reproduce the "extinction burst" phenomenon. We conclude that explicitly inferring causality is a crucial mechanism for developing a robust sense of agency, offering a psychologically plausible framework for more adaptive autonomous systems.