Probabilistic Recurrent Intention Switching Model

📄 arXiv: 2605.26998v1 📥 PDF

作者: Wenyuan Sheng, Hao Zhu, Joschka Boedecker

分类: cs.LG, q-bio.NC

发布日期: 2026-05-26


💡 一句话要点

提出概率递归意图切换模型以解决逆强化学习中的目标切换问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 逆强化学习 意图切换 递归神经网络 动态建模 机器人操作 多意图学习

📋 核心要点

  1. 现有的逆强化学习方法假设静态奖励,无法有效捕捉目标切换,导致模型在动态环境中的表现不足。
  2. 本文提出PRISM模型,通过轻量级递归网络映射观察历史到每一步的意图分布,克服了传统方法的局限性。
  3. 实验结果表明,PRISM在多个任务中实现了最高的对数似然,成功恢复了时间一致的意图,展示了其在多意图学习中的有效性。

📝 摘要(中文)

逆强化学习(IRL)旨在从观察到的行为中恢复奖励函数,但传统方法假设单一的静态奖励,无法捕捉到在一个回合内的目标切换。近期的多意图IRL方法通过分段轨迹来解决这一问题,但将意图转变建模为无记忆的马尔可夫链或通过固定历史窗口进行手动状态增强。本文提出的概率递归意图切换模型(PRISM)用轻量级递归网络替代这两种机制,将观察历史映射到每一步的意图分布。我们证明了所得到的EM目标可以精确分解为独立的每个意图奖励子问题,每个子问题都可以封闭形式求解,从而实现$ ext{O}(nK)$的E步,无需变分近似。我们在非马尔可夫网格世界、小鼠迷宫和BridgeData~V2机器人操作上评估PRISM,后者是多意图IRL的首个大规模机器人应用。在所有设置中,PRISM实现了最高的保留对数似然,同时从未标记的演示中恢复出可命名的、时间一致的意图,表明离散目标切换在生物和人工智能体中均存在。

🔬 方法详解

问题定义:本文解决的是逆强化学习中无法捕捉动态目标切换的问题。现有方法往往假设静态奖励,导致无法适应复杂的行为模式。

核心思路:PRISM模型通过使用递归神经网络来动态映射观察历史,生成每一步的意图分布,从而有效捕捉目标切换。这样的设计使得模型能够处理非马尔可夫环境中的复杂行为。

技术框架:PRISM的整体架构包括观察历史输入、递归网络处理和意图分布输出三个主要模块。首先,观察历史被输入到递归网络中,网络通过时间步长处理历史信息,最终输出每一步的意图分布。

关键创新:PRISM的主要创新在于用递归网络替代传统的马尔可夫链和手动状态增强,使得意图切换的建模更加灵活和高效。与现有方法相比,PRISM能够在不依赖固定历史窗口的情况下,动态适应不同的意图切换。

关键设计:PRISM采用了轻量级的递归神经网络结构,损失函数设计为EM算法的分解形式,使得每个意图的奖励子问题可以独立求解,显著提高了计算效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,PRISM在非马尔可夫网格世界、小鼠迷宫和BridgeData~V2机器人操作中均实现了最高的保留对数似然,相较于基线方法,性能提升显著,表明其在多意图学习中的有效性和优势。

🎯 应用场景

该研究的潜在应用领域包括机器人导航、智能助手和人机交互等场景,能够有效识别和适应用户的动态意图。未来,PRISM模型可能在复杂环境中的自主决策和行为预测中发挥重要作用,提升人工智能系统的智能水平和适应能力。

📄 摘要(原文)

Inverse reinforcement learning (IRL) recovers reward functions from observed behavior, yet traditional methods assume a single stationary reward that cannot capture goal switching within an episode. Recent multi-intention IRL methods address this by segmenting trajectories, but model intention transitions as either a memoryless Markov chain or via manual state augmentation with a fixed history window. We propose the Probabilistic Recurrent Intention Switching Model (PRISM), which replaces both mechanisms with a lightweight recurrent network that maps observation history to a per-step intention distribution. We prove that the resulting EM objective decomposes exactly into independent per-intention reward subproblems, each solvable in closed form, yielding an $\mathcal{O}(nK)$ E-step with no variational approximation. We evaluate PRISM on a non-Markovian gridworld, a mouse labyrinth, and BridgeData~V2 robotic manipulation, the first large-scale robotic application of multi-intention IRL. Across all settings PRISM achieves the highest held-out log-likelihood while recovering nameable, temporally coherent intentions from unlabeled demonstrations, suggesting that discrete goal switching is present in both biological and artificial agents.