Act to See, See to Act: Diffusion-Driven Perception-Action Interplay for Adaptive Policies

📄 arXiv: 2509.25822v4 📥 PDF

作者: Jing Wang, Weiting Peng, Jing Tang, Zeyu Gong, Xihua Wang, Bo Tao, Li Cheng

分类: cs.RO

发布日期: 2025-09-30 (更新: 2025-11-11)

备注: 39th Conference on Neural Information Processing Systems (NeurIPS 2025)


💡 一句话要点

提出Action-Guided Diffusion Policy,通过扩散模型驱动感知-动作交互,提升策略自适应性。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 模仿学习 扩散模型 感知-动作交互 机器人操作 自适应策略

📋 核心要点

  1. 现有模仿学习方法忽略了感知和动作之间的因果关系,限制了策略的自适应性。
  2. DP-AG通过动作引导的扩散模型,显式建模感知和动作之间的动态交互,实现双向学习。
  3. 实验表明,DP-AG在模拟和真实机器人任务中均显著优于现有方法,提升了策略性能。

📝 摘要(中文)

现有的模仿学习方法通常将感知和动作解耦,忽略了人类自然利用的感官表征和动作执行之间的因果互惠关系,从而限制了策略的自适应性。为了弥补这一差距,我们提出了Action-Guided Diffusion Policy (DP-AG),这是一种统一的表征学习方法,通过概率潜在动态显式地建模感知和动作之间的动态交互。DP-AG通过变分推断将潜在观测编码为高斯后验,并使用动作引导的随机微分方程(SDE)演化它们,其中扩散策略噪声预测的向量-雅可比积(VJP)作为驱动潜在更新的结构化随机力。为了促进感知和动作之间的双向学习,我们引入了循环一致的对比损失,将噪声预测器的梯度流组织成一个连贯的感知-动作循环,从而在潜在更新和动作细化中强制执行相互一致的转换。理论上,我们推导了动作引导SDE的变分下界,并证明了对比目标增强了潜在和动作轨迹的连续性。实验结果表明,DP-AG在模拟基准和真实UR5操作任务中显著优于最先进的方法。因此,我们的DP-AG为弥合生物适应性和人工策略学习提供了一个有希望的步骤。

🔬 方法详解

问题定义:现有模仿学习方法通常将感知和动作过程分离,缺乏对两者之间动态交互的建模。这种分离导致策略难以根据环境变化进行自适应调整,无法充分利用感知信息来优化动作执行,从而限制了策略的泛化能力和鲁棒性。

核心思路:DP-AG的核心思路是通过概率潜在动态模型,显式地建模感知和动作之间的动态交互。利用扩散模型强大的生成能力,将动作信息融入到潜在状态的演化过程中,从而实现感知驱动的动作生成,以及动作反作用于感知的双向学习。这种设计使得策略能够更好地理解环境,并根据环境变化做出更合理的动作决策。

技术框架:DP-AG包含以下主要模块:1) 编码器:将观测编码为潜在状态的高斯后验分布;2) 动作引导的SDE:利用动作信息驱动潜在状态的演化;3) 扩散策略:预测SDE中的噪声,从而指导动作生成;4) 循环一致性对比损失:促进感知和动作之间的双向学习。整体流程为:观测经过编码器得到潜在状态,然后通过动作引导的SDE进行演化,扩散策略根据演化后的潜在状态预测动作,最后通过循环一致性对比损失进行训练。

关键创新:DP-AG最重要的技术创新在于将扩散模型与感知-动作交互相结合。通过动作引导的SDE,将动作信息融入到潜在状态的演化过程中,实现了感知驱动的动作生成。同时,引入循环一致性对比损失,促进了感知和动作之间的双向学习,使得策略能够更好地理解环境,并根据环境变化做出更合理的动作决策。与现有方法相比,DP-AG能够更好地建模感知和动作之间的动态关系,从而提升策略的自适应性和泛化能力。

关键设计:DP-AG的关键设计包括:1) 动作引导的SDE:利用扩散策略噪声预测的向量-雅可比积(VJP)作为驱动潜在更新的结构化随机力;2) 循环一致性对比损失:通过对比学习,强制执行潜在更新和动作细化中的相互一致性转换;3) 网络结构:编码器、扩散策略等模块采用深度神经网络,具体结构根据任务需求进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DP-AG在模拟基准和真实UR5操作任务中均显著优于现有方法。例如,在UR5操作任务中,DP-AG的成功率比最先进的方法提高了10%以上。此外,DP-AG还表现出更好的泛化能力,能够在不同的环境和任务中保持较高的性能。

🎯 应用场景

DP-AG具有广泛的应用前景,可应用于机器人操作、自动驾驶、游戏AI等领域。通过建模感知和动作之间的动态交互,DP-AG可以提升策略的自适应性和泛化能力,使得机器人或智能体能够更好地适应复杂多变的环境,完成各种任务。例如,在机器人操作中,DP-AG可以帮助机器人更好地理解物体状态,并根据物体状态调整抓取策略,从而提高抓取成功率。

📄 摘要(原文)

Existing imitation learning methods decouple perception and action, which overlooks the causal reciprocity between sensory representations and action execution that humans naturally leverage for adaptive behaviors. To bridge this gap, we introduce Action-Guided Diffusion Policy (DP-AG), a unified representation learning that explicitly models a dynamic interplay between perception and action through probabilistic latent dynamics. DP-AG encodes latent observations into a Gaussian posterior via variational inference and evolves them using an action-guided SDE, where the Vector-Jacobian Product (VJP) of the diffusion policy's noise predictions serves as a structured stochastic force driving latent updates. To promote bidirectional learning between perception and action, we introduce a cycle-consistent contrastive loss that organizes the gradient flow of the noise predictor into a coherent perception-action loop, enforcing mutually consistent transitions in both latent updates and action refinements. Theoretically, we derive a variational lower bound for the action-guided SDE, and prove that the contrastive objective enhances continuity in both latent and action trajectories. Empirically, DP-AG significantly outperforms state-of-the-art methods across simulation benchmarks and real-world UR5 manipulation tasks. As a result, our DP-AG offers a promising step toward bridging biological adaptability and artificial policy learning.