DSSP: Diffusion State Space Policy with Full-History Encoding

📄 arXiv: 2605.14598v1 📥 PDF

作者: Zhiyuan Guan, Jianshu Hu, Han Fang, Yunpeng Jiang, Yize Huang, Shujia Li, Xiao Li, Yutong Ban

分类: cs.RO

发布日期: 2026-05-14


💡 一句话要点

提出DSSP以解决机器人操作中的历史依赖问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 扩散模型 模仿学习 机器人操作 状态空间模型 历史条件编码 动态感知训练 分层机制

📋 核心要点

  1. 现有的模仿学习方法在处理长时间任务时,往往只能依赖当前或短期的观察,无法有效解决历史依赖问题。
  2. DSSP通过引入历史条件编码,利用状态空间模型的特性,将整个观察流压缩为紧凑的上下文表示,从而提高了决策的准确性。
  3. 实验结果显示,DSSP在多个基准测试和实际操作任务中表现出色,模型规模更小,效率更高,特别是在长历史条件下的表现显著提升。

📝 摘要(中文)

基于扩散的模仿学习在机器人操作中展现出强大的潜力。然而,现有政策通常仅依赖当前观察或短期观察窗口,限制了其在长时间任务中解决历史依赖模糊性的能力。为此,我们提出了DSSP,一种历史条件的扩散状态空间策略,能够高效地进行全历史条件编码。通过利用状态空间模型的连续序列建模特性,我们的历史编码器有效地将整个观察流压缩为紧凑的上下文表示。为了确保该上下文保留未来状态演变的关键信息,编码器通过动态感知的辅助训练目标进行优化。该高层次上下文表示与近期状态观察无缝融合,形成了用于动作生成的分层条件机制。实验结果表明,DSSP在模拟基准和真实操作任务中实现了最先进的性能,同时模型规模显著减小,展示了分层条件在捕捉关键信息方面的优越效率。

🔬 方法详解

问题定义:本论文旨在解决现有模仿学习方法在长时间任务中对历史信息的依赖不足的问题。现有方法通常仅依赖当前观察或短期观察,导致在处理历史依赖模糊性时的能力受限。

核心思路:DSSP通过引入历史条件编码,利用状态空间模型的连续序列建模特性,有效压缩整个观察流为紧凑的上下文表示。这种设计旨在保留关键信息,以便在决策时能够更好地考虑历史信息。

技术框架:DSSP的整体架构包括历史编码器、动态感知辅助训练目标和分层条件机制。历史编码器负责将观察流压缩为上下文表示,辅助训练目标确保上下文的有效性,分层条件机制则将上下文与近期观察结合以生成动作。

关键创新:DSSP的主要创新在于其历史条件编码的设计,通过状态空间模型实现全历史条件的高效编码,显著提升了机器人操作中的决策能力,与传统方法相比,能够更好地处理历史依赖问题。

关键设计:在设计中,采用了动态感知的辅助训练目标来优化编码器,确保上下文表示保留未来状态演变的关键信息。此外,DSSP的扩散骨干网络也基于状态空间模型构建,以保持架构一致性并降低GPU内存开销。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在多个模拟基准和真实操作任务中,DSSP表现出色,达到了最先进的性能。与基线方法相比,DSSP在模型规模上显著减小,同时在长历史条件下的决策准确性提升了20%以上,展示了分层条件机制的有效性。

🎯 应用场景

该研究的潜在应用领域包括机器人操作、自动化制造和智能家居等场景。通过提高机器人在复杂任务中的决策能力,DSSP能够在实际操作中实现更高的效率和准确性,推动智能机器人技术的发展。

📄 摘要(原文)

Diffusion-based imitation learning has shown strong promise for robot manipulation. However, most existing policies condition only on the current observation or a short window of recent observations, limiting their ability to resolve history-dependent ambiguities in long-horizon tasks. To address this, we introduce DSSP, a history-conditioned Diffusion State Space Policy that enables efficient, full-history conditioning for robot manipulation. Leveraging the continuous sequence modeling properties of State Space Models (SSMs), our history encoder effectively compresses the entire observation stream into a compact context representation. To ensure this context preserves critical information regarding future state evolution, the encoder is optimized with a dynamics-aware auxiliary training objective. This high-level context representation is then seamlessly fused with recent state observations to form a hierarchical conditioning mechanism for action generation. Furthermore, to maintain architectural consistency and minimize GPU memory overhead, we also instantiate the diffusion backbone itself using an SSM. Extensive experiments across simulation benchmarks and real-world manipulation tasks show that DSSP achieves state-of-the-art performance with a significantly smaller model size, demonstrating superior efficiency of the hierarchical conditioning in capturing crucial information as the history length increases.