Information Filtering via Variational Regularization for Robot Manipulation

📄 arXiv: 2601.21926v1 📥 PDF

作者: Jinhao Zhang, Wenlong Xia, Yaojia Wang, Zhexuan Zhou, Huizhe Li, Yichen Lai, Haoming Song, Youmin Gong, Jie Me

分类: cs.RO

发布日期: 2026-01-29


💡 一句话要点

提出变分正则化以解决机器人操作中的信息过滤问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 变分正则化 信息过滤 机器人操作 视觉运动策略 去噪解码器

📋 核心要点

  1. 现有的扩散基视觉运动策略在复杂机器人技能学习中表现良好,但面临去噪解码器过大导致冗余和噪声的问题。
  2. 论文提出变分正则化(VR),通过对骨干特征施加时间步条件的高斯分布,改善信息过滤效果。
  3. 在三个模拟基准(RoboTwin2.0、Adroit和MetaWorld)上,提出的方法在成功率上显著提升,且在实际应用中表现良好。

📝 摘要(中文)

基于扩散的视觉运动策略在学习复杂机器人技能方面表现出色。然而,现有方法通常使用过大的去噪解码器,虽然增加模型容量可以改善去噪效果,但也会引入冗余和噪声。我们发现,在推理时随机掩蔽骨干特征可以提升性能,证实了中间特征中存在与任务无关的噪声。为此,我们提出了变分正则化(VR),该模块对骨干特征施加时间步条件的高斯分布,并应用KL散度正则化,形成自适应信息瓶颈。大量实验表明,与基线DP3相比,我们的方法在RoboTwin2.0上成功率提高了6.1%,在Adroit和MetaWorld上提高了4.1%,实现了新的最先进结果。实际部署中的实验进一步验证了我们方法的有效性。

🔬 方法详解

问题定义:本论文旨在解决现有扩散基视觉运动策略中去噪解码器过大导致的冗余和噪声问题。现有方法在中间特征中引入了与任务无关的噪声,影响了性能。

核心思路:我们提出变分正则化(VR),通过对骨干特征施加时间步条件的高斯分布,并引入KL散度正则化,形成自适应信息瓶颈,从而有效过滤无关信息。

技术框架:整体架构包括一个骨干网络和一个轻量级的变分正则化模块。该模块在推理时对骨干特征进行处理,确保信息的有效性和相关性。

关键创新:最重要的创新点在于引入了时间步条件的高斯分布和KL散度正则化,形成自适应的信息瓶颈,这一设计与传统方法的静态特征处理方式有本质区别。

关键设计:在参数设置上,VR模块的高斯分布参数根据时间步动态调整,损失函数中引入KL散度以平衡信息的保留与去噪,网络结构上保持了骨干网络的高效性与灵活性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在实验中,我们的方法在RoboTwin2.0上成功率提高了6.1%,在Adroit和MetaWorld上分别提高了4.1%。这些结果显著优于基线DP3,且在实际部署中表现良好,验证了方法的有效性和实用性。

🎯 应用场景

该研究的潜在应用领域包括机器人操作、自动化制造和智能家居等场景。通过有效过滤信息,提升机器人在复杂环境中的操作能力,具有重要的实际价值和广泛的应用前景。未来,该方法有望推动机器人技术的进一步发展,提升其在实际应用中的表现。

📄 摘要(原文)

Diffusion-based visuomotor policies built on 3D visual representations have achieved strong performance in learning complex robotic skills. However, most existing methods employ an oversized denoising decoder. While increasing model capacity can improve denoising, empirical evidence suggests that it also introduces redundancy and noise in intermediate feature blocks. Crucially, we find that randomly masking backbone features at inference time (without changing training) can improve performance, confirming the presence of task-irrelevant noise in intermediate features. To this end, we propose Variational Regularization (VR), a lightweight module that imposes a timestep-conditioned Gaussian over backbone features and applies a KL-divergence regularizer, forming an adaptive information bottleneck. Extensive experiments on three simulation benchmarks (RoboTwin2.0, Adroit, and MetaWorld) show that, compared to the baseline DP3, our approach improves the success rate by 6.1% on RoboTwin2.0 and by 4.1% on Adroit and MetaWorld, achieving new state-of-the-art results. Real-world experiments further demonstrate that our method performs well in practical deployments. Code will released.