Factorizing Diffusion Policies for Observation Modality Prioritization
作者: Omkar Patil, Prabin Rath, Kartikay Pangaonkar, Eric Rosen, Nakul Gopalan
分类: cs.RO
发布日期: 2025-09-20
备注: 14 pages; website: https://fdp-policy.github.io/fdp-policy/
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出因子分解扩散策略(FDP),实现机器人技能学习中观测模态的优先级排序。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 扩散模型 机器人策略学习 模态优先级 因子分解 鲁棒性 低数据学习 视觉运动任务
📋 核心要点
- 现有扩散策略在机器人技能学习中无法有效区分不同观测模态(如视觉、触觉、本体感觉)对任务的影响。
- FDP通过因子分解观测模态的条件作用,使不同模态对动作扩散过程产生差异化影响,从而实现模态优先级排序。
- 实验表明,FDP在低数据和分布偏移情况下,相比标准扩散策略,显著提升了策略的性能和鲁棒性。
📝 摘要(中文)
本文提出了一种名为“因子分解扩散策略”(FDP)的新型策略,旨在使观测模态在动作扩散过程中具有不同的影响权重。该方法通过对扩散过程的观测条件进行分解,从而实现模态优先级排序,例如视觉>触觉或本体感觉>视觉。实验结果表明,FDP在低数据情况下表现出强大的性能提升,在多个模拟基准测试中,成功率比标准扩散策略提高了15%。此外,在视觉干扰或相机遮挡等分布偏移下,FDP策略在多个视觉运动任务中表现出更强的鲁棒性,成功率提高了40%,而现有扩散策略则会失效。因此,FDP为实际部署提供了一种更安全、更可靠的替代方案。
🔬 方法详解
问题定义:现有的基于扩散模型的机器人策略学习方法通常将所有观测模态(例如,视觉、触觉、本体感觉)平等地对待,而忽略了不同模态对于不同任务的重要性差异。这种一视同仁的处理方式可能导致策略学习效率低下,并且在面对环境变化或噪声时鲁棒性较差。
核心思路:FDP的核心思路是将观测模态的条件作用进行因子分解,使得每个模态可以独立地影响扩散过程。通过这种方式,可以显式地控制每个模态对最终动作的影响程度,从而实现模态优先级排序。例如,在某些任务中,视觉信息可能比触觉信息更重要,FDP允许策略更多地依赖视觉信息。
技术框架:FDP的整体框架基于标准的扩散模型,但对其条件作用机制进行了修改。具体来说,给定一个观测向量,FDP首先将其分解为多个模态特定的子向量。然后,每个子向量被独立地输入到扩散模型的条件作用模块中。最后,将所有模块的输出进行融合,以指导扩散过程。这种分解和融合的过程允许策略学习不同模态之间的依赖关系,并根据任务的需求调整它们的权重。
关键创新:FDP最关键的创新在于其因子分解的条件作用机制。与传统的扩散策略直接将所有观测模态连接起来作为条件不同,FDP将它们分解为独立的因子,并允许策略学习每个因子的重要性。这种方法使得策略能够更好地适应不同的任务和环境,并且提高了策略的鲁棒性。
关键设计:FDP的关键设计包括如何选择合适的因子分解方式,以及如何设计条件作用模块和融合机制。论文中,作者使用了简单的模态分离作为因子分解方式,并使用了标准的神经网络作为条件作用模块。融合机制可以使用加权平均或者更复杂的注意力机制。损失函数仍然是标准的扩散模型损失函数,但可以根据需要添加额外的正则化项,以鼓励策略学习稀疏的模态依赖关系。
🖼️ 关键图片
📊 实验亮点
实验结果表明,FDP在低数据情况下,相比标准扩散策略,成功率提高了15%。在分布偏移(例如,视觉干扰、相机遮挡)下,FDP的成功率提高了40%,而标准扩散策略则会失效。这些结果表明,FDP在性能和鲁棒性方面都优于现有方法,并且更适合实际部署。
🎯 应用场景
FDP适用于各种机器人技能学习任务,尤其是在需要处理多种观测模态且不同模态重要性不同的场景下。例如,在复杂操作任务中,视觉信息可能对于定位物体至关重要,而触觉信息对于精细操作更为重要。FDP可以帮助机器人学习更高效、更鲁棒的策略,从而提高其在现实世界中的应用能力。此外,FDP还可以应用于自动驾驶、医疗机器人等领域。
📄 摘要(原文)
Diffusion models have been extensively leveraged for learning robot skills from demonstrations. These policies are conditioned on several observational modalities such as proprioception, vision and tactile. However, observational modalities have varying levels of influence for different tasks that diffusion polices fail to capture. In this work, we propose 'Factorized Diffusion Policies' abbreviated as FDP, a novel policy formulation that enables observational modalities to have differing influence on the action diffusion process by design. This results in learning policies where certain observations modalities can be prioritized over the others such as $\texttt{vision>tactile}$ or $\texttt{proprioception>vision}$. FDP achieves modality prioritization by factorizing the observational conditioning for diffusion process, resulting in more performant and robust policies. Our factored approach shows strong performance improvements in low-data regimes with $15\%$ absolute improvement in success rate on several simulated benchmarks when compared to a standard diffusion policy that jointly conditions on all input modalities. Moreover, our benchmark and real-world experiments show that factored policies are naturally more robust with $40\%$ higher absolute success rate across several visuomotor tasks under distribution shifts such as visual distractors or camera occlusions, where existing diffusion policies fail catastrophically. FDP thus offers a safer and more robust alternative to standard diffusion policies for real-world deployment. Videos are available at https://fdp-policy.github.io/fdp-policy/ .