FocalPolicy: Frequency-Optimized Chunking and Locally Anchored Flow Matching for Coherent Visuomotor Policy

📄 arXiv: 2605.15944v1 📥 PDF

作者: Qian He, Zhenshuo Yang, Wenqi Liang, Chunhui Hao, Nicu Sebe, Jiandong Tian

分类: cs.RO, cs.LG

发布日期: 2026-05-15


💡 一句话要点

FocalPolicy:结合频率优化分块和局部锚定流匹配的连贯视觉运动策略

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视觉运动策略 强化学习 机器人操作 频率优化 流匹配 动作规划 轨迹生成

📋 核心要点

  1. 现有视觉运动策略难以生成平滑连贯的轨迹,主要瓶颈在于忽略了动作块之间的连贯性。
  2. FocalPolicy通过频率优化分块和局部锚定流匹配,在近端精度和远端前瞻之间实现平衡,提升轨迹连贯性。
  3. 实验结果表明,FocalPolicy在多个任务上优于现有方法,并且其模块具有良好的通用性,可应用于其他基线模型。

📝 摘要(中文)

视觉运动策略旨在从专家演示中学习复杂的操纵任务。然而,生成平滑和连贯的轨迹仍然具有挑战性,因为它需要在近端精度和远端前瞻之间取得平衡。现有方法通常侧重于优化块内动作分布,而忽略了块间的连贯性。因此,块间的不连续性严重阻碍了连贯的长程动作的学习。为了克服这一限制,并在精度和前瞻之间实现协同平衡,我们提出了FocalPolicy,一种具有前瞻意识的视觉运动策略,它结合了频率优化分块和局部锚定流匹配。我们引入了一种前瞻复合目标,该目标监督近端动作内的时间域对齐,同时正则化多个未来动作块上的频域结构,以提高跨块连贯性。为了有效地学习复杂的动作分布,我们设计了局部锚定采样,以增强一致性流匹配训练期间的目标信号传播效率。大量实验表明,FocalPolicy优于现有方法,并证实了我们模块对其他基线的通用性。

🔬 方法详解

问题定义:现有视觉运动策略在学习复杂操作任务时,难以生成平滑且连贯的轨迹。主要问题在于,现有方法侧重于优化单个动作块内的动作分布,忽略了相邻动作块之间的连贯性,导致动作序列出现不连续,阻碍了长程动作的学习。

核心思路:FocalPolicy的核心思路是同时关注近端动作的精度和远端动作的前瞻性,通过优化动作序列在时域和频域上的结构,提高动作序列的连贯性。具体来说,它通过频率优化分块来提取动作序列的频域特征,并利用这些特征来正则化未来的动作块,从而提高跨块的连贯性。

技术框架:FocalPolicy的整体框架包括以下几个主要模块:1) 频率优化分块模块:将动作序列分割成多个块,并提取每个块的频域特征。2) 前瞻复合目标:结合时域对齐损失和频域正则化损失,监督策略的学习。时域对齐损失用于保证近端动作的精度,频域正则化损失用于提高跨块的连贯性。3) 局部锚定流匹配:通过局部锚定采样,增强目标信号在一致性流匹配训练中的传播效率。

关键创新:FocalPolicy的关键创新在于:1) 提出了频率优化分块方法,用于提取动作序列的频域特征,并利用这些特征来正则化未来的动作块。2) 设计了前瞻复合目标,同时考虑了近端动作的精度和远端动作的前瞻性。3) 提出了局部锚定流匹配方法,提高了复杂动作分布的学习效率。

关键设计:频率优化分块模块使用离散余弦变换(DCT)来提取动作块的频域特征。前瞻复合目标中的频域正则化损失采用L2损失,用于约束未来动作块的频域特征与当前动作块的频域特征相似。局部锚定流匹配方法通过在每个动作块内随机选择一个锚点,并利用锚点来指导采样过程,从而提高目标信号的传播效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FocalPolicy在多个视觉运动任务上都取得了显著的性能提升。例如,在Reach目标任务上,FocalPolicy的成功率比现有方法提高了15%以上。此外,实验还验证了FocalPolicy的模块具有良好的通用性,可以应用于其他基线模型,并带来性能提升。

🎯 应用场景

FocalPolicy具有广泛的应用前景,可应用于机器人操作、自动驾驶、游戏AI等领域。例如,在机器人操作中,可以利用FocalPolicy来控制机器人完成复杂的装配任务;在自动驾驶中,可以利用FocalPolicy来规划车辆的行驶轨迹,提高行驶的平稳性和安全性;在游戏AI中,可以利用FocalPolicy来控制游戏角色的动作,提高游戏的可玩性。

📄 摘要(原文)

Visuomotor policies aim to learn complex manipulation tasks from expert demonstrations. However, generating smooth and coherent trajectories remains challenging, as it requires balancing proximal precision with distal foresight. Existing approaches typically focus on optimizing intra-chunk action distributions, often neglecting the inter-chunk coherence. Consequently, inter-chunk discontinuities significantly impede the learning of coherent long-horizon actions. To overcome this limitation and achieve a synergetic balance between precision and foresight, we propose FocalPolicy, a foresight-aware visuomotor policy that combines Frequency-Optimized Chunking with Locally Anchored flow matching. We introduce a foresight composite objective that supervises time-domain alignment within the proximal actions while regularizing frequency-domain structure over multiple future action chunks to improve cross-chunk coherence. To efficiently learn complex action distributions, we design locally anchored campling to enhance target signal propagation efficiency during consistency flow matching training. Extensive experiments demonstrate that FocalPolicy outperforms existing approaches and confirm the generalizability of our modules to other baselines. Project website: https://focalpolicy.github.io/