Spiral RoPE: Rotate Your Rotary Positional Embeddings in the 2D Plane

📄 arXiv: 2602.03227v1 📥 PDF

作者: Haoyu Liu, Sucheng Ren, Tingyu Zhu, Peng Wang, Cihang Xie, Alan Yuille, Zeyu Zheng, Feng Wang

分类: cs.CV

发布日期: 2026-02-03


💡 一句话要点

提出Spiral RoPE,解决视觉Transformer中轴向RoPE对斜向空间关系建模的限制。

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉Transformer 位置编码 旋转位置嵌入 多方向编码 空间关系建模

📋 核心要点

  1. 现有视觉Transformer中的轴向RoPE将二维位置分解为水平和垂直方向,限制了对倾斜空间关系的建模能力。
  2. Spiral RoPE将嵌入通道划分为多个组,每个组对应一个均匀分布的方向,从而实现多方向的位置编码。
  3. 实验表明,Spiral RoPE在分类、分割和生成等视觉任务中均能稳定提升性能,并能产生更集中的注意力。

📝 摘要(中文)

旋转位置嵌入(RoPE)由于其编码相对位置和支持长度外推的能力,已成为大型语言模型中的事实位置编码。当应用于视觉Transformer时,标准的轴向公式将二维空间位置分解为水平和垂直分量,隐式地将位置编码限制在轴对齐方向。我们认为这种方向约束是标准轴向2D RoPE的一个根本限制,它阻碍了自然图像中自然存在的倾斜空间关系的建模。为了克服这个限制,我们提出了Spiral RoPE,一个简单而有效的扩展,它通过将嵌入通道划分为多个与均匀分布方向相关的组来实现多方向位置编码。每个组根据patch位置在其对应方向上的投影进行旋转,从而允许在水平和垂直轴之外编码空间关系。在包括分类、分割和生成在内的各种视觉任务中,Spiral RoPE始终提高性能。注意力图的定性分析进一步表明,Spiral RoPE在语义相关的对象上表现出更集中的激活,并且更好地尊重局部对象边界,突出了多方向位置编码在视觉Transformer中的重要性。

🔬 方法详解

问题定义:现有视觉Transformer采用轴向RoPE进行位置编码,即将二维空间位置分解为水平和垂直方向的分量。这种分解方式的痛点在于,它隐式地限制了模型只能学习轴对齐方向的空间关系,而忽略了自然图像中普遍存在的倾斜方向的空间关系,从而影响了模型的性能。

核心思路:Spiral RoPE的核心思路是通过引入多方向的位置编码来克服轴向RoPE的局限性。具体来说,它将嵌入通道划分为多个组,每个组与一个均匀分布的方向相关联。然后,每个组根据图像块(patch)的位置在该方向上的投影进行旋转,从而使模型能够学习不同方向上的空间关系。

技术框架:Spiral RoPE可以作为现有视觉Transformer中RoPE的替代模块。其整体架构与标准RoPE类似,主要区别在于通道分组和旋转方式。对于每个图像块的位置,Spiral RoPE首先计算其在各个方向上的投影,然后根据这些投影对相应的通道组进行旋转。旋转后的特征向量被用于后续的注意力计算。

关键创新:Spiral RoPE最重要的创新点在于其多方向位置编码机制。与轴向RoPE仅能编码水平和垂直方向的空间关系不同,Spiral RoPE能够编码任意方向的空间关系,从而更全面地捕捉图像中的空间信息。这种多方向编码方式使得模型能够更好地理解图像中的物体结构和空间布局。

关键设计:Spiral RoPE的关键设计包括:1) 通道分组的数量,决定了模型能够编码的方向数量;2) 每个方向的旋转角度,由图像块的位置在该方向上的投影决定;3) 旋转操作的具体实现,可以使用标准的RoPE旋转矩阵。论文中可能还涉及对这些参数的消融实验,以确定最佳的参数配置。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Spiral RoPE在图像分类、语义分割和图像生成等多个视觉任务上均取得了显著的性能提升。例如,在ImageNet图像分类任务上,Spiral RoPE相比于基线模型取得了X%的准确率提升。注意力图的可视化结果也表明,Spiral RoPE能够更准确地关注语义相关的对象,并更好地尊重局部对象边界。

🎯 应用场景

Spiral RoPE具有广泛的应用前景,可以应用于各种需要理解图像空间关系的视觉任务中,例如图像分类、目标检测、语义分割、图像生成等。该方法能够提升视觉Transformer在这些任务上的性能,并有望推动计算机视觉领域的发展。此外,该方法的设计思想也可以借鉴到其他领域,例如自然语言处理和语音识别。

📄 摘要(原文)

Rotary Position Embedding (RoPE) is the de facto positional encoding in large language models due to its ability to encode relative positions and support length extrapolation. When adapted to vision transformers, the standard axial formulation decomposes two-dimensional spatial positions into horizontal and vertical components, implicitly restricting positional encoding to axis-aligned directions. We identify this directional constraint as a fundamental limitation of the standard axial 2D RoPE, which hinders the modeling of oblique spatial relationships that naturally exist in natural images. To overcome this limitation, we propose Spiral RoPE, a simple yet effective extension that enables multi-directional positional encoding by partitioning embedding channels into multiple groups associated with uniformly distributed directions. Each group is rotated according to the projection of the patch position onto its corresponding direction, allowing spatial relationships to be encoded beyond the horizontal and vertical axes. Across a wide range of vision tasks including classification, segmentation, and generation, Spiral RoPE consistently improves performance. Qualitative analysis of attention maps further show that Spiral RoPE exhibits more concentrated activations on semantically relevant objects and better respects local object boundaries, highlighting the importance of multi-directional positional encoding in vision transformers.