Learning the RoPEs: Better 2D and 3D Position Encodings with STRING

作者: Connor Schenck, Isaac Reid, Mithun George Jacob, Alex Bewley, Joshua Ainslie, David Rendleman, Deepali Jain, Mohit Sharma, Avinava Dubey, Ayzaan Wahid, Sumeet Singh, René Wagner, Tianli Ding, Chuyuan Fu, Arunkumar Byravan, Jake Varley, Alexey Gritsenko, Matthias Minderer, Dmitry Kalashnikov, Jonathan Tompson, Vikas Sindhwani, Krzysztof Choromanski

分类: cs.LG, cs.AI, cs.CV, cs.RO, stat.ML

发布日期: 2025-02-04

备注: Videos of STRING-based robotics controllers can be found here: https://sites.google.com/view/string-robotics

💡 一句话要点

提出STRING：可分离平移不变位置编码，提升2D/3D视觉Transformer性能

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 位置编码 平移不变性 旋转位置编码 视觉Transformer 机器人 3D视觉 深度学习

📋 核心要点

现有位置编码方法在处理高维空间数据，尤其是在机器人应用中，面临计算量大和难以保持平移不变性的挑战。
STRING的核心思想是通过可分离的设计，在保持平移不变性的同时，降低计算复杂度，从而更有效地编码高维位置信息。
实验表明，将STRING集成到视觉Transformer中，在开放词汇对象检测和机器人控制等任务上取得了显著的性能提升。

📝 摘要（中文）

本文介绍了一种名为STRING（可分离平移不变位置编码）的新方法。STRING通过一个统一的理论框架扩展了旋转位置编码（RoPE），RoPE是最近提出并在大型语言模型中广泛使用的算法。重要的是，STRING仍然提供精确的平移不变性，包括任意维度的token坐标，同时保持较低的计算量。这些特性在机器人技术中尤其重要，因为高效的3D token表示是关键。我们将STRING集成到具有RGB(-D)输入的视觉Transformer中（彩色加可选深度），显示出显著的增益，例如在开放词汇对象检测和机器人控制器中。我们通过严格的数学分析来补充我们的实验，证明了我们方法的普遍性。

🔬 方法详解

问题定义：论文旨在解决现有位置编码方法在高维空间（特别是3D空间）中计算效率低，且难以保持平移不变性的问题。现有的位置编码方法，如绝对位置编码，无法很好地泛化到不同的输入尺寸，而相对位置编码的计算复杂度较高，限制了其在机器人等需要高效3D token表示领域的应用。

核心思路：STRING的核心思路是利用可分离的平移不变位置编码。通过将位置编码分解为多个一维编码的组合，可以显著降低计算复杂度，同时保证整体的平移不变性。这种设计使得STRING能够高效地处理高维位置信息，并适用于各种输入尺寸。

技术框架：STRING方法主要包含以下几个步骤：首先，将输入token的位置坐标分解为多个维度上的坐标分量。然后，对每个维度上的坐标分量进行独立的位置编码。最后，将各个维度上的位置编码进行组合，得到最终的位置编码表示。该位置编码可以直接添加到Transformer的输入中。

关键创新：STRING的关键创新在于其可分离的平移不变性设计。与传统的旋转位置编码（RoPE）相比，STRING提供了一个更通用的框架，可以处理任意维度的token坐标，同时保持较低的计算复杂度。这种可分离的设计使得STRING能够更好地适应高维空间中的位置编码任务。

关键设计：STRING的关键设计包括：1) 使用正弦和余弦函数进行位置编码，以提供平移不变性；2) 通过可分离的设计，将高维位置编码分解为多个一维编码的组合，从而降低计算复杂度；3) 采用旋转矩阵来组合不同维度上的位置编码，以保证整体的平移不变性。具体的参数设置和网络结构取决于具体的应用场景，但核心思想是保持可分离性和平移不变性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，STRING在开放词汇对象检测和机器人控制等任务上取得了显著的性能提升。例如，在RGB-D图像的视觉Transformer中集成STRING后，目标检测的平均精度（mAP）提高了X%（具体数值未知），机器人控制的成功率提高了Y%（具体数值未知）。这些结果证明了STRING在处理高维位置信息方面的有效性。

🎯 应用场景

STRING具有广泛的应用前景，尤其是在机器人、自动驾驶、增强现实等领域。它可以用于改进机器人对环境的感知和理解，提高自动驾驶系统的定位精度和鲁棒性，以及增强AR/VR应用的沉浸感和交互性。通过更有效地编码3D空间信息，STRING有望推动这些领域的发展。

📄 摘要（原文）

We introduce STRING: Separable Translationally Invariant Position Encodings. STRING extends Rotary Position Encodings, a recently proposed and widely used algorithm in large language models, via a unifying theoretical framework. Importantly, STRING still provides exact translation invariance, including token coordinates of arbitrary dimensionality, whilst maintaining a low computational footprint. These properties are especially important in robotics, where efficient 3D token representation is key. We integrate STRING into Vision Transformers with RGB(-D) inputs (color plus optional depth), showing substantial gains, e.g. in open-vocabulary object detection and for robotics controllers. We complement our experiments with a rigorous mathematical analysis, proving the universality of our methods.

Learning the RoPEs: Better 2D and 3D Position Encodings with STRING

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理