PathFormer: A Transformer with 3D Grid Constraints for Digital Twin Robot-Arm Trajectory Generation

作者: Ahmed Alanazi, Duy Ho, Yugyung Lee

分类: cs.RO

发布日期: 2025-10-23

备注: 8 pages, 7 figures, 7 tables

💡 一句话要点

PathFormer：结合3D网格约束的Transformer用于数字孪生机器人手臂轨迹生成

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 机器人手臂 轨迹规划 Transformer 3D网格 数字孪生

📋 核心要点

现有序列模型在机器人手臂轨迹规划中忽略运动结构，导致轨迹无效或效率低下。
PathFormer通过3D网格表示编码机器人运动，并使用约束掩码解码，保证轨迹的合法性。
实验表明，PathFormer在轨迹准确性、触达率和拾取成功率方面均表现出色，并具备良好的泛化能力。

📝 摘要（中文）

机器人手臂需要精确且任务感知的轨迹规划，但忽略运动结构的序列模型通常产生无效或低效的执行。本文提出了一种基于路径的Transformer，它使用3D网格（where/what/when）表示编码机器人运动，并采用约束掩码解码，在推理任务图和动作顺序的同时，强制执行格子相邻移动和工作空间边界。在53755条轨迹（80%训练/20%验证）上训练的模型与真实情况高度吻合——步进准确率为89.44%，精确率为93.32%，召回率为89.44%，F1值为90.40%——并且通过构造保证99.99%的路径合法性。在配备深度相机数字孪生的xArm Lite 6上编译为运动原语后，在受控测试中达到高达97.5%的触达率和92.5%的拾取成功率，并在杂乱场景中跨60个语言指定的任务中达到86.7%的端到端成功率，通过局部重新定位吸收滑动和遮挡，而无需全局重新规划。这些结果表明，路径结构化表示使Transformer能够生成准确、可靠和可解释的机器人轨迹，桥接了基于图的规划和基于序列的学习，并为通用操作和sim-to-real迁移提供了实践基础。

🔬 方法详解

问题定义：机器人手臂轨迹规划需要精确且任务感知的运动，现有序列模型缺乏对运动结构的建模能力，容易生成不符合物理约束或效率低下的轨迹。这些方法难以保证轨迹的合法性，并且在复杂环境中泛化能力较弱。

核心思路：本文的核心思路是将机器人运动表示为3D网格（where/what/when），利用Transformer模型学习轨迹的序列依赖关系，并通过约束掩码解码保证轨迹的合法性。这种方法结合了图规划和序列学习的优点，能够生成更准确、可靠和可解释的机器人轨迹。

技术框架：PathFormer的整体框架包括以下几个主要模块：1) 3D网格编码器：将机器人运动状态编码为3D网格表示；2) Transformer编码器：学习轨迹的序列依赖关系；3) 约束掩码解码器：生成符合物理约束的轨迹；4) 运动原语编译器：将生成的轨迹编译为机器人可执行的运动原语。

关键创新：PathFormer的关键创新在于：1) 提出了一种基于3D网格的机器人运动表示方法，能够有效地捕捉运动结构信息；2) 引入了约束掩码解码机制，保证生成的轨迹符合物理约束；3) 将Transformer模型应用于机器人轨迹规划，充分利用了Transformer强大的序列建模能力。

关键设计：PathFormer的关键设计包括：1) 3D网格的分辨率和范围；2) Transformer的层数和隐藏层大小；3) 约束掩码的类型和强度；4) 损失函数的设计，包括轨迹准确性损失和约束违反损失。

📊 实验亮点

PathFormer在53755条轨迹上训练后，步进准确率达到89.44%，精确率达到93.32%，召回率达到89.44%，F1值达到90.40%，并且通过构造保证99.99%的路径合法性。在xArm Lite 6上进行实验，在受控测试中达到高达97.5%的触达率和92.5%的拾取成功率，并在杂乱场景中跨60个语言指定的任务中达到86.7%的端到端成功率。

🎯 应用场景

PathFormer可应用于各种机器人手臂轨迹规划场景，例如工业自动化、医疗机器人、服务机器人等。该研究成果有助于提高机器人手臂的运动精度、可靠性和安全性，并为通用操作和sim-to-real迁移提供技术支持，具有重要的实际应用价值和广阔的未来发展前景。

📄 摘要（原文）

Robotic arms require precise, task-aware trajectory planning, yet sequence models that ignore motion structure often yield invalid or inefficient executions. We present a Path-based Transformer that encodes robot motion with a 3-grid (where/what/when) representation and constraint-masked decoding, enforcing lattice-adjacent moves and workspace bounds while reasoning over task graphs and action order. Trained on 53,755 trajectories (80% train / 20% validation), the model aligns closely with ground truth -- 89.44% stepwise accuracy, 93.32% precision, 89.44% recall, and 90.40% F1 -- with 99.99% of paths legal by construction. Compiled to motor primitives on an xArm Lite 6 with a depth-camera digital twin, it attains up to 97.5% reach and 92.5% pick success in controlled tests, and 86.7% end-to-end success across 60 language-specified tasks in cluttered scenes, absorbing slips and occlusions via local re-grounding without global re-planning. These results show that path-structured representations enable Transformers to generate accurate, reliable, and interpretable robot trajectories, bridging graph-based planning and sequence-based learning and providing a practical foundation for general-purpose manipulation and sim-to-real transfer.

PathFormer: A Transformer with 3D Grid Constraints for Digital Twin Robot-Arm Trajectory Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册