CROSS-GAiT: Cross-Attention-Based Multimodal Representation Fusion for Parametric Gait Adaptation in Complex Terrains

📄 arXiv: 2409.17262v3 📥 PDF

作者: Gershom Seneviratne, Kasun Weerakoon, Mohamed Elnoor, Vignesh Rajgopal, Harshavarthan Varatharajan, Mohamed Khalid M Jaffar, Jason Pusey, Dinesh Manocha

分类: cs.RO

发布日期: 2024-09-25 (更新: 2025-07-20)


💡 一句话要点

CROSS-GAiT:基于交叉注意力的多模态融合算法,用于复杂地形下的四足机器人参数化步态自适应。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 四足机器人 步态自适应 多模态融合 交叉注意力 复杂地形

📋 核心要点

  1. 现有四足机器人难以在复杂地形中稳定行走,主要挑战在于如何有效融合多模态传感器信息,并实时调整步态参数以适应变化的地形。
  2. CROSS-GAiT算法利用交叉注意力机制,将视觉信息和时间序列数据融合,生成地形表示,并以此动态调整步高和髋外展等步态参数。
  3. 实验结果表明,CROSS-GAiT在复杂地形中显著提高了机器人的稳定性和成功率,并降低了能量消耗,同时在地形分类任务中也取得了更好的性能。

📝 摘要(中文)

本文提出了一种名为CROSS-GAiT的四足机器人新型算法,该算法利用交叉注意力机制融合来自视觉和时间序列输入的 terrain representations,时间序列输入包括线性加速度、角速度和关节力矩。这些融合的表示被用于持续调整两个关键的步态参数(步高和髋外展),从而实现能够动态响应不同地形条件的自适应步态。为了生成地形表示,我们通过一个掩码 Vision Transformer (ViT) 编码器处理视觉输入,并通过一个扩张因果卷积编码器处理时间序列数据。然后,交叉注意力机制选择并整合来自每种模态的最相关特征,将地形特征与机器人动力学相结合,以实现知情的步态自适应。这种融合的表示使CROSS-GAiT能够实时地响应不可预测的地形条件,从而持续调整步态参数。我们在包括沥青、混凝土、砖路、草地、茂密植被、鹅卵石、碎石和沙子在内的各种地形上训练CROSS-GAiT,并验证其在未见环境中的泛化能力。在Ghost Robotics Vision 60上的硬件实现表明,该算法在具有挑战性的地形(如高密度植被、不稳定表面、沙堤和可变形基质)中表现出卓越的性能。与最先进的方法相比,我们观察到IMU能量密度至少降低了7.04%,总关节力矩降低了27.3%,这直接关系到稳定性的提高和能量消耗的降低。此外,CROSS-GAiT在四个复杂场景中的成功率至少提高了64.5%,达到目标的时间减少了4.91%。此外,学习到的表示在地形分类任务中比最先进的技术提高了4.48%。

🔬 方法详解

问题定义:四足机器人在复杂地形中行走时,需要根据地形信息调整步态参数以保持稳定性和效率。现有方法通常依赖单一传感器信息或简单的融合策略,难以充分利用多模态数据,导致在复杂、未知的地形中表现不佳。痛点在于如何有效融合视觉和时间序列数据,并实时调整步态参数。

核心思路:CROSS-GAiT的核心思路是利用交叉注意力机制,自适应地融合来自视觉和时间序列传感器的信息,生成更全面的地形表示。这种融合方式能够捕捉不同模态之间的关联性,从而更准确地估计地形特征,并指导步态参数的调整。这样设计的目的是为了克服单一模态信息的局限性,提高机器人对复杂地形的适应能力。

技术框架:CROSS-GAiT的整体框架包括以下几个主要模块:1) 视觉编码器:使用Masked Vision Transformer (ViT) 从相机图像中提取视觉特征。2) 时间序列编码器:使用扩张因果卷积网络从IMU和关节力矩等时间序列数据中提取动态特征。3) 交叉注意力模块:将视觉特征和时间序列特征进行融合,生成地形表示。4) 步态参数调整模块:根据地形表示,调整步高和髋外展等步态参数。整个流程是端到端可训练的,可以根据地形变化实时调整步态。

关键创新:CROSS-GAiT最重要的创新点在于使用交叉注意力机制进行多模态融合。与传统的特征拼接或加权融合方法相比,交叉注意力机制能够自适应地学习不同模态之间的关联性,从而更有效地利用多模态信息。此外,使用扩张因果卷积网络处理时间序列数据,可以更好地捕捉时间依赖关系,提高对动态环境的适应能力。

关键设计:视觉编码器采用预训练的ViT模型,并进行微调。时间序列编码器使用多层扩张因果卷积,扩张率逐渐增大,以捕捉不同时间尺度的信息。交叉注意力模块使用多头注意力机制,每个头关注不同的特征子空间。损失函数包括步态参数预测损失和地形分类损失,以提高模型的泛化能力。具体参数设置(如ViT模型大小、卷积核大小、注意力头数等)需要根据具体任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CROSS-GAiT在复杂地形中表现出显著的优势。与现有方法相比,IMU能量密度降低了至少7.04%,总关节力矩降低了27.3%,成功率提高了至少64.5%,达到目标的时间减少了4.91%。此外,学习到的表示在地形分类任务中比现有技术提高了4.48%。这些数据表明,CROSS-GAiT能够有效提高机器人的稳定性和效率,并具有良好的泛化能力。

🎯 应用场景

CROSS-GAiT算法可广泛应用于各种四足机器人应用场景,例如搜救、巡检、物流和探索等。该算法能够使机器人在复杂、未知的地形中更稳定、高效地行走,从而提高任务完成的成功率和效率。未来,该算法可以进一步扩展到其他类型的机器人,并与其他感知和控制技术相结合,实现更智能、更自主的机器人系统。

📄 摘要(原文)

We present CROSS-GAiT, a novel algorithm for quadruped robots that uses Cross Attention to fuse terrain representations derived from visual and time-series inputs; including linear accelerations, angular velocities, and joint efforts. These fused representations are used to continuously adjust two critical gait parameters (step height and hip splay), enabling adaptive gaits that respond dynamically to varying terrain conditions. To generate terrain representations, we process visual inputs through a masked Vision Transformer (ViT) encoder and time-series data through a dilated causal convolutional encoder. The Cross Attention mechanism then selects and integrates the most relevant features from each modality, combining terrain characteristics with robot dynamics for informed gait adaptation. This fused representation allows CROSS-GAiT to continuously adjust gait parameters in response to unpredictable terrain conditions in real-time. We train CROSS-GAiT on a diverse set of terrains including asphalt, concrete, brick pavements, grass, dense vegetation, pebbles, gravel, and sand and validate its generalization ability on unseen environments. Our hardware implementation on the Ghost Robotics Vision 60 demonstrates superior performance in challenging terrains, such as high-density vegetation, unstable surfaces, sandbanks, and deformable substrates. We observe at least a 7.04% reduction in IMU energy density and a 27.3% reduction in total joint effort, which directly correlates with increased stability and reduced energy usage when compared to state-of-the-art methods. Furthermore, CROSS-GAiT demonstrates at least a 64.5% increase in success rate and a 4.91% reduction in time to reach the goal in four complex scenarios. Additionally, the learned representations perform 4.48% better than the state-of-the-art on a terrain classification task.