TRANS: Terrain-aware Reinforcement Learning for Agile Navigation of Quadruped Robots under Social Interactions

作者: Wei Zhu, Irfan Tito Kurniawan, Ye Zhao, Mistuhiro Hayashibe

分类: cs.RO

发布日期: 2026-02-13

💡 一句话要点

提出TRANS框架，实现四足机器人在复杂地形和社交环境下的敏捷导航

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 四足机器人 强化学习 地形感知 社交导航 敏捷运动

📋 核心要点

现有四足机器人导航方法难以兼顾地形感知、整体运动约束和社交互动环境。
TRANS框架通过两阶段训练，分别学习地形运动和社交导航，最终集成实现复杂环境下的敏捷导航。
实验表明，TRANS在不平坦地形和社交环境中优于现有方法，并具有良好的sim-to-real迁移能力。

📝 摘要（中文）

本研究提出TRANS：一种用于四足机器人在非结构化地形上进行社交导航的、具有地形感知能力的强化学习框架。传统的四足导航通常将运动规划与步态控制分离，忽略了整体约束和地形感知。端到端方法更集成，但需要高频传感，这通常会带来噪声且计算成本高昂。此外，大多数现有方法假设静态环境，限制了其在人群环境中的应用。为了解决这些局限性，我们提出了一个包含三个DRL流程的两阶段训练框架。(1) TRANS-Loco采用非对称Actor-Critic (AC)模型进行四足运动，无需显式地形或接触观测即可穿越不平坦地形。(2) TRANS-Nav应用对称AC框架进行社交导航，在差速驱动运动学下，直接将转换后的激光雷达数据映射到自我代理的动作。(3) 统一的流程TRANS集成了TRANS-Loco和TRANS-Nav，支持在不平坦和社交互动环境中进行地形感知的四足导航。与运动和社交导航基线的全面基准测试证明了TRANS的有效性。硬件实验进一步证实了其在sim-to-real迁移方面的潜力。

🔬 方法详解

问题定义：现有四足机器人导航方法主要存在三个痛点：一是将运动规划和步态控制分离，忽略了整体运动约束和地形感知；二是端到端方法依赖高频传感器数据，计算成本高且易受噪声影响；三是大多假设环境静态，无法应用于动态的社交互动场景。因此，需要一种能够适应复杂地形、考虑整体运动约束，并在动态社交环境中实现敏捷导航的四足机器人控制方法。

核心思路：TRANS框架的核心思路是将复杂的导航任务分解为两个阶段：首先，通过TRANS-Loco学习在复杂地形上的稳健运动控制；然后，通过TRANS-Nav学习在社交环境中的导航策略。最后，将两者集成，实现地形感知和社交感知的敏捷导航。这种分阶段训练的方式降低了学习难度，提高了模型的泛化能力。

技术框架：TRANS框架包含两个主要阶段：TRANS-Loco和TRANS-Nav。TRANS-Loco阶段使用非对称Actor-Critic模型，训练四足机器人在不平坦地形上的运动能力，无需显式地形或接触观测。TRANS-Nav阶段使用对称Actor-Critic模型，将激光雷达数据映射到机器人的运动指令，实现社交导航。最后，TRANS将TRANS-Loco和TRANS-Nav集成，实现整体的导航控制。

关键创新：TRANS的关键创新在于其两阶段训练框架和地形感知的运动控制方法。通过分阶段训练，降低了学习难度，提高了模型的泛化能力。TRANS-Loco采用非对称Actor-Critic模型，无需显式地形信息即可实现稳健的运动控制，降低了对传感器精度的要求。

关键设计：TRANS-Loco使用非对称Actor-Critic模型，Critic网络接收更多环境信息，Actor网络只接收少量状态信息，从而提高模型的鲁棒性。TRANS-Nav使用对称Actor-Critic模型，直接将激光雷达数据映射到机器人的运动指令。损失函数的设计考虑了运动的平滑性和安全性，避免碰撞和剧烈运动。

🖼️ 关键图片

📊 实验亮点

实验结果表明，TRANS框架在不平坦地形和社交环境中均优于现有方法。与基线方法相比，TRANS在导航成功率和运动效率方面均有显著提升。硬件实验验证了TRANS框架具有良好的sim-to-real迁移能力，能够在真实环境中稳定运行。

🎯 应用场景

TRANS框架可应用于搜索救援、物流运输、巡检等领域。在复杂地形和人群环境中，四足机器人能够凭借TRANS框架实现自主导航，完成特定任务。该研究成果有助于提升四足机器人在实际场景中的应用价值，并为未来人机协作提供技术支持。

📄 摘要（原文）

This study introduces TRANS: Terrain-aware Reinforcement learning for Agile Navigation under Social interactions, a deep reinforcement learning (DRL) framework for quadrupedal social navigation over unstructured terrains. Conventional quadrupedal navigation typically separates motion planning from locomotion control, neglecting whole-body constraints and terrain awareness. On the other hand, end-to-end methods are more integrated but require high-frequency sensing, which is often noisy and computationally costly. In addition, most existing approaches assume static environments, limiting their use in human-populated settings. To address these limitations, we propose a two-stage training framework with three DRL pipelines. (1) TRANS-Loco employs an asymmetric actor-critic (AC) model for quadrupedal locomotion, enabling traversal of uneven terrains without explicit terrain or contact observations. (2) TRANS-Nav applies a symmetric AC framework for social navigation, directly mapping transformed LiDAR data to ego-agent actions under differential-drive kinematics. (3) A unified pipeline, TRANS, integrates TRANS-Loco and TRANS-Nav, supporting terrain-aware quadrupedal navigation in uneven and socially interactive environments. Comprehensive benchmarks against locomotion and social navigation baselines demonstrate the effectiveness of TRANS. Hardware experiments further confirm its potential for sim-to-real transfer.

TRANS: Terrain-aware Reinforcement Learning for Agile Navigation of Quadruped Robots under Social Interactions

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理