TAR: Teacher-Aligned Representations via Contrastive Learning for Quadrupedal Locomotion

作者: Amr Mousa, Neil Karavis, Michele Caprio, Wei Pan, Richard Allmendinger

分类: cs.RO, cs.LG, eess.SY

发布日期: 2025-03-26 (更新: 2025-08-14)

备注: This work has been accepted for publication at the IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS) 2025

期刊: 2025 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), Hangzhou, China, 2025, pp. 11669-11676

DOI: 10.1109/IROS60139.2025.11247281

💡 一句话要点

提出TAR框架，通过对比学习对齐教师表征，提升四足机器人运动泛化性。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 四足机器人 强化学习 对比学习 表征学习 运动控制

📋 核心要点

现有四足机器人强化学习方法中，教师-学生范式存在表征不对齐、协变量偏移等问题，导致真实环境泛化性差。
TAR框架利用对比学习，将学生策略的表征与特权教师策略对齐，学习结构化潜在空间，提升泛化能力。
实验表明，TAR训练速度提升2倍，分布外场景泛化性能平均提升40%，并支持真实环境下的持续微调。

📝 摘要（中文）

本文提出了一种名为“通过对比学习对齐教师表征”（TAR）的框架，旨在解决四足机器人强化学习运动控制中，特权教师策略与仅使用本体感受信息的学生策略之间表征不对齐、行为克隆导致的协变量偏移以及缺乏可部署适应性等问题。TAR利用自监督对比学习，通过在模拟环境中将学生策略的表征与特权教师策略对齐，使学生策略学习到结构化的潜在空间，并展现出对分布外（OOD）场景的鲁棒泛化能力，甚至超越了完全特权的“教师”。实验结果表明，TAR相比现有最优方法，训练速度提升了2倍，OOD场景下的泛化性能平均提升了40%。此外，TAR能够无缝过渡到部署期间的学习，无需特权状态，为样本高效、自适应的运动控制设定了新的基准，并支持在真实环境中持续微调。代码和视频已开源。

🔬 方法详解

问题定义：现有基于强化学习的四足机器人运动控制方法，通常采用教师-学生框架。教师策略拥有特权信息（例如环境的完整状态），而学生策略仅依赖本体感受信息。这种差异导致表征不对齐，限制了学生策略的泛化能力。此外，行为克隆引入的协变量偏移以及缺乏部署时的适应性，进一步降低了真实环境中的性能。

核心思路：TAR的核心思想是通过对比学习，将学生策略学习到的表征与教师策略的表征对齐。通过最小化学生和教师在相似状态下的表征差异，学生策略可以学习到更具结构化和泛化性的潜在空间。这种对齐过程利用了教师的特权信息，同时避免了直接模仿学习的局限性。

技术框架：TAR框架包含两个主要部分：教师策略和学生策略。教师策略使用特权信息进行训练，提供运动控制的指导信号。学生策略仅使用本体感受信息进行训练，并通过对比学习与教师策略对齐。具体流程如下：1) 使用教师策略生成运动轨迹数据。2) 使用学生策略学习运动控制策略。3) 使用对比学习损失函数，将学生策略的表征与教师策略的表征对齐。4) 在真实环境中进行部署和微调。

关键创新：TAR最重要的创新点在于使用对比学习来对齐教师和学生策略的表征。与传统的行为克隆方法相比，对比学习能够更有效地利用教师的知识，并避免协变量偏移问题。此外，TAR框架支持在真实环境中进行持续微调，进一步提升了泛化能力。

关键设计：TAR的关键设计包括：1) 使用InfoNCE损失函数作为对比学习的目标函数，鼓励学生策略学习与教师策略相似的表征。2) 设计了特定的网络结构，用于提取学生和教师策略的表征。3) 采用了课程学习策略，逐步增加训练难度，提升学习效率。4) 在真实环境中，使用自监督学习方法进行微调，进一步提升泛化能力。

🖼️ 关键图片

📊 实验亮点

实验结果表明，TAR框架在四足机器人运动控制任务中取得了显著的性能提升。与现有最优方法相比，TAR的训练速度提升了2倍，达到峰值性能。在分布外（OOD）场景下，TAR的泛化性能平均提升了40%。此外，TAR能够无缝过渡到部署期间的学习，无需特权状态，为样本高效、自适应的运动控制设定了新的基准。

🎯 应用场景

TAR框架可应用于各种四足机器人运动控制任务，例如搜索救援、物流运输、地形勘探等。该方法能够提升机器人在复杂、未知环境中的运动能力和适应性，具有重要的实际应用价值。未来，可以将TAR框架扩展到其他类型的机器人和运动控制任务中，例如人形机器人、无人机等。

📄 摘要（原文）

Quadrupedal locomotion via Reinforcement Learning (RL) is commonly addressed using the teacher-student paradigm, where a privileged teacher guides a proprioceptive student policy. However, key challenges such as representation misalignment between privileged teacher and proprioceptive-only student, covariate shift due to behavioral cloning, and lack of deployable adaptation; lead to poor generalization in real-world scenarios. We propose Teacher-Aligned Representations via Contrastive Learning (TAR), a framework that leverages privileged information with self-supervised contrastive learning to bridge this gap. By aligning representations to a privileged teacher in simulation via contrastive objectives, our student policy learns structured latent spaces and exhibits robust generalization to Out-of-Distribution (OOD) scenarios, surpassing the fully privileged "Teacher". Results showed accelerated training by 2x compared to state-of-the-art baselines to achieve peak performance. OOD scenarios showed better generalization by 40% on average compared to existing methods. Moreover, TAR transitions seamlessly into learning during deployment without requiring privileged states, setting a new benchmark in sample-efficient, adaptive locomotion and enabling continual fine-tuning in real-world scenarios. Open-source code and videos are available at https://amrmousa.com/TARLoco/.

TAR: Teacher-Aligned Representations via Contrastive Learning for Quadrupedal Locomotion

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理