TAR: Teacher-Aligned Representations via Contrastive Learning for Quadrupedal Locomotion
作者: Amr Mousa, Neil Karavis, Michele Caprio, Wei Pan, Richard Allmendinger
分类: cs.RO, cs.LG, eess.SY
发布日期: 2025-03-26 (更新: 2025-08-14)
备注: This work has been accepted for publication at the IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS) 2025
期刊: 2025 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), Hangzhou, China, 2025, pp. 11669-11676
DOI: 10.1109/IROS60139.2025.11247281
💡 一句话要点
提出TAR框架,通过对比学习对齐教师表征,提升四足机器人运动泛化性。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 四足机器人 强化学习 对比学习 表征学习 运动控制
📋 核心要点
- 现有四足机器人强化学习方法中,教师-学生范式存在表征不对齐、协变量偏移等问题,导致真实环境泛化性差。
- TAR框架利用对比学习,将学生策略的表征与特权教师策略对齐,学习结构化潜在空间,提升泛化能力。
- 实验表明,TAR训练速度提升2倍,分布外场景泛化性能平均提升40%,并支持真实环境下的持续微调。
📝 摘要(中文)
本文提出了一种名为“通过对比学习对齐教师表征”(TAR)的框架,旨在解决四足机器人强化学习运动控制中,特权教师策略与仅使用本体感受信息的学生策略之间表征不对齐、行为克隆导致的协变量偏移以及缺乏可部署适应性等问题。TAR利用自监督对比学习,通过在模拟环境中将学生策略的表征与特权教师策略对齐,使学生策略学习到结构化的潜在空间,并展现出对分布外(OOD)场景的鲁棒泛化能力,甚至超越了完全特权的“教师”。实验结果表明,TAR相比现有最优方法,训练速度提升了2倍,OOD场景下的泛化性能平均提升了40%。此外,TAR能够无缝过渡到部署期间的学习,无需特权状态,为样本高效、自适应的运动控制设定了新的基准,并支持在真实环境中持续微调。代码和视频已开源。
🔬 方法详解
问题定义:现有基于强化学习的四足机器人运动控制方法,通常采用教师-学生框架。教师策略拥有特权信息(例如环境的完整状态),而学生策略仅依赖本体感受信息。这种差异导致表征不对齐,限制了学生策略的泛化能力。此外,行为克隆引入的协变量偏移以及缺乏部署时的适应性,进一步降低了真实环境中的性能。
核心思路:TAR的核心思想是通过对比学习,将学生策略学习到的表征与教师策略的表征对齐。通过最小化学生和教师在相似状态下的表征差异,学生策略可以学习到更具结构化和泛化性的潜在空间。这种对齐过程利用了教师的特权信息,同时避免了直接模仿学习的局限性。
技术框架:TAR框架包含两个主要部分:教师策略和学生策略。教师策略使用特权信息进行训练,提供运动控制的指导信号。学生策略仅使用本体感受信息进行训练,并通过对比学习与教师策略对齐。具体流程如下:1) 使用教师策略生成运动轨迹数据。2) 使用学生策略学习运动控制策略。3) 使用对比学习损失函数,将学生策略的表征与教师策略的表征对齐。4) 在真实环境中进行部署和微调。
关键创新:TAR最重要的创新点在于使用对比学习来对齐教师和学生策略的表征。与传统的行为克隆方法相比,对比学习能够更有效地利用教师的知识,并避免协变量偏移问题。此外,TAR框架支持在真实环境中进行持续微调,进一步提升了泛化能力。
关键设计:TAR的关键设计包括:1) 使用InfoNCE损失函数作为对比学习的目标函数,鼓励学生策略学习与教师策略相似的表征。2) 设计了特定的网络结构,用于提取学生和教师策略的表征。3) 采用了课程学习策略,逐步增加训练难度,提升学习效率。4) 在真实环境中,使用自监督学习方法进行微调,进一步提升泛化能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,TAR框架在四足机器人运动控制任务中取得了显著的性能提升。与现有最优方法相比,TAR的训练速度提升了2倍,达到峰值性能。在分布外(OOD)场景下,TAR的泛化性能平均提升了40%。此外,TAR能够无缝过渡到部署期间的学习,无需特权状态,为样本高效、自适应的运动控制设定了新的基准。
🎯 应用场景
TAR框架可应用于各种四足机器人运动控制任务,例如搜索救援、物流运输、地形勘探等。该方法能够提升机器人在复杂、未知环境中的运动能力和适应性,具有重要的实际应用价值。未来,可以将TAR框架扩展到其他类型的机器人和运动控制任务中,例如人形机器人、无人机等。
📄 摘要(原文)
Quadrupedal locomotion via Reinforcement Learning (RL) is commonly addressed using the teacher-student paradigm, where a privileged teacher guides a proprioceptive student policy. However, key challenges such as representation misalignment between privileged teacher and proprioceptive-only student, covariate shift due to behavioral cloning, and lack of deployable adaptation; lead to poor generalization in real-world scenarios. We propose Teacher-Aligned Representations via Contrastive Learning (TAR), a framework that leverages privileged information with self-supervised contrastive learning to bridge this gap. By aligning representations to a privileged teacher in simulation via contrastive objectives, our student policy learns structured latent spaces and exhibits robust generalization to Out-of-Distribution (OOD) scenarios, surpassing the fully privileged "Teacher". Results showed accelerated training by 2x compared to state-of-the-art baselines to achieve peak performance. OOD scenarios showed better generalization by 40% on average compared to existing methods. Moreover, TAR transitions seamlessly into learning during deployment without requiring privileged states, setting a new benchmark in sample-efficient, adaptive locomotion and enabling continual fine-tuning in real-world scenarios. Open-source code and videos are available at https://amrmousa.com/TARLoco/.