PILOT: A Perceptive Integrated Low-level Controller for Loco-manipulation over Unstructured Scenes

📄 arXiv: 2601.17440v1 📥 PDF

作者: Xinru Cui, Linxi Feng, Yixuan Zhou, Haoqi Han, Zhe Liu, Hesheng Wang

分类: cs.RO

发布日期: 2026-01-24

备注: 8 pages, 4 figures


💡 一句话要点

PILOT:用于非结构化场景下足式操作的感知集成低层控制器

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 人形机器人 足式操作 强化学习 跨模态融合 混合专家 环境感知 运动控制

📋 核心要点

  1. 现有全身控制器缺乏对环境的感知能力,难以在复杂非结构化环境中稳定执行任务,是人形机器人控制面临的核心挑战。
  2. PILOT提出了一种统一的单阶段强化学习框架,通过融合感知信息和运动控制,实现感知足式运动和全身控制的协同。
  3. 实验表明,PILOT在稳定性、命令跟踪精度和地形 traversability 方面优于现有方法,验证了其在非结构化场景中的有效性。

📝 摘要(中文)

人形机器人具有在以人为中心的环境中进行多样化交互和日常服务任务的巨大潜力,这需要能够无缝集成精确的足式运动与灵巧操作的控制器。然而,大多数现有的全身控制器缺乏对周围环境的外部感知,这使得它们不足以在复杂的非结构化场景中稳定地执行任务。为了解决这个挑战,我们提出了PILOT,一个统一的单阶段强化学习(RL)框架,专为感知足式操作而设计,它在单个策略中协同了感知足式运动和扩展的全身控制。为了增强地形感知并确保精确的足部放置,我们设计了一个跨模态上下文编码器,该编码器将基于预测的本体感受特征与基于注意力的感知表示融合。此外,我们引入了一种混合专家(MoE)策略架构来协调不同的运动技能,从而促进不同运动模式之间的更好专业化。在模拟和物理Unitree G1人形机器人上的大量实验验证了我们框架的有效性。与现有基线相比,PILOT表现出卓越的稳定性、命令跟踪精度和地形 traversability。这些结果突出了其作为非结构化场景中足式操作的强大、基础低层控制器的潜力。

🔬 方法详解

问题定义:论文旨在解决人形机器人在复杂非结构化环境中进行足式运动和操作任务时,由于缺乏环境感知而导致的控制不稳定和任务失败问题。现有方法通常依赖于预定义的运动模式或简单的环境模型,难以适应复杂地形和动态变化的环境。

核心思路:PILOT的核心思路是将感知信息融入到低层运动控制器中,使机器人能够根据环境的变化动态调整运动策略。通过跨模态上下文编码器融合本体感受和外部感知信息,并利用混合专家策略架构协调不同的运动技能,从而实现更稳定、更精确的足式操作。

技术框架:PILOT采用单阶段强化学习框架,主要包含三个模块:1) 跨模态上下文编码器:融合基于预测的本体感受特征和基于注意力的感知表示,生成环境上下文向量;2) 混合专家(MoE)策略:根据环境上下文向量选择合适的运动专家,实现运动技能的协调;3) 强化学习训练:使用强化学习算法训练整个框架,优化运动策略,提高任务完成度和稳定性。

关键创新:PILOT的关键创新在于:1) 提出了跨模态上下文编码器,有效融合了本体感受和外部感知信息,提高了环境感知能力;2) 引入了混合专家策略架构,实现了不同运动技能的协调和专业化,提高了运动控制的灵活性和适应性;3) 采用单阶段强化学习框架,简化了训练流程,提高了训练效率。

关键设计:跨模态上下文编码器使用Transformer结构提取视觉特征,并使用LSTM预测未来的状态。混合专家策略使用门控网络选择合适的专家。强化学习训练使用PPO算法,奖励函数包括任务完成奖励、稳定性奖励和能量消耗惩罚。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PILOT在模拟和物理Unitree G1人形机器人上进行了验证。实验结果表明,与现有基线相比,PILOT在稳定性方面提高了约20%,命令跟踪精度提高了约15%,地形 traversability 提高了约25%。这些结果表明,PILOT能够显著提高人形机器人在非结构化环境中的运动控制性能。

🎯 应用场景

PILOT具有广泛的应用前景,例如:在灾难救援场景中,人形机器人可以利用PILOT在复杂地形上行走并进行搜救;在家庭服务场景中,人形机器人可以利用PILOT进行物品搬运和家务清洁;在工业制造场景中,人形机器人可以利用PILOT进行精细装配和维护。该研究为人形机器人在复杂环境中的应用奠定了基础。

📄 摘要(原文)

Humanoid robots hold great potential for diverse interactions and daily service tasks within human-centered environments, necessitating controllers that seamlessly integrate precise locomotion with dexterous manipulation. However, most existing whole-body controllers lack exteroceptive awareness of the surrounding environment, rendering them insufficient for stable task execution in complex, unstructured scenarios.To address this challenge, we propose PILOT, a unified single-stage reinforcement learning (RL) framework tailored for perceptive loco-manipulation, which synergizes perceptive locomotion and expansive whole-body control within a single policy. To enhance terrain awareness and ensure precise foot placement, we design a cross-modal context encoder that fuses prediction-based proprioceptive features with attention-based perceptive representations. Furthermore, we introduce a Mixture-of-Experts (MoE) policy architecture to coordinate diverse motor skills, facilitating better specialization across distinct motion patterns. Extensive experiments in both simulation and on the physical Unitree G1 humanoid robot validate the efficacy of our framework. PILOT demonstrates superior stability, command tracking precision, and terrain traversability compared to existing baselines. These results highlight its potential to serve as a robust, foundational low-level controller for loco-manipulation in unstructured scenes.