Sampling-Based System Identification with Active Exploration for Legged Robot Sim2Real Learning

📄 arXiv: 2505.14266v1 📥 PDF

作者: Nikhil Sobanbabu, Guanqi He, Tairan He, Yuxiang Yang, Guanya Shi

分类: cs.RO

发布日期: 2025-05-20


💡 一句话要点

SPI-Active:结合主动探索的采样系统辨识,提升腿足机器人Sim2Real迁移性能

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: Sim2Real 系统辨识 主动探索 腿足机器人 强化学习

📋 核心要点

  1. 领域随机化(DR)是常用的Sim2Real方法,但依赖启发式调整,易导致保守策略和性能下降。
  2. SPI-Active通过采样系统辨识关键物理参数,并主动探索真实环境,缩小仿真与现实差距。
  3. 实验表明,SPI-Active在多种运动任务中,性能超越基线方法42-63%,实现精确的Sim2Real迁移。

📝 摘要(中文)

本文提出了一种名为SPI-Active(Sampling-based Parameter Identification with Active Exploration)的两阶段框架,用于估计腿足机器人的物理参数,从而缩小仿真与现实之间的差距。SPI-Active通过大规模并行采样,稳健地辨识关键物理参数,并最小化仿真和真实世界轨迹之间的状态预测误差。为了进一步提高收集数据的有效性,本文引入了一种主动探索策略,通过优化探索策略的输入指令,最大化收集到的真实世界轨迹的Fisher信息。这种有针对性的探索能够实现精确的辨识,并在各种任务中实现更好的泛化。实验表明,SPI-Active能够实现学习策略到真实世界的精确Sim2Real迁移,在各种运动任务中,性能优于基线方法42-63%。

🔬 方法详解

问题定义:现有基于学习的腿足机器人控制策略在Sim2Real迁移时面临挑战,领域随机化方法依赖人工调整,且可能导致保守的控制策略。传统的系统辨识方法通常需要可微的动力学模型或直接的扭矩测量,这在接触丰富的腿足机器人系统中难以满足。

核心思路:SPI-Active的核心思路是通过采样的方式进行系统辨识,并结合主动探索策略来提高辨识的准确性和效率。通过最小化仿真和真实轨迹之间的状态预测误差来估计机器人参数,并利用主动探索策略来收集信息量更大的数据。

技术框架:SPI-Active是一个两阶段框架:第一阶段是基于采样的参数辨识,通过大规模并行采样,在仿真环境中生成大量参数组合,并与真实世界的数据进行对比,选择最优参数。第二阶段是主动探索,通过优化探索策略的输入指令,最大化Fisher信息,从而收集更有价值的真实世界数据。

关键创新:SPI-Active的关键创新在于结合了采样系统辨识和主动探索策略。传统的系统辨识方法依赖于可微动力学模型或直接扭矩测量,而SPI-Active通过采样的方式避免了这些限制。主动探索策略能够有针对性地收集数据,提高辨识的效率和准确性。

关键设计:在参数辨识阶段,使用大规模并行采样来探索参数空间,并使用状态预测误差作为损失函数。在主动探索阶段,通过优化探索策略的输入指令来最大化Fisher信息。具体的优化算法和探索策略的选择取决于具体的任务和机器人平台。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SPI-Active在各种运动任务中,性能优于基线方法42-63%,证明了其在Sim2Real迁移方面的有效性。通过主动探索策略,能够更有效地收集信息量大的数据,从而提高系统辨识的准确性和效率。该方法在实际腿足机器人平台上进行了验证,具有较强的实用价值。

🎯 应用场景

该研究成果可应用于腿足机器人的运动控制、故障诊断和性能优化等领域。通过精确的系统辨识,可以提高机器人在复杂环境中的适应性和鲁棒性,加速学习算法的Sim2Real迁移过程,降低开发成本,并为未来的自主机器人研究奠定基础。

📄 摘要(原文)

Sim-to-real discrepancies hinder learning-based policies from achieving high-precision tasks in the real world. While Domain Randomization (DR) is commonly used to bridge this gap, it often relies on heuristics and can lead to overly conservative policies with degrading performance when not properly tuned. System Identification (Sys-ID) offers a targeted approach, but standard techniques rely on differentiable dynamics and/or direct torque measurement, assumptions that rarely hold for contact-rich legged systems. To this end, we present SPI-Active (Sampling-based Parameter Identification with Active Exploration), a two-stage framework that estimates physical parameters of legged robots to minimize the sim-to-real gap. SPI-Active robustly identifies key physical parameters through massive parallel sampling, minimizing state prediction errors between simulated and real-world trajectories. To further improve the informativeness of collected data, we introduce an active exploration strategy that maximizes the Fisher Information of the collected real-world trajectories via optimizing the input commands of an exploration policy. This targeted exploration leads to accurate identification and better generalization across diverse tasks. Experiments demonstrate that SPI-Active enables precise sim-to-real transfer of learned policies to the real world, outperforming baselines by 42-63% in various locomotion tasks.