Active Stereo-Camera Outperforms Multi-Sensor Setup in ACT Imitation Learning for Humanoid Manipulation

📄 arXiv: 2603.28422v1 📥 PDF

作者: Robin Kühn, Moritz Schappler, Thomas Seel, Dennis Bank

分类: cs.RO

发布日期: 2026-03-30

备注: 7 pages


💡 一句话要点

主动双目相机在人形机器人操作的ACT模仿学习中优于多传感器配置

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 人形机器人 模仿学习 传感器选择 主动视觉 触觉传感器 动作块 消融研究

📋 核心要点

  1. 人形机器人操作任务学习复杂,现有模仿学习方法对传感器的选择缺乏明确指导。
  2. 论文提出一种统一消融框架,通过传感器掩蔽评估不同传感器组合对模仿学习性能的影响。
  3. 实验表明,在数据有限情况下,主动双目相机优于复杂多传感器配置,触觉传感器反而可能降低性能。

📝 摘要(中文)

人形机器人任务教学的复杂性是阻碍其在工业界广泛应用的主要原因之一。模仿学习(IL),特别是基于Transformer的动作块(ACT),能够快速获取任务,但对于操作任务所需的最佳传感硬件尚未达成共识。本文在配备三指手的Unitree G1人形机器人上,针对两个操作任务,对14种传感器组合进行了基准测试。我们明确评估了触觉和本体感觉模态与主动视觉的集成。分析表明,在数据有限的情况下,战略性传感器选择可以优于复杂的配置,同时降低计算开销。我们开发了一个开源的统一消融框架,该框架利用综合主数据集上的传感器掩蔽。结果表明,对于数据有限的IL,额外的模态通常会降低性能。最小的主动双目相机设置优于复杂的多传感器配置,在空间泛化任务中实现了87.5%的成功率,在结构化操作任务中实现了94.4%的成功率。相反,由于信噪比低,将压力传感器添加到此设置中,在后一项任务中成功率降至67.3%。我们得出结论,在数据有限的情况下,主动视觉在鲁棒性和复杂性之间提供了更好的权衡。虽然触觉模态可能需要更大的数据集才能有效,但我们的研究结果验证了战略性传感器选择对于设计高效学习过程至关重要。

🔬 方法详解

问题定义:现有模仿学习方法在人形机器人操作任务中,对于应该选择哪些传感器组合缺乏明确的指导。盲目增加传感器种类,不仅会增加计算开销,还可能因为数据量不足或信噪比低而降低学习性能。因此,需要一种系统的方法来评估不同传感器组合对模仿学习效果的影响,从而为人形机器人操作任务选择合适的传感器配置。

核心思路:论文的核心思路是通过构建一个统一的消融框架,对各种传感器组合进行系统性的评估。该框架允许通过传感器掩蔽的方式,灵活地控制哪些传感器的数据被用于模仿学习。通过在真实机器人平台上进行实验,比较不同传感器组合下的模仿学习性能,从而找到在数据有限情况下,能够实现最佳性能的传感器配置。

技术框架:该研究的技术框架主要包含以下几个部分:1) 数据采集:使用配备多种传感器的Unitree G1人形机器人,执行两个操作任务,收集包含视觉、触觉、本体感觉等多种模态的数据。2) 统一消融框架:开发一个开源的统一消融框架,该框架允许通过传感器掩蔽的方式,灵活地选择哪些传感器的数据被用于模仿学习。3) 模仿学习算法:采用基于Transformer的动作块(ACT)作为模仿学习算法。4) 实验评估:在真实机器人平台上,对14种不同的传感器组合进行实验评估,比较它们在两个操作任务上的性能。

关键创新:该论文的关键创新在于提出了一个统一的消融框架,用于系统性地评估不同传感器组合对模仿学习性能的影响。该框架允许研究人员灵活地控制哪些传感器的数据被用于模仿学习,从而能够更有效地找到在数据有限情况下,能够实现最佳性能的传感器配置。此外,该研究还发现,在数据有限的情况下,主动双目相机优于复杂的多传感器配置,触觉传感器反而可能降低性能,这为人形机器人操作任务的传感器选择提供了重要的指导。

关键设计:该研究的关键设计包括:1) 传感器掩蔽机制:通过传感器掩蔽,可以灵活地控制哪些传感器的数据被用于模仿学习。2) 统一的数据集:所有传感器组合的评估都基于同一个数据集,从而保证了实验结果的可比性。3) 评价指标:采用成功率作为评价指标,用于衡量模仿学习的性能。4) 任务选择:选择了空间泛化任务和结构化操作任务,以评估不同传感器组合在不同类型任务上的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在空间泛化任务中,仅使用主动双目相机即可达到87.5%的成功率,在结构化操作任务中达到94.4%的成功率,优于包含触觉传感器等更复杂的配置。添加压力传感器反而使结构化操作任务的成功率降至67.3%。这表明在数据有限的情况下,主动视觉提供了更好的鲁棒性和效率。

🎯 应用场景

该研究成果可应用于人形机器人操作任务的传感器选择和配置,例如工业装配、家庭服务、医疗辅助等领域。通过选择合适的传感器组合,可以提高机器人在数据有限情况下的学习效率和操作性能,降低成本和计算开销。未来的研究可以探索如何更有效地利用触觉等模态的信息,以及如何将该框架应用于更复杂的任务和机器人平台。

📄 摘要(原文)

The complexity of teaching humanoid robots new tasks is one of the major reasons hindering their widespread adoption in the industry. While Imitation Learning (IL), particularly Action Chunking with Transformers (ACT), enables rapid task acquisition, there is no consensus yet on the optimal sensory hardware required for manipulation tasks. This paper benchmarks 14 sensor combinations on the Unitree G1 humanoid robot equipped with three-finger hands for two manipulation tasks. We explicitly evaluate the integration of tactile and proprioceptive modalities alongside active vision. Our analysis demonstrates that strategic sensor selection can outperform complex configurations in data-limited regimes while reducing computational overhead. We develop an open-source Unified Ablation Framework that utilizes sensor masking on a comprehensive master dataset. Results indicate that additional modalities often degrade performance for IL with limited data. A minimal active stereo-camera setup outperformed complex multi-sensor configurations, achieving 87.5% success in a spatial generalization task and 94.4% in a structured manipulation task. Conversely, adding pressure sensors to this setup reduced success to 67.3% in the latter task due to a low signal-to-noise ratio. We conclude that in data-limited regimes, active vision offers a superior trade-off between robustness and complexity. While tactile modalities may require larger datasets to be effective, our findings validate that strategic sensor selection is critical for designing an efficient learning process.