Diversity You Can Actually Measure: A Fast, Model-Free Diversity Metric for Robotics Datasets

📄 arXiv: 2603.11634v1 📥 PDF

作者: Sreevardhan Sirigiri, Nathan Samuel de Lara, Christopher Agia, Florian Shkurti, Fabio Ramos

分类: cs.RO

发布日期: 2026-03-12


💡 一句话要点

提出FAKTUAL,一种快速、无模型的机器人数据集多样性度量与数据筛选方法,提升模仿学习泛化性能。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 机器人模仿学习 数据集多样性 数据筛选 signature transform 熵度量

📋 核心要点

  1. 机器人模仿学习数据集多样性难以量化,现有方法难以有效处理不同长度轨迹和高维观测。
  2. 提出基于signature transform的熵度量方法,直接在演示数据集上计算多样性,无需模型或策略。
  3. FAKTUAL算法通过最大化熵来筛选多样性子集,实验表明能显著提升模仿学习的泛化性能。

📝 摘要(中文)

针对模仿学习中机器人数据集通常包含不同长度的轨迹,状态、动作和高维观测(如RGB视频)难以量化多样性的问题,本文通过在基于signature transform的Gram矩阵上定义signature kernel,将香农熵和冯诺依曼熵扩展到该场景,从而直接在演示数据集上计算熵和多样性指标。基于这些指标,研究了数据集多样性如何影响机器人模仿学习的泛化性能,并提出了一种简单的、无模型的数据筛选方法来构建多样化的演示数据集。本文提出了FAKTUAL,一种数据筛选算法,可以在给定子集大小预算的情况下,选择最大化熵的演示子集。FAKTUAL完全无模型,无需访问模仿策略或rollout,并且相对于策略训练,增加的开销可以忽略不计。在基于图像和状态的RoboMimic和MetaWorld基准测试以及四个真实操作任务中评估了该方法。在各种任务和架构中,使用FAKTUAL进行多样性感知筛选始终优于随机选择,并且比最近的机器人数据筛选方法在计算上更有效。结果表明,演示数据集的熵是理解和提高机器人模仿学习中数据集多样性的实用工具。

🔬 方法详解

问题定义:机器人模仿学习的数据集通常包含不同长度的轨迹,并且包含高维观测数据,例如RGB图像。如何有效地量化这些数据集的多样性,并利用多样性来提升模仿学习的性能是一个挑战。现有的方法要么计算复杂度高,要么需要访问策略或rollout,不适用于大规模数据集和在线学习。

核心思路:本文的核心思路是利用signature transform来表征轨迹,并在此基础上定义signature kernel。通过计算signature kernel的Gram矩阵,可以得到数据集的相似性矩阵。然后,利用香农熵和冯诺伊曼熵来度量Gram矩阵的多样性,从而得到数据集的多样性度量。这种方法不需要访问策略或rollout,并且计算效率高。

技术框架:FAKTUAL算法的整体流程如下:1) 使用signature transform将原始轨迹数据转换为signature特征。2) 计算signature kernel的Gram矩阵,得到数据集的相似性矩阵。3) 使用香农熵或冯诺伊曼熵来度量Gram矩阵的多样性。4) 使用贪心算法选择最大化熵的演示子集。

关键创新:本文最重要的技术创新点在于提出了基于signature transform的熵度量方法,可以直接在演示数据集上计算多样性,而不需要访问策略或rollout。此外,FAKTUAL算法是一种快速、无模型的数据筛选方法,可以有效地选择多样性的演示子集。

关键设计:在signature transform中,需要选择合适的截断长度。在signature kernel中,可以使用高斯核或线性核。在熵度量中,可以使用香农熵或冯诺伊曼熵。FAKTUAL算法使用贪心算法选择最大化熵的演示子集,每次选择一个能够最大程度增加熵的样本。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在RoboMimic、MetaWorld和真实机器人操作任务上的实验结果表明,FAKTUAL算法能够显著提高模仿学习的成功率。例如,在某些任务上,使用FAKTUAL算法筛选的数据集比随机选择的数据集成功率提高了10%以上。此外,FAKTUAL算法的计算效率远高于其他数据筛选方法,可以在实际应用中快速筛选大规模数据集。

🎯 应用场景

该研究成果可应用于各种机器人模仿学习任务,例如机器人操作、自动驾驶等。通过使用FAKTUAL算法筛选多样性的演示数据集,可以提高模仿学习模型的泛化能力和鲁棒性,从而降低机器人部署的成本和风险。该方法还可用于主动学习和强化学习等领域,指导数据采集和探索。

📄 摘要(原文)

Robotics datasets for imitation learning typically consist of long-horizon trajectories of different lengths over states, actions, and high-dimensional observations (e.g., RGB video), making it non-trivial to quantify diversity in a way that respects the underlying trajectory structure and geometry. We extend Shannon and von Neumann entropy to this setting by defining signature transform-based entropy on the Gram matrix of a signature kernel over demonstrations, yielding entropy and diversity metrics that operate directly on the demonstration dataset. Building on these metrics, we study how dataset diversity affects generalization performance in robot imitation learning and propose a simple, model-free way to curate diverse demonstrations. We introduce FAKTUAL (FAst trajectory Kernel enTropy cUration for imitation Learning), a data curation algorithm that selects a subset of demonstrations maximizing entropy given a subset-size budget. FAKTUAL is fully model-free, requires no access to the imitation policy or rollouts, and adds negligible overhead relative to policy training. We evaluate our approach on image and state-based RoboMimic and MetaWorld benchmarks, as well as four real-world manipulation tasks. Across tasks and architectures, diversity-aware curation with FAKTUAL consistently improves downstream success rates over random selection, while being substantially more computationally efficient compared to recent robot data curation methods. Our results suggest that the entropy of demonstration datasets is a practical tool for understanding and improving dataset diversity in robot imitation learning.