Atomic-Probe Governance for Skill Updates in Compositional Robot Policies
作者: Xue Qin, Simin Luan, John See, Cong Yang, Zhijun Li
分类: cs.RO, cs.AI
发布日期: 2026-04-29
备注: 8 pages main text + appendix; 3 figures, 12 tables;
💡 一句话要点
提出原子探针治理方法,用于组合机器人策略中技能更新的可靠性保障
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 组合机器人策略 技能更新 原子质量探针 混合选择器 机器人学习 技能治理 策略评估
📋 核心要点
- 现有组合机器人技能学习方法在技能更新后缺乏对组合策略性能变化的有效评估。
- 提出原子质量探针和混合选择器,通过低成本的原子技能评估和选择性组合验证,实现技能更新的可靠性治理。
- 实验表明,原子质量探针在保证性能的同时显著降低了计算成本,为技能更新提供了一种高效的治理方案。
📝 摘要(中文)
已部署机器人系统中的技能库会持续更新,通过微调、新的演示或领域自适应等方式进行。然而,现有的类型化组合方法(如BLADE、SymSkill、Generative Skill Chaining)将技能库视为在测试时冻结的,并且不分析当技能被替换时组合结果如何变化。本文在robosuite操作任务上引入了一种配对采样的跨版本交换协议,以表征组合技能学习的这一维度。在双臂插孔任务中,我们发现了一种主导技能效应:一个ECM实现了86.7%的原子成功率,而其他ECM的成功率均低于或等于26.7%,并且该主导ECM是否进入组合会使成功率变化高达+50个百分点。我们在一个更简单的抓取任务上表征了边界,其中所有原子策略都饱和在100%,并且该效应未定义。在三个任务中,我们进一步发现,离策略行为距离度量无法识别主导ECM,排除了自然的廉价预测器。我们提出了一种原子质量探针和一个混合选择器,该选择器结合了每个技能的探针(零决策成本)和选择性组合重新验证(全成本),并表征了其在144个技能更新决策上的帕累托前沿。在T6上,仅原子探针比完全重新验证低23个百分点(64.6% vs 87.5%的oracle匹配),且每个决策成本为零;一个m=10的混合选择器将大部分差距缩小到约12个百分点,成本为完全重新验证的46%。在144个事件的跨任务平均中,在混合oracle警告下,仅原子探针与完全重新验证相差3个百分点。据我们所知,原子质量探针是第一个有原则的、可部署的技能更新治理基元,用于组合机器人策略。
🔬 方法详解
问题定义:论文旨在解决组合机器人策略中技能库更新后,如何保证组合策略性能的问题。现有方法通常将技能库视为静态的,忽略了技能更新对组合策略的影响,导致策略性能下降或不稳定。现有的离策略行为距离度量无法有效识别关键技能,因此需要一种新的方法来评估技能更新的有效性。
核心思路:论文的核心思路是通过评估原子技能的质量来预测组合策略的性能变化。具体来说,论文提出了一种原子质量探针,用于评估每个原子技能的性能。然后,利用这些探针的结果来指导技能更新的选择,并结合选择性的组合策略重新验证,以进一步提高性能。这种方法旨在在性能和计算成本之间取得平衡。
技术框架:整体框架包含以下几个主要步骤:1) 技能更新:通过微调、新的演示或领域自适应等方式更新技能库中的原子技能。2) 原子质量探针:使用原子质量探针评估每个更新后的原子技能的性能。3) 混合选择器:根据原子质量探针的结果,选择性地重新验证组合策略。混合选择器结合了低成本的原子技能评估和高成本的组合策略重新验证,以实现性能和成本之间的平衡。4) 策略部署:将更新后的技能库和组合策略部署到机器人系统中。
关键创新:论文的关键创新在于提出了原子质量探针和混合选择器,用于技能更新的治理。原子质量探针提供了一种低成本的原子技能评估方法,而混合选择器则结合了原子技能评估和组合策略重新验证,以实现性能和成本之间的平衡。与现有方法相比,该方法能够更有效地评估技能更新的有效性,并保证组合策略的性能。
关键设计:原子质量探针的具体实现方式取决于具体的任务和技能。例如,在插孔任务中,可以使用原子技能的成功率作为原子质量探针。混合选择器的关键参数是重新验证的组合策略的数量(m)。论文通过实验分析了m对性能和成本的影响,并提出了选择m的策略。
🖼️ 关键图片
📊 实验亮点
实验结果表明,原子质量探针在T6任务上比完全重新验证低23个百分点(64.6% vs 87.5%的oracle匹配),但每个决策成本为零。一个m=10的混合选择器将大部分差距缩小到约12个百分点,成本为完全重新验证的46%。在144个事件的跨任务平均中,仅原子探针与完全重新验证相差3个百分点,表明该方法在保证性能的同时显著降低了计算成本。
🎯 应用场景
该研究成果可应用于各种需要持续技能更新的机器人系统,例如工业机器人、服务机器人和自动驾驶汽车。通过原子探针治理,可以确保技能更新后的机器人系统仍然能够安全可靠地执行任务,提高系统的鲁棒性和适应性。该方法还有助于降低机器人系统的维护成本,并提高其长期运行的效率。
📄 摘要(原文)
Skill libraries in deployed robotic systems are continually updated through fine-tuning, fresh demonstrations, or domain adaptation, yet existing typed-composition methods (BLADE, SymSkill, Generative Skill Chaining) treat the library as frozen at test time and do not analyze how composition outcomes change when a skill is replaced. We introduce a paired-sampling cross-version swap protocol on robosuite manipulation tasks to characterize this dimension of compositional skill learning. On a dual-arm peg-in-hole task we discover a dominant-skill effect: one ECM achieves 86.7% atomic success rate while every other ECM is at or below 26.7%, and whether this dominant ECM enters a composition shifts the success rate by up to +50pp. We characterize the boundary on a simpler pick task where all atomic policies saturate at 100% and the effect is undefined. Across three tasks we further find that off-policy behavioral distance metrics fail to identify the dominant ECM, ruling out the natural cheap predictor. We propose an atomic-quality probe and a Hybrid Selector combining per-skill probes (zero per-decision cost) with selective composition revalidation (full cost), and characterize its Pareto frontier on 144 skill-update decisions. On T6 the atomic-only probe sits 23pp below full revalidation (64.6% vs 87.5% oracle match) at zero per-decision cost; a Hybrid Selector with m=10 closes most of that gap to ~12pp at 46% of full-revalidation cost. On the cross-task average over 144 events, atomic-only is within 3pp of full revalidation under a mixed-oracle caveat. The atomic-quality probe is, to our knowledge, the first principled, deployment-ready primitive for skill-update governance in compositional robot policies.