RepSAM: Bridging Foundation Models to Robotic Vision via Representation-Guided Adaptation
作者: Wenhui Chu
分类: cs.RO, cs.CV
发布日期: 2026-05-25
备注: Accepted to IJCAI-ECAI 2026 (Special Track on AI and Robotics). 8 pages, 4 figures, 12 tables
💡 一句话要点
RepSAM:通过表征引导的适配,桥接基础模型与机器人视觉
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人视觉 基础模型 参数高效微调 表征学习 领域自适应
📋 核心要点
- 现有方法在机器人视觉任务中,由于基础模型各层表征偏移不一致,导致零样本性能下降。
- RepSAM通过CKA引导的秩分配策略和多模态融合模块,实现基础模型到机器人视觉的参数高效微调。
- 实验表明,RepSAM在显著减少可训练参数的同时,在多个基准测试和机器人操作任务中取得了显著的性能提升。
📝 摘要(中文)
尽管如SAM等基础模型具备零样本能力,但在非结构化环境中进行机器人感知仍然充满挑战。本文将性能下降归因于Transformer层间非均匀的表征偏移:浅层表现出显著的领域差距(CKA < 0.5),而深层则能有效迁移(CKA > 0.7)。基于此,我们提出了RepSAM,一种表征引导的参数高效微调(PEFT)框架,用于将基础模型适配到机器人视觉。RepSAM采用理论上可靠的CKA引导的秩分配策略,并结合多模态融合模块,以稳健地处理具有挑战性的机器人场景,包括透明物体和杂乱场景。在六个基准测试和机器人操作任务中的实验评估表明,RepSAM实现了完整微调性能的97.9%(89.0% vs. 90.9% mIoU),同时将可训练参数减少了158倍(从6.32亿到400万)。RepSAM仅用单个A100 GPU上4小时的训练时间,就比DoRA的mIoU高出7.9%(比完整微调减少了96倍,后者需要384 GPU小时)。这些改进具有统计学意义(p < 0.01),并转化为机器人操作成功率相对于LoRA(RGB)基线的12.0%的绝对提升。
🔬 方法详解
问题定义:论文旨在解决基础模型(如SAM)在机器人视觉任务中,由于领域差异导致的性能下降问题。现有方法直接应用基础模型或进行全参数微调,前者效果不佳,后者计算成本过高,难以适应资源受限的机器人应用场景。特别是在浅层网络中,领域差异更为明显,导致表征迁移效果差。
核心思路:论文的核心思路是观察到Transformer网络不同层之间的表征迁移能力存在差异,浅层网络的领域差异较大,而深层网络则具有较好的迁移能力。因此,通过表征相似性度量(CKA)来指导参数高效微调(PEFT),针对不同层分配不同的可训练参数量,从而实现更有效的模型适配。
技术框架:RepSAM框架主要包含两个关键模块:CKA引导的秩分配策略和多模态融合模块。首先,利用CKA计算基础模型在源域(预训练数据)和目标域(机器人视觉数据)上的表征相似性,根据相似性程度为Transformer的不同层分配不同的秩(rank),决定了该层可训练参数的数量。其次,引入多模态融合模块,用于整合来自不同传感器(如RGB图像和深度信息)的数据,以增强模型在复杂机器人场景下的鲁棒性。
关键创新:RepSAM的关键创新在于提出了表征引导的参数高效微调方法。与传统的PEFT方法(如LoRA)不同,RepSAM不是均匀地分配可训练参数,而是根据各层表征的领域相似性动态地调整参数量。这种方法能够更有效地利用有限的计算资源,并更好地适应目标任务的特点。此外,多模态融合模块的引入也增强了模型在复杂环境下的适应性。
关键设计:CKA相似性度量用于量化不同层之间的表征相似性,并指导秩的分配。具体来说,CKA值较低的层分配较高的秩,允许更多的参数进行调整,以弥补领域差异;CKA值较高的层分配较低的秩,保持预训练模型的知识。多模态融合模块的具体结构未知,但推测可能采用了注意力机制或其他融合策略,以有效地整合不同模态的信息。损失函数未知,但推测可能采用了交叉熵损失或Dice损失等常用的分割损失函数。
🖼️ 关键图片
📊 实验亮点
RepSAM在六个基准测试和机器人操作任务中表现出色,实现了全参数微调性能的97.9%(89.0% vs. 90.9% mIoU),同时将可训练参数减少了158倍。与DoRA相比,RepSAM仅用单个A100 GPU上4小时的训练时间,就比DoRA的mIoU高出7.9%。在机器人操作任务中,RepSAM相对于LoRA(RGB)基线,实现了12.0%的绝对成功率提升。
🎯 应用场景
RepSAM在机器人操作、自动驾驶、智能制造等领域具有广泛的应用前景。它可以帮助机器人更好地理解和感知周围环境,从而实现更安全、更高效的自主导航、物体抓取和任务执行。通过参数高效微调,RepSAM降低了模型部署的计算成本,使其更易于在资源受限的机器人平台上应用。未来,RepSAM可以进一步扩展到其他机器人视觉任务,如目标检测、姿态估计等。
📄 摘要(原文)
Robotic perception in unstructured environments remains challenging despite the zero-shot capabilities of foundation models such as SAM. This work attributes performance degradation to non-uniform representation shifts across transformer layers: shallow layers exhibit substantial domain gaps (CKA < 0.5), whereas deep layers transfer effectively (CKA > 0.7). Based on this observation, we propose RepSAM, a representation-guided parameter-efficient fine-tuning (PEFT) framework for adapting foundation models to robotic vision. RepSAM employs a theoretically grounded CKA-guided rank allocation strategy combined with a multi-modal fusion module for robust handling of challenging robotic scenarios, including transparent objects and cluttered scenes. Experimental evaluation across six benchmarks and robotic manipulation tasks demonstrates that RepSAM achieves 97.9% of full fine-tuning performance (89.0% vs. 90.9% mIoU) while reducing trainable parameters by 158x (from 632M to 4.0M). RepSAM outperforms DoRA by 7.9% mIoU with just 4 hours of training on a single A100 GPU (a 96x reduction from full fine-tuning, which takes 384 GPU-hours). These improvements are statistically significant (p < 0.01) and translate to a 12.0% absolute improvement in robotic manipulation success rates over the LoRA (RGB) baseline.