RepSAM: Bridging Foundation Models to Robotic Vision via Representation-Guided Adaptation

作者: Wenhui Chu

分类: cs.RO, cs.CV

发布日期: 2026-05-25

备注: Accepted to IJCAI-ECAI 2026 (Special Track on AI and Robotics). 8 pages, 4 figures, 12 tables

💡 一句话要点

RepSAM：通过表征引导的适配，桥接基础模型与机器人视觉

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人视觉 基础模型 参数高效微调 表征学习 领域自适应

📋 核心要点

现有方法在机器人视觉任务中，由于基础模型各层表征偏移不一致，导致零样本性能下降。
RepSAM通过CKA引导的秩分配策略和多模态融合模块，实现基础模型到机器人视觉的参数高效微调。
实验表明，RepSAM在显著减少可训练参数的同时，在多个基准测试和机器人操作任务中取得了显著的性能提升。

📝 摘要（中文）

尽管如SAM等基础模型具备零样本能力，但在非结构化环境中进行机器人感知仍然充满挑战。本文将性能下降归因于Transformer层间非均匀的表征偏移：浅层表现出显著的领域差距（CKA < 0.5），而深层则能有效迁移（CKA > 0.7）。基于此，我们提出了RepSAM，一种表征引导的参数高效微调（PEFT）框架，用于将基础模型适配到机器人视觉。RepSAM采用理论上可靠的CKA引导的秩分配策略，并结合多模态融合模块，以稳健地处理具有挑战性的机器人场景，包括透明物体和杂乱场景。在六个基准测试和机器人操作任务中的实验评估表明，RepSAM实现了完整微调性能的97.9%（89.0% vs. 90.9% mIoU），同时将可训练参数减少了158倍（从6.32亿到400万）。RepSAM仅用单个A100 GPU上4小时的训练时间，就比DoRA的mIoU高出7.9%（比完整微调减少了96倍，后者需要384 GPU小时）。这些改进具有统计学意义（p < 0.01），并转化为机器人操作成功率相对于LoRA（RGB）基线的12.0%的绝对提升。

🔬 方法详解

问题定义：论文旨在解决基础模型（如SAM）在机器人视觉任务中，由于领域差异导致的性能下降问题。现有方法直接应用基础模型或进行全参数微调，前者效果不佳，后者计算成本过高，难以适应资源受限的机器人应用场景。特别是在浅层网络中，领域差异更为明显，导致表征迁移效果差。

核心思路：论文的核心思路是观察到Transformer网络不同层之间的表征迁移能力存在差异，浅层网络的领域差异较大，而深层网络则具有较好的迁移能力。因此，通过表征相似性度量（CKA）来指导参数高效微调（PEFT），针对不同层分配不同的可训练参数量，从而实现更有效的模型适配。

技术框架：RepSAM框架主要包含两个关键模块：CKA引导的秩分配策略和多模态融合模块。首先，利用CKA计算基础模型在源域（预训练数据）和目标域（机器人视觉数据）上的表征相似性，根据相似性程度为Transformer的不同层分配不同的秩（rank），决定了该层可训练参数的数量。其次，引入多模态融合模块，用于整合来自不同传感器（如RGB图像和深度信息）的数据，以增强模型在复杂机器人场景下的鲁棒性。

关键创新：RepSAM的关键创新在于提出了表征引导的参数高效微调方法。与传统的PEFT方法（如LoRA）不同，RepSAM不是均匀地分配可训练参数，而是根据各层表征的领域相似性动态地调整参数量。这种方法能够更有效地利用有限的计算资源，并更好地适应目标任务的特点。此外，多模态融合模块的引入也增强了模型在复杂环境下的适应性。

关键设计：CKA相似性度量用于量化不同层之间的表征相似性，并指导秩的分配。具体来说，CKA值较低的层分配较高的秩，允许更多的参数进行调整，以弥补领域差异；CKA值较高的层分配较低的秩，保持预训练模型的知识。多模态融合模块的具体结构未知，但推测可能采用了注意力机制或其他融合策略，以有效地整合不同模态的信息。损失函数未知，但推测可能采用了交叉熵损失或Dice损失等常用的分割损失函数。

🖼️ 关键图片

📊 实验亮点

RepSAM在六个基准测试和机器人操作任务中表现出色，实现了全参数微调性能的97.9%（89.0% vs. 90.9% mIoU），同时将可训练参数减少了158倍。与DoRA相比，RepSAM仅用单个A100 GPU上4小时的训练时间，就比DoRA的mIoU高出7.9%。在机器人操作任务中，RepSAM相对于LoRA（RGB）基线，实现了12.0%的绝对成功率提升。

🎯 应用场景

RepSAM在机器人操作、自动驾驶、智能制造等领域具有广泛的应用前景。它可以帮助机器人更好地理解和感知周围环境，从而实现更安全、更高效的自主导航、物体抓取和任务执行。通过参数高效微调，RepSAM降低了模型部署的计算成本，使其更易于在资源受限的机器人平台上应用。未来，RepSAM可以进一步扩展到其他机器人视觉任务，如目标检测、姿态估计等。

📄 摘要（原文）

Robotic perception in unstructured environments remains challenging despite the zero-shot capabilities of foundation models such as SAM. This work attributes performance degradation to non-uniform representation shifts across transformer layers: shallow layers exhibit substantial domain gaps (CKA < 0.5), whereas deep layers transfer effectively (CKA > 0.7). Based on this observation, we propose RepSAM, a representation-guided parameter-efficient fine-tuning (PEFT) framework for adapting foundation models to robotic vision. RepSAM employs a theoretically grounded CKA-guided rank allocation strategy combined with a multi-modal fusion module for robust handling of challenging robotic scenarios, including transparent objects and cluttered scenes. Experimental evaluation across six benchmarks and robotic manipulation tasks demonstrates that RepSAM achieves 97.9% of full fine-tuning performance (89.0% vs. 90.9% mIoU) while reducing trainable parameters by 158x (from 632M to 4.0M). RepSAM outperforms DoRA by 7.9% mIoU with just 4 hours of training on a single A100 GPU (a 96x reduction from full fine-tuning, which takes 384 GPU-hours). These improvements are statistically significant (p < 0.01) and translate to a 12.0% absolute improvement in robotic manipulation success rates over the LoRA (RGB) baseline.

RepSAM: Bridging Foundation Models to Robotic Vision via Representation-Guided Adaptation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理