Exp-Force: Experience-Conditioned Pre-Grasp Force Selection with Vision-Language Models

📄 arXiv: 2603.08668v1 📥 PDF

作者: Siqi Shang, Minchao Huang, Bill Fan, Lillian Chin

分类: cs.RO

发布日期: 2026-03-09

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

Exp-Force:利用视觉-语言模型和经验学习进行预抓取力选择

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 机器人抓取 预抓取力选择 视觉-语言模型 经验学习 上下文推理

📋 核心要点

  1. 现有方法难以准确估计柔顺夹爪的预抓取力,易导致抓取失败或损坏物体,缺乏有效的力控制。
  2. Exp-Force通过检索相关抓取经验,并结合视觉-语言模型进行上下文推理,预测最小可行抓取力。
  3. 实验表明,Exp-Force在物体抓取任务中显著降低了误差,提高了力选择的准确性和泛化能力。

📝 摘要(中文)

精确的预接触抓取力选择对于安全可靠的机器人操作至关重要。自适应控制器可以在接触后调节力,但仍然需要合理的初始估计。起始抓取力过小需要反应性调整,而起始抓取力过大则可能损坏脆弱的物体。对于柔顺夹爪来说,这种权衡尤其具有挑战性,因为它们的接触力学难以进行分析建模。我们提出了Exp-Force,一个经验条件框架,可以从单个RGB图像预测最小可行的抓取力。该方法检索一小组相关的先前抓取经验,并在此基础上,利用视觉-语言模型进行上下文推理,无需分析接触模型或手动设计的启发式方法。在129个物体实例上,ExpForce的最佳MAE为0.43 N,比零样本推理降低了72%的误差。在30个未见物体的真实世界测试中,它将适当的力选择率从63%提高到87%。这些结果表明,Exp-Force通过利用先前的交互经验,实现了可靠且可泛化的预抓取力选择。

🔬 方法详解

问题定义:论文旨在解决机器人抓取中预抓取力选择的问题。现有方法,特别是对于柔顺夹爪,难以准确估计合适的抓取力。力过小会导致抓取失败,力过大则可能损坏物体。传统的分析建模方法难以处理柔顺夹爪复杂的接触力学,而手动设计的启发式方法泛化能力差。

核心思路:论文的核心思路是利用先前的抓取经验来指导预抓取力的选择。通过检索与当前场景相似的抓取经验,并利用视觉-语言模型进行推理,可以预测出合适的抓取力。这种方法避免了复杂的力学建模,并能够从经验中学习,提高泛化能力。

技术框架:Exp-Force框架主要包含以下几个模块:1) 经验数据库:存储先前抓取任务的视觉信息和对应的抓取力。2) 经验检索模块:根据当前RGB图像,从经验数据库中检索最相关的抓取经验。3) 视觉-语言模型:以当前RGB图像和检索到的抓取经验作为输入,预测最小可行抓取力。整体流程是:输入RGB图像 -> 经验检索 -> 视觉-语言模型推理 -> 输出预抓取力。

关键创新:最重要的技术创新点在于利用视觉-语言模型进行上下文推理,将先前的抓取经验融入到预抓取力的选择中。与现有方法相比,Exp-Force无需进行复杂的力学建模或手动设计启发式方法,而是通过学习历史数据来实现预抓取力的预测。这种方法更具泛化能力,能够适应不同的物体和场景。

关键设计:经验检索模块使用视觉特征相似度来衡量抓取经验的相关性。视觉-语言模型采用Transformer架构,将RGB图像和检索到的抓取经验编码为向量表示,然后通过注意力机制进行融合,最终预测抓取力。损失函数采用MAE(Mean Absolute Error),用于衡量预测抓取力与实际抓取力之间的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Exp-Force在129个物体实例上实现了0.43 N的最小平均绝对误差(MAE),相比于零样本推理,误差降低了72%。在30个未见物体的真实世界测试中,Exp-Force将适当的力选择率从63%提高到87%。这些结果表明,Exp-Force能够有效地利用先前的抓取经验,提高预抓取力选择的准确性和泛化能力。

🎯 应用场景

Exp-Force可应用于各种机器人操作场景,尤其是在需要精确力控制的场合,如医疗机器人、精密装配、以及处理易碎物品的场景。该研究有助于提高机器人操作的安全性、可靠性和效率,并降低损坏物体的风险。未来可进一步扩展到多模态输入(如触觉信息)和更复杂的抓取任务。

📄 摘要(原文)

Accurate pre-contact grasp force selection is critical for safe and reliable robotic manipulation. Adaptive controllers regulate force after contact but still require a reasonable initial estimate. Starting a grasp with too little force requires reactive adjustment, while starting a grasp with too high a force risks damaging fragile objects. This trade-off is particularly challenging for compliant grippers, whose contact mechanics are difficult to model analytically. We propose Exp-Force, an experience-conditioned framework that predicts the minimum feasible grasping force from a single RGB image. The method retrieves a small set of relevant prior grasping experiences and conditions a vision-language model on these examples for in-context inference, without analytic contact models or manually designed heuristics. On 129 object instances, ExpForce achieves a best-case MAE of 0.43 N, reducing error by 72% over zero-shot inference. In real-world tests on 30 unseen objects, it improves appropriate force selection rate from 63% to 87%. These results demonstrate that Exp-Force enables reliable and generalizable pre-grasp force selection by leveraging prior interaction experiences. http://expforcesubmission.github.io/Exp-Force-Website/