Exp-Force: Experience-Conditioned Pre-Grasp Force Selection with Vision-Language Models

作者: Siqi Shang, Minchao Huang, Bill Fan, Lillian Chin

分类: cs.RO

发布日期: 2026-03-09

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

Exp-Force：利用视觉-语言模型和经验学习进行预抓取力选择

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 机器人抓取 预抓取力选择 视觉-语言模型 经验学习 上下文推理

📋 核心要点

现有方法难以准确估计柔顺夹爪的预抓取力，易导致抓取失败或损坏物体，缺乏有效的力控制。
Exp-Force通过检索相关抓取经验，并结合视觉-语言模型进行上下文推理，预测最小可行抓取力。
实验表明，Exp-Force在物体抓取任务中显著降低了误差，提高了力选择的准确性和泛化能力。

📝 摘要（中文）

精确的预接触抓取力选择对于安全可靠的机器人操作至关重要。自适应控制器可以在接触后调节力，但仍然需要合理的初始估计。起始抓取力过小需要反应性调整，而起始抓取力过大则可能损坏脆弱的物体。对于柔顺夹爪来说，这种权衡尤其具有挑战性，因为它们的接触力学难以进行分析建模。我们提出了Exp-Force，一个经验条件框架，可以从单个RGB图像预测最小可行的抓取力。该方法检索一小组相关的先前抓取经验，并在此基础上，利用视觉-语言模型进行上下文推理，无需分析接触模型或手动设计的启发式方法。在129个物体实例上，ExpForce的最佳MAE为0.43 N，比零样本推理降低了72%的误差。在30个未见物体的真实世界测试中，它将适当的力选择率从63%提高到87%。这些结果表明，Exp-Force通过利用先前的交互经验，实现了可靠且可泛化的预抓取力选择。

🔬 方法详解

问题定义：论文旨在解决机器人抓取中预抓取力选择的问题。现有方法，特别是对于柔顺夹爪，难以准确估计合适的抓取力。力过小会导致抓取失败，力过大则可能损坏物体。传统的分析建模方法难以处理柔顺夹爪复杂的接触力学，而手动设计的启发式方法泛化能力差。

核心思路：论文的核心思路是利用先前的抓取经验来指导预抓取力的选择。通过检索与当前场景相似的抓取经验，并利用视觉-语言模型进行推理，可以预测出合适的抓取力。这种方法避免了复杂的力学建模，并能够从经验中学习，提高泛化能力。

技术框架：Exp-Force框架主要包含以下几个模块：1) 经验数据库：存储先前抓取任务的视觉信息和对应的抓取力。2) 经验检索模块：根据当前RGB图像，从经验数据库中检索最相关的抓取经验。3) 视觉-语言模型：以当前RGB图像和检索到的抓取经验作为输入，预测最小可行抓取力。整体流程是：输入RGB图像 -> 经验检索 -> 视觉-语言模型推理 -> 输出预抓取力。

关键创新：最重要的技术创新点在于利用视觉-语言模型进行上下文推理，将先前的抓取经验融入到预抓取力的选择中。与现有方法相比，Exp-Force无需进行复杂的力学建模或手动设计启发式方法，而是通过学习历史数据来实现预抓取力的预测。这种方法更具泛化能力，能够适应不同的物体和场景。

关键设计：经验检索模块使用视觉特征相似度来衡量抓取经验的相关性。视觉-语言模型采用Transformer架构，将RGB图像和检索到的抓取经验编码为向量表示，然后通过注意力机制进行融合，最终预测抓取力。损失函数采用MAE（Mean Absolute Error），用于衡量预测抓取力与实际抓取力之间的差异。

🖼️ 关键图片

📊 实验亮点

Exp-Force在129个物体实例上实现了0.43 N的最小平均绝对误差（MAE），相比于零样本推理，误差降低了72%。在30个未见物体的真实世界测试中，Exp-Force将适当的力选择率从63%提高到87%。这些结果表明，Exp-Force能够有效地利用先前的抓取经验，提高预抓取力选择的准确性和泛化能力。

🎯 应用场景

Exp-Force可应用于各种机器人操作场景，尤其是在需要精确力控制的场合，如医疗机器人、精密装配、以及处理易碎物品的场景。该研究有助于提高机器人操作的安全性、可靠性和效率，并降低损坏物体的风险。未来可进一步扩展到多模态输入（如触觉信息）和更复杂的抓取任务。

📄 摘要（原文）

Accurate pre-contact grasp force selection is critical for safe and reliable robotic manipulation. Adaptive controllers regulate force after contact but still require a reasonable initial estimate. Starting a grasp with too little force requires reactive adjustment, while starting a grasp with too high a force risks damaging fragile objects. This trade-off is particularly challenging for compliant grippers, whose contact mechanics are difficult to model analytically. We propose Exp-Force, an experience-conditioned framework that predicts the minimum feasible grasping force from a single RGB image. The method retrieves a small set of relevant prior grasping experiences and conditions a vision-language model on these examples for in-context inference, without analytic contact models or manually designed heuristics. On 129 object instances, ExpForce achieves a best-case MAE of 0.43 N, reducing error by 72% over zero-shot inference. In real-world tests on 30 unseen objects, it improves appropriate force selection rate from 63% to 87%. These results demonstrate that Exp-Force enables reliable and generalizable pre-grasp force selection by leveraging prior interaction experiences. http://expforcesubmission.github.io/Exp-Force-Website/

Exp-Force: Experience-Conditioned Pre-Grasp Force Selection with Vision-Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理