CoFreeVLA: Collision-Free Dual-Arm Manipulation via Vision-Language-Action Model and Risk Estimation
作者: Xuanran Zhai, Binkai Ou, Yemin Wang, Hui Yi Leong, Qiaojun Yu, Ce Hao, Yaohua Liu
分类: cs.RO
发布日期: 2026-01-29
💡 一句话要点
CoFreeVLA:基于视觉-语言-动作模型和风险估计的双臂无碰撞操作
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 双臂操作 碰撞避免 视觉语言动作模型 风险估计 机器人控制
📋 核心要点
- 现有VLA模型在双臂操作中,对臂间和臂与物体间的自碰撞建模不足,导致安全性问题。
- CoFreeVLA通过引入短时程自碰撞风险估计器,预测碰撞可能性并调整动作,保障操作安全。
- 实验表明,CoFreeVLA在双手动任务中显著减少了自碰撞,并提升了操作成功率。
📝 摘要(中文)
视觉-语言-动作(VLA)模型能够实现指令跟随操作,但由于对双臂和抓取物体之间的自碰撞建模不足,双臂部署仍然不安全。我们提出了CoFreeVLA,它通过一个短时程自碰撞风险估计器来增强端到端VLA,该估计器从本体感受、视觉嵌入和计划动作中预测碰撞可能性。该估计器控制高风险指令,通过风险引导的调整恢复到安全状态,并塑造策略改进以实现更安全的rollout。它使用基于模型的碰撞标签进行预训练,并在真实机器人rollout上进行后训练以进行校准。在PiPER机器人手臂上的五个双手动任务中,CoFreeVLA减少了自碰撞,并提高了相对于RDT和APEX的成功率。
🔬 方法详解
问题定义:现有基于视觉-语言-动作(VLA)模型的双臂操作方法,在实际部署中存在安全隐患。主要原因是这些方法通常忽略或未能充分建模双臂自身以及双臂与抓取物体之间的潜在碰撞风险。这导致机器人在执行复杂操作时,容易发生自碰撞,从而影响任务的成功率和机器人的安全性。
核心思路:CoFreeVLA的核心在于引入一个自碰撞风险估计器,该估计器能够根据机器人的本体感受信息(如关节角度)、视觉信息(通过视觉嵌入提取)以及计划执行的动作,预测未来短时间内发生碰撞的可能性。通过对潜在碰撞风险的评估,系统可以避免执行高风险的动作,并采取相应的调整策略,从而保证操作的安全性。
技术框架:CoFreeVLA的整体框架是在一个端到端的VLA模型基础上,增加了一个自碰撞风险估计模块。该模块接收来自VLA模型的动作指令、机器人的本体感受信息以及视觉嵌入作为输入,输出一个碰撞风险值。根据这个风险值,系统可以采取三种策略:1) 门控机制:直接阻止高风险的动作指令;2) 风险引导调整:对动作指令进行微调,使其避开潜在的碰撞;3) 策略改进:利用风险信息来指导VLA模型的策略学习,使其在未来的rollout中更加安全。
关键创新:CoFreeVLA的关键创新在于将碰撞风险估计融入到VLA模型的控制流程中,实现了一种主动的碰撞避免机制。与传统的被动碰撞检测方法不同,CoFreeVLA能够提前预测碰撞风险,并采取预防措施,从而显著提高了操作的安全性。此外,通过风险引导的策略改进,CoFreeVLA还能够不断学习和优化自身的控制策略,使其在复杂环境中更加鲁棒。
关键设计:自碰撞风险估计器是一个关键组件。它通常采用神经网络结构,输入包括本体感受信息、视觉嵌入和计划动作。为了训练这个估计器,论文采用了两阶段训练策略:首先,使用基于模型的碰撞标签进行预训练,即通过仿真环境生成大量的碰撞和非碰撞数据,用于训练估计器区分碰撞风险;然后,在真实机器人rollout上进行后训练,利用真实数据对估计器进行校准,以解决仿真和真实环境之间的差异。损失函数的设计也至关重要,通常会采用二元交叉熵损失函数来训练估计器,使其能够准确预测碰撞的概率。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CoFreeVLA在五个双手动任务中,显著减少了自碰撞的发生,并提高了任务的成功率。具体来说,与RDT和APEX等基线方法相比,CoFreeVLA能够将自碰撞率降低XX%(具体数值论文中给出),并将任务成功率提升YY%(具体数值论文中给出)。这些结果验证了CoFreeVLA在双臂操作安全性方面的有效性。
🎯 应用场景
CoFreeVLA技术可应用于各种需要双臂协同操作的机器人应用场景,例如:工业自动化中的装配、医疗手术机器人中的辅助操作、家庭服务机器人中的物品整理等。通过提高双臂操作的安全性,该技术能够扩展机器人的应用范围,并提升其在复杂环境中的适应性。未来,该技术有望与更先进的感知和规划算法相结合,实现更加智能和安全的机器人操作。
📄 摘要(原文)
Vision Language Action (VLA) models enable instruction following manipulation, yet dualarm deployment remains unsafe due to under modeled selfcollisions between arms and grasped objects. We introduce CoFreeVLA, which augments an endtoend VLA with a short horizon selfcollision risk estimator that predicts collision likelihood from proprioception, visual embeddings, and planned actions. The estimator gates risky commands, recovers to safe states via risk-guided adjustments, and shapes policy refinement for safer rollouts. It is pre-trained with model-based collision labels and posttrained on real robot rollouts for calibration. On five bimanual tasks with the PiPER robot arm, CoFreeVLA reduces selfcollisions and improves success rates versus RDT and APEX.