CoRAL: Contact-Rich Adaptive LLM-based Control for Robotic Manipulation
作者: Berk Çiçek, Mert K. Er, Özgür S. Öğüz
分类: cs.RO, cs.AI
发布日期: 2026-05-04
备注: 21 pages, 9 figures, 3 tables. Accepted to Robotics: Science and Systems (RSS) 2026
💡 一句话要点
CoRAL:基于LLM的接触丰富型自适应机器人操作控制框架
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人操作 大型语言模型 视觉语言模型 自适应控制 运动规划 接触动力学 神经符号学习
📋 核心要点
- 现有方法难以将LLM/VLM应用于接触丰富的操作,因为它们缺乏物理基础和自适应控制能力。
- CoRAL框架通过解耦高层推理和底层控制,利用LLM作为成本函数设计器,实现零样本规划。
- 实验表明,CoRAL在接触丰富场景中比现有方法成功率平均提高50%以上,有效处理了模拟到现实的差距。
📝 摘要(中文)
大型语言模型(LLM)和视觉语言模型(VLM)在高级推理和语义理解方面表现出卓越的能力,但由于缺乏明确的物理基础和执行自适应控制的能力,将它们直接应用于接触丰富型操作仍然是一个挑战。为了弥合这一差距,我们提出了CoRAL(Contact-Rich Adaptive LLM-based control),这是一个模块化框架,通过将高级推理与低级控制分离来实现零样本规划。与黑盒策略不同,CoRAL不将LLM用作直接控制器,而是用作成本设计器,为基于采样的运动规划器(MPPI)合成上下文感知的目标函数。为了解决视觉数据中物理参数的模糊性,我们引入了一个神经符号自适应循环:VLM为环境动力学(如质量和摩擦估计)提供语义先验,然后通过在线系统辨识实时显式地细化这些先验,同时LLM迭代地调整成本函数结构,以根据交互反馈纠正战略错误。此外,基于检索的记忆单元允许系统在重复任务中重用成功的策略。这种分层架构通过将高级语义推理与反应式执行分离,确保了实时控制稳定性,有效地弥合了缓慢的LLM推理与动态接触需求之间的差距。我们在模拟和真实世界的硬件上,通过具有挑战性和新颖的任务(例如,通过利用外部接触将物体靠墙翻转)验证了CoRAL。实验表明,CoRAL优于最先进的基于VLA和基础模型的规划器基线,在未见过的接触丰富场景中,成功率平均提高了50%以上,并通过其自适应物理理解有效地处理了sim-to-real差距。
🔬 方法详解
问题定义:现有方法在处理接触丰富的机器人操作任务时,面临着大型语言模型(LLM)和视觉语言模型(VLM)难以直接应用于控制的问题。这些模型缺乏对物理世界的精确理解,难以处理复杂的接触动力学,并且无法进行实时的自适应控制。现有方法通常是黑盒策略,难以解释和调试。
核心思路:CoRAL的核心思路是将高层次的语义推理(由LLM负责)与低层次的运动规划和控制(由MPPI负责)解耦。LLM不直接控制机器人,而是根据任务目标和环境信息,设计一个上下文相关的成本函数,指导MPPI进行运动规划。通过神经符号自适应循环,VLM提供物理参数的先验知识,并通过在线系统辨识进行实时修正,LLM根据交互反馈调整成本函数,从而实现自适应控制。
技术框架:CoRAL框架包含以下几个主要模块:1) LLM成本函数设计器:根据任务描述和环境信息,生成MPPI的成本函数。2) VLM物理参数估计器:利用VLM估计环境的物理参数,如质量和摩擦系数。3) 在线系统辨识器:实时修正VLM估计的物理参数。4) 基于采样的运动规划器(MPPI):根据LLM设计的成本函数和修正后的物理参数,生成机器人运动轨迹。5) 基于检索的记忆单元:存储成功的策略,并在相似任务中重用。
关键创新:CoRAL的关键创新在于其模块化的架构和神经符号自适应循环。通过将LLM作为成本函数设计器,而不是直接控制器,CoRAL能够利用LLM的语义理解能力,同时避免了其在实时控制方面的不足。神经符号自适应循环能够有效地处理视觉数据中物理参数的模糊性,并通过在线系统辨识和LLM的迭代调整,实现自适应控制。
关键设计:CoRAL的关键设计包括:1) LLM的prompt设计,用于生成合适的成本函数。2) VLM的选择和训练,用于准确估计物理参数。3) 在线系统辨识算法的选择和参数调整,用于实时修正物理参数。4) MPPI的成本函数设计,需要平衡任务目标和运动平滑性。5) 记忆单元的检索策略,用于快速找到相似任务的成功策略。
🖼️ 关键图片
📊 实验亮点
CoRAL在模拟和真实世界的硬件上进行了验证,在未见过的接触丰富场景中,CoRAL的成功率平均提高了50%以上,优于最先进的基于VLA和基础模型的规划器基线。例如,在靠墙翻转物体的任务中,CoRAL能够有效地利用外部接触,完成复杂的动作。实验结果表明,CoRAL能够有效地处理sim-to-real差距,并在真实环境中表现出良好的鲁棒性。
🎯 应用场景
CoRAL具有广泛的应用前景,例如在复杂环境下的机器人操作、自动化装配、柔性物体的操作、以及人机协作等领域。该框架能够使机器人在未知环境中执行复杂的任务,并能够根据环境的变化进行自适应调整,从而提高机器人的自主性和鲁棒性。未来,CoRAL可以应用于智能制造、物流、医疗等领域,实现更高效、更智能的自动化生产和服务。
📄 摘要(原文)
While Large Language Models (LLMs) and Vision-Language Models (VLMs) demonstrate remarkable capabilities in high-level reasoning and semantic understanding, applying them directly to contact-rich manipulation remains a challenge due to their lack of explicit physical grounding and inability to perform adaptive control. To bridge this gap, we propose CoRAL (Contact-Rich Adaptive LLM-based control), a modular framework that enables zero-shot planning by decoupling high-level reasoning from low-level control. Unlike black-box policies, CoRAL uses LLMs not as direct controllers, but as cost designers that synthesize context-aware objective functions for a sampling-based motion planner (MPPI). To address the ambiguity of physical parameters in visual data, we introduce a neuro-symbolic adaptation loop: a VLM provides semantic priors for environmental dynamics, such as mass and friction estimates, which are then explicitly refined in real time via online system identification, while the LLM iteratively modulates the cost-function structure to correct strategic errors based on interaction feedback. Furthermore, a retrieval-based memory unit allows the system to reuse successful strategies across recurrent tasks. This hierarchical architecture ensures real-time control stability by decoupling high-level semantic reasoning from reactive execution, effectively bridging the gap between slow LLM inference and dynamic contact requirements. We validate CoRAL on both simulation and real-world hardware across challenging and novel tasks, such as flipping objects against walls by leveraging extrinsic contacts. Experiments demonstrate that CoRAL outperforms state-of-the-art VLA and foundation-model-based planner baselines by boosting success rates over 50% on average in unseen contact-rich scenarios, effectively handling sim-to-real gaps through its adaptive physical understanding.