Agentic AI for Robot Control: Flexible but still Fragile

📄 arXiv: 2602.13081v1 📥 PDF

作者: Oscar Lima, Marc Vinci, Martin Günther, Marian Renz, Alexander Sung, Sebastian Stock, Johannes Brust, Lennart Niecksch, Zongyao Yi, Felix Igelbrink, Benjamin Kisliuk, Martin Atzmueller, Joachim Hertzberg

分类: cs.RO

发布日期: 2026-02-13


💡 一句话要点

提出基于代理智能的机器人控制系统以应对不确定性问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人控制 生成模型 任务规划 灵活性 不确定性 自然语言处理 智能系统

📋 核心要点

  1. 现有方法在机器人控制中面临不确定性和模糊指令的挑战,导致执行效果不稳定。
  2. 论文提出了一种代理控制系统,利用推理能力的语言模型进行任务规划和执行,增强了灵活性和适应性。
  3. 实验结果表明,尽管系统存在脆弱性,但在不同任务和平台间的迁移能力显著,更新提示即可实现适配。

📝 摘要(中文)

近年来,研究者们利用生成模型的能力和常识先验进行机器人控制。本文提出了一种代理控制系统,该系统通过一个具备推理能力的语言模型,在迭代规划和执行循环中选择和调用机器人技能来规划和执行任务。我们在两个物理机器人平台上部署了该系统,分别用于室内移动操作的桌面抓取、放置和箱子插入(Mobipick)以及自主农业导航和感知(Valdemar)。这两个场景都涉及不确定性、部分可观测性、传感器噪声和模糊的自然语言命令。该系统展示了其规划和决策过程的结构化自省,能够通过显式事件检查对外部事件做出反应,并支持操作者干预以修改或重定向正在进行的执行。尽管在两个平台上的概念验证实验中显示出显著的脆弱性,包括非确定性的次优行为、指令跟随错误和对提示规范的高度敏感性,但该架构仍然具有灵活性:转移到不同的机器人和任务领域主要需要更新系统提示(领域模型、可供性和动作目录)并重新绑定相同的工具接口到平台特定的技能API。

🔬 方法详解

问题定义:本文旨在解决机器人控制中的不确定性和模糊指令问题。现有方法在面对复杂环境时,往往表现出非确定性和次优行为,难以有效执行任务。

核心思路:论文的核心思路是构建一个代理控制系统,利用具备推理能力的语言模型进行任务规划和执行。通过迭代的规划和执行循环,系统能够动态选择和调用适当的机器人技能,从而提高执行的灵活性和适应性。

技术框架:整体架构包括三个主要模块:任务规划模块、技能执行模块和自省反馈模块。任务规划模块负责生成执行计划,技能执行模块负责实际操作,而自省反馈模块则用于监控执行过程并进行必要的调整。

关键创新:最重要的技术创新在于将推理能力的语言模型与机器人技能的选择和调用相结合,使得系统能够在复杂和动态的环境中进行有效的决策。这一设计与传统的基于规则或模型的方法有本质区别,后者往往缺乏灵活性。

关键设计:系统的关键设计包括对提示的精细调整,以适应不同的任务和环境。此外,系统还实现了显式的事件检查机制,以便在执行过程中及时响应外部变化。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果显示,尽管系统在执行过程中存在显著的脆弱性,如指令跟随错误和对提示的敏感性,但在不同任务和平台间的迁移能力表现良好,更新系统提示后即可实现有效适配,展示了灵活性和潜在的应用价值。

🎯 应用场景

该研究的潜在应用领域包括室内移动操作、农业自动化和其他需要灵活适应的机器人任务。通过提升机器人在复杂环境中的决策能力,该系统有望在实际操作中显著提高效率和可靠性,推动智能机器人技术的发展。

📄 摘要(原文)

Recent work leverages the capabilities and commonsense priors of generative models for robot control. In this paper, we present an agentic control system in which a reasoning-capable language model plans and executes tasks by selecting and invoking robot skills within an iterative planner and executor loop. We deploy the system on two physical robot platforms in two settings: (i) tabletop grasping, placement, and box insertion in indoor mobile manipulation (Mobipick) and (ii) autonomous agricultural navigation and sensing (Valdemar). Both settings involve uncertainty, partial observability, sensor noise, and ambiguous natural-language commands. The system exposes structured introspection of its planning and decision process, reacts to exogenous events via explicit event checks, and supports operator interventions that modify or redirect ongoing execution. Across both platforms, our proof-of-concept experiments reveal substantial fragility, including non-deterministic suboptimal behavior, instruction-following errors, and high sensitivity to prompt specification. At the same time, the architecture is flexible: transfer to a different robot and task domain largely required updating the system prompt (domain model, affordances, and action catalogue) and re-binding the same tool interface to the platform-specific skill API.