Towards Embodied Agentic AI: Review and Classification of LLM- and VLM-Driven Robot Autonomy and Interaction

作者: Sahar Salimpour, Lei Fu, Kajetan Rachwał, Pascal Bertrand, Kevin O'Sullivan, Robert Jakob, Farhad Keramat, Leonardo Militano, Giovanni Toffetti, Harry Edelman, Jorge Peña Queralta

分类: cs.RO, cs.AI, cs.LG

发布日期: 2025-08-07 (更新: 2025-11-12)

💡 一句话要点

综述LLM/VLM驱动的机器人自主与交互，提出Agentic AI分类体系

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人自主 大型语言模型 视觉语言模型 Agentic AI 人机交互 任务规划 模型集成 机器人控制

📋 核心要点

现有机器人自主系统在处理复杂指令和环境理解方面存在不足，难以实现通用性和智能化。
论文核心在于研究如何利用LLM和VLM构建Agentic架构，使机器人能够理解自然语言、规划任务并与环境交互。
论文通过对现有研究、社区项目和工业框架的分析，提出了模型集成方法的分类法，并比较了Agent在不同方案中的作用。

📝 摘要（中文）

本文综述了基于大型语言模型（LLM）和视觉语言模型（VLM）的机器人自主性和人机交互的新方法。同时，视觉-语言-动作模型（VLA）或大型行为模型（LBM）正在增强机器人系统的灵活性和能力。本文回顾了推进Agentic应用和架构的工作，包括GPT风格界面的初步尝试，以及更复杂的系统，其中AI Agent充当协调器、规划器、感知执行器或通用接口。这种Agentic架构允许机器人推理自然语言指令、调用API、规划任务序列或协助操作和诊断。除了同行评审的研究外，由于该领域快速发展，我们重点介绍并包括社区驱动的项目、ROS软件包和工业框架，这些项目展示了新兴趋势。我们提出了一种分类模型集成方法的分类法，并对Agent在当今文献中不同解决方案中扮演的角色进行了比较分析。

🔬 方法详解

问题定义：当前机器人自主系统面临的挑战在于如何有效地利用大型语言模型（LLM）和视觉语言模型（VLM）来提升其理解、推理和规划能力，从而实现更高级别的自主性和人机交互。现有方法往往难以将这些模型与机器人控制系统有效集成，导致机器人难以理解复杂指令、适应动态环境以及进行有效的任务规划。

核心思路：本文的核心思路是探索和分类不同的Agentic架构，这些架构利用LLM和VLM作为智能Agent的不同组成部分，例如协调器、规划器、感知执行器或通用接口。通过将LLM/VLM嵌入到机器人控制流程中，使机器人能够理解自然语言指令，调用API，规划任务序列，并辅助操作和诊断。

技术框架：论文首先回顾了基于GPT风格界面的初步尝试，然后深入研究了更复杂的Agentic系统。这些系统通常包含以下几个主要模块：1) 自然语言理解模块，负责解析用户指令；2) 任务规划模块，根据指令生成任务序列；3) 感知模块，利用VLM感知环境信息；4) 动作执行模块，控制机器人执行规划的任务。整体流程通常是：用户输入自然语言指令 -> 自然语言理解模块解析指令 -> 任务规划模块生成任务序列 -> 感知模块获取环境信息 -> 动作执行模块控制机器人执行任务。

关键创新：论文的关键创新在于提出了一个针对LLM和VLM在机器人自主系统中集成方法的分类法。该分类法能够帮助研究人员和工程师更好地理解不同集成方法的优缺点，并选择最适合特定应用场景的方法。此外，论文还强调了社区驱动的项目、ROS软件包和工业框架的重要性，这些资源对于推动该领域的发展至关重要。

关键设计：论文没有涉及具体的参数设置、损失函数或网络结构等技术细节，而是侧重于对现有方法的分类和比较分析。然而，论文强调了API调用的重要性，这涉及到如何设计有效的API接口，以便LLM能够与机器人控制系统进行交互。此外，任务规划模块的设计也至关重要，需要考虑如何将自然语言指令转化为可执行的任务序列。

📊 实验亮点

论文通过对大量文献的分析，总结了当前LLM和VLM在机器人自主系统中的应用现状和发展趋势。提出的模型集成方法分类法为该领域的研究提供了有益的指导。此外，论文还强调了社区驱动项目和工业框架的重要性，这些资源对于推动该领域的发展至关重要。具体性能数据和提升幅度未在摘要中体现，属于未知信息。

🎯 应用场景

该研究成果可应用于各种机器人应用场景，例如家庭服务机器人、工业自动化机器人、医疗辅助机器人和搜索救援机器人。通过提升机器人的自主性和人机交互能力，可以使其更好地服务于人类，提高工作效率和生活质量。未来的发展方向包括更强大的LLM/VLM、更智能的Agentic架构以及更安全可靠的机器人控制系统。

📄 摘要（原文）

Foundation models, including large language models (LLMs) and vision-language models (VLMs), have recently enabled novel approaches to robot autonomy and human-robot interfaces. In parallel, vision-language-action models (VLAs) or large behavior models (LBMs) are increasing the dexterity and capabilities of robotic systems. This survey paper reviews works that advance agentic applications and architectures, including initial efforts with GPT-style interfaces and more complex systems where AI agents function as coordinators, planners, perception actors, or generalist interfaces. Such agentic architectures allow robots to reason over natural language instructions, invoke APIs, plan task sequences, or assist in operations and diagnostics. In addition to peer-reviewed research, due to the fast-evolving nature of the field, we highlight and include community-driven projects, ROS packages, and industrial frameworks that show emerging trends. We propose a taxonomy for classifying model integration approaches and present a comparative analysis of the role that agents play in different solutions in today's literature.

Towards Embodied Agentic AI: Review and Classification of LLM- and VLM-Driven Robot Autonomy and Interaction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理