Butter-Bench: Evaluating LLM Controlled Robots for Practical Intelligence
作者: Callum Sharrock, Lukas Petersson, Hanna Petersson, Axel Backlund, Axel Wennström, Kristoffer Nordström, Elias Aronsson
分类: cs.RO, cs.AI
发布日期: 2025-10-23
💡 一句话要点
Butter-Bench:评估LLM控制机器人在实际环境中的智能水平
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 机器人控制 实际智能 基准测试 具身推理 空间规划 社交理解
📋 核心要点
- 现有机器人系统依赖LLM进行高层推理,但缺乏针对实际物理世界复杂性的系统评估。
- Butter-Bench通过隔离评估LLM在多步骤规划和社交理解等任务中的能力,弥补了这一不足。
- 实验表明,即使是最先进的LLM在Butter-Bench上的表现也远低于人类,凸显了实际智能的差距。
📝 摘要(中文)
本文提出了Butter-Bench,一个用于评估大型语言模型(LLM)控制机器人在实际智能方面的基准,实际智能被定义为在物理世界的混乱环境中导航的能力。目前最先进的机器人系统使用分层架构,其中LLM负责高层推理,而视觉语言动作(VLA)模型负责低层控制。Butter-Bench将LLM部分与VLA隔离进行评估。尽管LLM在需要分析智能的评估中多次超越人类,但我们发现人类在Butter-Bench上的表现仍然优于LLM。最好的LLM在Butter-Bench上的得分是40%,而人类的平均得分是95%。LLM在多步骤空间规划和社交理解方面表现最差。我们还评估了针对具身推理进行微调的LLM,并得出结论,这种训练并没有提高它们在Butter-Bench上的得分。
🔬 方法详解
问题定义:论文旨在评估大型语言模型(LLM)在控制机器人执行实际任务时的智能水平,尤其是在复杂和非结构化的物理环境中。现有方法通常依赖于分层架构,其中LLM负责高层决策,而视觉语言动作(VLA)模型负责低层控制。然而,这种架构使得评估LLM本身的性能变得困难,并且缺乏专门针对实际环境挑战的基准。
核心思路:论文的核心思路是设计一个基准测试,能够独立评估LLM在高层推理和规划方面的能力,而无需依赖于VLA模型的性能。通过将LLM与低层控制解耦,可以更清晰地了解LLM在处理实际任务时的局限性,并为未来的研究提供更精确的评估指标。
技术框架:Butter-Bench基准测试包含一系列任务,这些任务需要LLM进行多步骤空间规划、社交理解和常识推理。LLM接收任务描述和环境信息作为输入,并生成一系列动作指令。这些指令被转化为模拟环境中的机器人动作。评估指标包括任务完成率、动作序列的效率和安全性等。该框架允许研究人员比较不同LLM在相同任务上的表现,并分析其优势和劣势。
关键创新:Butter-Bench的关键创新在于其专注于评估LLM在实际环境中的智能,并提供了一个标准化的平台,用于比较不同LLM的性能。与传统的机器人基准测试不同,Butter-Bench将LLM与低层控制解耦,从而可以更精确地评估LLM在高层推理和规划方面的能力。此外,Butter-Bench还包含了一系列需要社交理解和常识推理的任务,这些任务对于实际应用至关重要。
关键设计:Butter-Bench的任务设计考虑了实际环境的复杂性和不确定性。任务包括导航、操作物体、与人交互等。为了评估LLM的社交理解能力,任务中包含了一些需要理解人类意图和行为的场景。评估指标包括任务完成率、动作序列的效率和安全性等。此外,Butter-Bench还提供了一个模拟环境,用于测试LLM控制的机器人在不同场景下的表现。
📊 实验亮点
实验结果表明,当前最先进的LLM在Butter-Bench上的表现远低于人类,平均得分仅为40%,而人类的平均得分高达95%。LLM在多步骤空间规划和社交理解方面表现最差。此外,针对具身推理进行微调的LLM并没有在Butter-Bench上表现出明显的性能提升,这表明现有的微调方法可能无法有效地提高LLM在实际环境中的智能水平。
🎯 应用场景
Butter-Bench的研究成果可应用于开发更智能、更自主的机器人系统,这些系统能够在家庭、工厂、医院等复杂环境中执行各种任务。通过提高LLM在实际环境中的推理和规划能力,可以实现更安全、更高效的人机协作,并为自动化领域带来新的突破。该基准测试还有助于推动LLM在具身智能和机器人控制方面的研究。
📄 摘要(原文)
We present Butter-Bench, a benchmark evaluating large language model (LLM) controlled robots for practical intelligence, defined as the ability to navigate the messiness of the physical world. Current state-of-the-art robotic systems use a hierarchical architecture with LLMs in charge of high-level reasoning, and a Vision Language Action (VLA) model for low-level control. Butter-Bench evaluates the LLM part in isolation from the VLA. Although LLMs have repeatedly surpassed humans in evaluations requiring analytical intelligence, we find humans still outperform LLMs on Butter-Bench. The best LLMs score 40% on Butter-Bench, while the mean human score is 95%. LLMs struggled the most with multi-step spatial planning and social understanding. We also evaluate LLMs that are fine-tuned for embodied reasoning and conclude that this training does not improve their score on Butter-Bench.