Probing Embodied LLMs: When Higher Observation Fidelity Hurts Problem Solving

📄 arXiv: 2605.20072v1 📥 PDF

作者: Oussama Zenkri, Oliver Brock

分类: cs.AI, cs.RO

发布日期: 2026-05-19

备注: Submitted to From Animals to Animats: The 18th International Conference on the Simulation of Adaptive Behavior (SAB)


💡 一句话要点

具身LLM探究:更高观测保真度反而降低问题解决能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身智能 大型语言模型 机器人操作 感知噪声 问题解决

📋 核心要点

  1. 现有具身LLM在闭环任务中决策过程不透明,难以解释成功或失败的原因,阻碍了其可靠应用。
  2. 通过改变LLM智能体的观测信息类型,研究其行为变化,揭示观测质量与问题解决能力之间的关系。
  3. 实验发现,更高保真度的观测(如ground-truth)反而降低了LLM的性能,适度噪声能提升性能并减少重复动作。

📝 摘要(中文)

大型语言模型(LLM)越来越多地被用作机器人系统的认知组件,但其不透明的决策过程使得难以解释闭环具身任务中的成功或失败。遵循实证AI方法,我们通过改变LLM智能体可用的信息并测量由此产生的行为变化,对其行为进行研究。我们使用Lockbox(一个具有隐藏相互依赖关系的顺序机械谜题)在物理机器人设置中评估LLM在RGB、RGB-D和ground-truth符号观测下的性能,并使用受控仿真来探究由此产生的行为。与直觉相反,智能体在原始RGB输入下表现最佳,而在完美的ground-truth观测下表现最差。在仿真中,我们通过随机翻转感知的动作结果来探究这种效应,发现适度的噪声可以提高性能,在40%的翻转概率下达到峰值,成功率比无噪声基线提高了2.85倍。进一步的分析将这种增益与重复动作循环的减少联系起来。这些发现表明,仅凭成功率不足以评估LLM,因为测量的性能可能反映了感知错误和推理失败之间的相互作用,而不是鲁棒的问题解决能力。

🔬 方法详解

问题定义:论文旨在研究具身LLM在解决顺序机械谜题(Lockbox)时的行为表现,特别是不同观测信息(RGB, RGB-D, Ground-truth symbolic)对问题解决能力的影响。现有方法通常假设更高质量的观测信息能够提升LLM的性能,但实际效果可能并非如此,这其中的原因尚不明确。

核心思路:论文的核心思路是通过系统地改变LLM智能体的观测信息,并测量其在Lockbox任务中的表现,来探究观测质量与问题解决能力之间的关系。通过引入噪声来模拟不完美的感知,并分析噪声对性能的影响,从而揭示LLM在具身任务中推理和感知的相互作用。

技术框架:整体框架包括物理机器人设置和受控仿真环境。在物理环境中,使用机器人操作Lockbox,LLM根据不同的观测信息生成动作指令。在仿真环境中,通过随机翻转动作结果来引入噪声,并分析噪声对LLM性能的影响。主要模块包括:1) 感知模块:将RGB、RGB-D或ground-truth信息输入LLM;2) LLM推理模块:根据感知信息生成动作指令;3) 动作执行模块:执行LLM生成的动作;4) 评估模块:评估LLM在Lockbox任务中的成功率和重复动作次数。

关键创新:最重要的技术创新点是发现更高保真度的观测信息反而会降低具身LLM的性能。与传统的认知不同,论文表明,在具身任务中,LLM的性能不仅取决于推理能力,还受到感知错误的影响。适度的感知噪声可以帮助LLM跳出重复动作循环,从而提高问题解决能力。

关键设计:在仿真环境中,通过随机翻转动作结果来引入噪声,翻转概率从0%到100%变化。实验评估了不同翻转概率下LLM的成功率和重复动作次数。Lockbox任务的设计保证了任务的顺序性和隐藏的相互依赖性,使得LLM需要进行复杂的推理才能解决问题。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在Lockbox任务中,LLM在原始RGB输入下表现最佳,而在完美的ground-truth观测下表现最差。在仿真中,适度的噪声可以提高性能,在40%的翻转概率下达到峰值,成功率比无噪声基线提高了2.85倍。进一步的分析表明,性能提升与重复动作循环的减少有关。

🎯 应用场景

该研究成果可应用于提升机器人操作的鲁棒性和适应性,尤其是在感知信息不完善或存在噪声的环境中。通过理解感知错误与推理失败之间的相互作用,可以设计更有效的具身智能系统,例如在复杂环境中执行任务的机器人助手、自动驾驶汽车等。未来的研究可以探索如何利用这种噪声鲁棒性来提高LLM在更广泛的具身任务中的性能。

📄 摘要(原文)

Large Language Models are increasingly proposed as cognitive components for robotic systems, yet their opaque decision processes make it difficult to explain success or failure in closed-loop embodied tasks. Following an empirical AI methodology, we study embodied LLM agents behaviorally by varying the information available to the agent and measuring the resulting changes in behavior. Using the Lockbox, a sequential mechanical puzzle with hidden interdependencies, we evaluate LLMs across RGB, RGB-D, and ground-truth symbolic observations in a physical robotic setup and use controlled simulation to probe the resulting behavior. Counterintuitively, agents perform best under raw RGB input and worst under perfect ground-truth observations. In simulation, we probe this effect by randomly flipping perceived action outcomes and find that moderate noise improves performance, peaking at a 40% flip probability with a 2.85-fold success rate increase over the noise-free baseline. Further analysis links this gain to a reduction in repetitive action loops. These findings suggest that success rates alone are insufficient for evaluating LLMs, as measured performance may reflect the interaction between perceptual errors and reasoning failures rather than robust problem solving.