Probing the Capacity of Language Model Agents to Operationalize Disparate Experiential Context Despite Distraction

📄 arXiv: 2411.12828v1 📥 PDF

作者: Sonny George, Chris Sypherd, Dylan Cashman

分类: cs.CL, cs.AI

发布日期: 2024-11-19

期刊: Findings Assoc. Comput. Linguistics: EMNLP 2024 15447-15459 (2024)

🔗 代码/项目: GITHUB


💡 一句话要点

OEDD:评估语言模型Agent在干扰下整合复杂经验信息的能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言模型Agent 长程依赖 干扰信息 经验整合 决策能力 OEDD语料库 复杂推理

📋 核心要点

  1. 现有LLM Agent在复杂推理任务中,难以有效整合长程历史信息,尤其是在存在干扰信息的情况下。
  2. 本文构建OEDD语料库,用于评估LLM Agent在干扰下,基于不同经验信息做出决策的能力。
  3. 实验表明,当历史交互token数超过1615,且存在干扰信息时,主流LLM性能甚至低于随机选择。

📝 摘要(中文)

大型语言模型(LLM)Agent在越来越多的领域展现出潜力。在许多应用场景中,Agent需要根据输入提示中累积的经验进行推理。本文提出了OEDD(Operationalize Experience Despite Distraction)语料库,该语料库包含经过人工标注验证的场景,其中预先编写了Agent的历史记录,Agent必须在存在干扰因素的情况下,根据不同的经验信息做出决策。我们使用最小的思维链提示策略评估了三个最先进的LLM(GPT-3.5 Turbo、GPT-4o 和 Gemini 1.5 Pro),并观察到,当(1)输入上下文包含超过 1,615 个token的历史交互信息,(2)一个至关重要的决策前提是基于两个不同的环境前提得出的正确结论,并且(3)一个琐碎但具有干扰性的“红鲱鱼”事实随后出现时,所有LLM在选择两个动作中较好的一个时,表现都比随机选择更差。我们的代码和测试语料库可在 https://github.com/sonnygeorge/OEDD 公开获取。

🔬 方法详解

问题定义:现有的大型语言模型Agent在处理需要整合长期经验信息的任务时,容易受到干扰信息的影响,导致推理能力下降。尤其是在需要基于多个分散的历史信息片段进行推理,并且存在与决策无关的干扰信息时,Agent的性能会显著降低。现有的评估方法缺乏对这种复杂场景的针对性测试。

核心思路:本文的核心思路是构建一个专门的评估语料库OEDD,该语料库包含精心设计的场景,这些场景模拟了Agent在真实世界中可能遇到的复杂情况,即需要根据多个分散的历史信息片段进行推理,并且存在干扰信息。通过评估Agent在这些场景下的表现,可以更准确地了解其整合长期经验信息的能力。

技术框架:OEDD语料库包含一系列场景,每个场景都包含以下几个部分:Agent的历史记录(包含多个交互信息片段)、两个不同的环境前提、一个基于这两个前提的正确结论、一个干扰信息(“红鲱鱼”),以及两个可选的动作。Agent的任务是根据历史记录和环境信息,选择更合适的动作。评估过程使用最小的思维链提示策略,以减少提示工程对结果的影响。

关键创新:OEDD语料库的关键创新在于其场景设计的复杂性,它模拟了真实世界中Agent可能遇到的复杂情况,即需要整合多个分散的历史信息片段,并且存在干扰信息。此外,OEDD语料库还经过人工标注验证,确保了场景的质量和可靠性。

关键设计:OEDD语料库的关键设计包括:1) 场景的多样性,涵盖了不同的领域和任务;2) 历史记录的长度,确保Agent需要处理足够长的上下文信息;3) 干扰信息的强度,确保Agent需要区分相关信息和无关信息;4) 人工标注的质量,确保场景的正确性和可靠性。实验中,使用GPT-3.5 Turbo、GPT-4o 和 Gemini 1.5 Pro 三个模型进行评估,并对比了它们在不同场景下的表现。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,当输入上下文包含超过1615个token的历史交互信息,且存在干扰信息时,GPT-3.5 Turbo、GPT-4o 和 Gemini 1.5 Pro 在OEDD语料库上的表现均低于随机选择。这表明当前最先进的LLM Agent在处理复杂推理任务时,仍然存在很大的提升空间,尤其是在整合长程依赖和过滤干扰信息方面。

🎯 应用场景

该研究成果可应用于评估和改进LLM Agent在复杂环境下的决策能力,尤其是在需要处理长程依赖和干扰信息的场景中,例如智能客服、自动驾驶、智能家居等。通过OEDD语料库,可以更好地了解LLM Agent的局限性,并开发更鲁棒、更可靠的Agent系统。

📄 摘要(原文)

Large language model (LLM) agents show promise in an increasing number of domains. In many proposed applications, it is expected that the agent reasons over accumulated experience presented in an input prompt. We propose the OEDD (Operationalize Experience Despite Distraction) corpus, a human-annotator-validated body of scenarios with pre-scripted agent histories where the agent must make a decision based on disparate experiential information in the presence of a distractor. We evaluate three state-of-the-art LLMs (GPT-3.5 Turbo, GPT-4o, and Gemini 1.5 Pro) using a minimal chain-of-thought prompting strategy and observe that when (1) the input context contains over 1,615 tokens of historical interactions, (2) a crucially decision-informing premise is the rightful conclusion over two disparate environment premises, and (3) a trivial, but distracting red herring fact follows, all LLMs perform worse than random choice at selecting the better of two actions. Our code and test corpus are publicly available at: https://github.com/sonnygeorge/OEDD .