LOCA-bench: Benchmarking Language Agents Under Controllable and Extreme Context Growth

📄 arXiv: 2602.07962v1 📥 PDF

作者: Weihao Zeng, Yuzhen Huang, Junxian He

分类: cs.AI

发布日期: 2026-02-08

🔗 代码/项目: GITHUB


💡 一句话要点

LOCA-bench:可控极端上下文增长下的语言Agent基准测试

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言Agent 长上下文 基准测试 上下文管理 环境模拟

📋 核心要点

  1. 现有长上下文基准测试侧重于单步信息检索,忽略了Agent在动态增长上下文中的决策过程。
  2. LOCA-bench通过可控的环境状态变化,模拟Agent在长期任务中面临的上下文增长挑战。
  3. 实验表明,随着环境复杂性增加,Agent性能下降,但有效的上下文管理策略能显著提升成功率。

📝 摘要(中文)

大型语言模型(LLMs)在执行长期运行的真实世界任务方面能力越来越强。然而,随着上下文数量的增长,它们的可靠性经常下降,这种现象被称为“上下文腐烂”。现有的长上下文基准测试主要集中在单步设置中,评估模型从长文本片段中检索信息的能力。但在实际场景中,LLMs通常需要充当Agent,探索环境,遵循指令和计划,提取有用信息,并在动态增长的上下文中预测正确的动作。为了评估这种场景下的语言Agent,我们引入了LOCA-bench(长上下文Agent基准测试)。给定一个任务提示,LOCA-bench利用环境状态的自动和可扩展控制来调节Agent的上下文长度。这种设计使LOCA-bench能够在保持底层任务语义不变的情况下,以可控的方式将上下文长度扩展到潜在的无限大。LOCA-bench评估语言Agent作为模型和支架的组合,包括各种上下文管理策略。虽然Agent性能通常随着环境状态变得更加复杂而下降,但先进的上下文管理技术可以显著提高整体成功率。我们开源LOCA-bench,为在长上下文、Agent场景中评估模型和支架提供了一个平台。

🔬 方法详解

问题定义:现有长上下文基准测试主要关注单步的信息检索,无法有效评估语言Agent在真实场景中长期运行任务时的性能。这些任务通常涉及动态增长的上下文,Agent需要不断地探索环境、提取信息并做出决策。现有的方法难以模拟这种动态变化,也缺乏对上下文管理策略的有效评估。

核心思路:LOCA-bench的核心思路是通过自动化和可控的环境状态变化来模拟Agent在长期任务中遇到的上下文增长。通过控制环境的复杂度和信息量,可以系统地评估Agent在不同上下文长度下的性能表现,并分析各种上下文管理策略的效果。这种方法能够更真实地反映Agent在实际应用中的挑战。

技术框架:LOCA-bench的整体框架包括以下几个主要模块:1) 任务提示模块:定义Agent需要完成的任务目标。2) 环境模拟模块:通过自动化的方式生成和控制环境状态,并随着Agent的交互动态变化。3) Agent交互模块:Agent与环境进行交互,观察环境状态并采取行动。4) 上下文管理模块:Agent使用不同的策略来管理和利用上下文信息。5) 评估模块:根据Agent的完成任务情况进行评估,并记录性能指标。

关键创新:LOCA-bench的关键创新在于其可控的上下文增长机制。通过自动化的环境状态管理,可以精确控制Agent所接触到的上下文长度和复杂性,从而能够系统地评估Agent在不同上下文条件下的性能。与现有基准测试相比,LOCA-bench更贴近真实场景,能够更全面地评估语言Agent的能力。

关键设计:LOCA-bench的关键设计包括:1) 环境状态的表示方式:采用结构化的方式表示环境状态,方便自动化生成和控制。2) 上下文管理策略的集成:支持多种上下文管理策略,如滑动窗口、信息摘要等,方便比较不同策略的效果。3) 评估指标的设计:采用多种评估指标,如任务完成率、上下文利用率等,全面评估Agent的性能。

📊 实验亮点

LOCA-bench的实验结果表明,随着环境状态的复杂性增加,Agent的性能会显著下降,验证了“上下文腐烂”现象。同时,实验也表明,采用先进的上下文管理技术,如信息摘要和选择性记忆,可以显著提高Agent在长上下文任务中的成功率。例如,某些上下文管理策略可以将任务完成率提升10%-20%。

🎯 应用场景

LOCA-bench可用于评估和改进语言Agent在各种长期任务中的性能,例如智能助手、自动化客服、游戏AI等。通过该基准测试,可以更好地理解长上下文对Agent性能的影响,并开发更有效的上下文管理策略,从而提升Agent在实际应用中的可靠性和效率。未来的研究可以基于LOCA-bench探索更先进的Agent架构和学习方法。

📄 摘要(原文)

Large language models (LLMs) are increasingly capable of carrying out long-running, real-world tasks. However, as the amount of context grows, their reliability often deteriorates, a phenomenon known as "context rot". Existing long-context benchmarks primarily focus on single-step settings that evaluate a model's ability to retrieve information from a long snippet. In realistic scenarios, however, LLMs often need to act as agents that explore environments, follow instructions and plans, extract useful information, and predict correct actions under a dynamically growing context. To assess language agents in such settings, we introduce LOCA-bench (a benchmark for LOng-Context Agents). Given a task prompt, LOCA-bench leverages automated and scalable control of environment states to regulate the agent's context length. This design enables LOCA-bench to extend the context length potentially to infinity in a controlled way while keeping the underlying task semantics fixed. LOCA-bench evaluates language agents as a combination of models and scaffolds, including various context management strategies. While agent performance generally degrades as the environment states grow more complex, advanced context management techniques can substantially improve the overall success rate. We open-source LOCA-bench to provide a platform for evaluating models and scaffolds in long-context, agentic scenarios: https://github.com/hkust-nlp/LOCA-bench