From Tools to Teammates: Evaluating LLMs in Multi-Session Coding Interactions

作者: Nathanaël Carraz Rakotonirina, Mohammed Hamdy, Jon Ander Campos, Lucas Weber, Alberto Testoni, Marzieh Fadaee, Sandro Pezzelle, Marco Del Tredici

分类: cs.CL

发布日期: 2025-02-19 (更新: 2025-06-06)

备注: Published as conference paper at ACL 2025

💡 一句话要点

MemoryCode：评估LLM在多轮编码交互中的长期记忆能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 多轮交互 长期记忆 编码任务 数据集 评估 GPT-4o

📋 核心要点

现有LLM在孤立任务中表现出色，但在长期多轮交互中，追踪和整合信息的能力不足，限制了其协作能力。
论文提出MemoryCode数据集，用于评估LLM在模拟真实场景下的多轮编码交互中的长期记忆和指令执行能力。
实验表明，即使是GPT-4o等先进模型，在指令分散在多轮会话中时，性能也会显著下降，揭示了LLM在长期记忆方面的局限性。

📝 摘要（中文）

大型语言模型（LLM）越来越多地应用于工作环境中，擅长解决孤立的个体问题。然而，它们是否也能在长期交互中有效地协作？为了研究这个问题，我们引入了MemoryCode，一个合成的多轮数据集，旨在测试LLM在无关信息中跟踪和执行简单编码指令的能力，模拟真实场景。虽然我们测试的所有模型都能很好地处理孤立的指令，但即使是像GPT-4o这样的最先进模型的性能也会在指令分散在多个会话中时下降。我们的分析表明，这是由于它们未能检索和整合长指令链上的信息。我们的结果突出了当前LLM的一个根本局限性，限制了它们在长期交互中有效协作的能力。

🔬 方法详解

问题定义：论文旨在解决LLM在多轮编码交互中长期记忆能力不足的问题。现有LLM在处理孤立的编码指令时表现良好，但在需要跨多个会话追踪和整合指令时，性能会显著下降。这种局限性阻碍了LLM在需要长期协作的实际应用中的应用。现有方法缺乏对LLM在长期交互中记忆和执行复杂指令能力的有效评估。

核心思路：论文的核心思路是构建一个合成数据集MemoryCode，模拟真实的多轮编码交互场景，其中指令分散在多个会话中，并穿插无关信息。通过评估LLM在MemoryCode上的性能，可以有效地衡量其长期记忆和指令执行能力。

技术框架：MemoryCode数据集生成流程包括：1) 定义一系列简单的编码指令；2) 将这些指令分散到多个会话中；3) 在每个会话中添加无关信息，模拟真实场景中的干扰；4) 构建评估指标，衡量LLM在每个会话中执行指令的准确性。评估过程包括：1) 将MemoryCode数据集输入到LLM中；2) 记录LLM在每个会话中的输出；3) 使用评估指标衡量LLM的性能。

关键创新：论文的关键创新在于提出了MemoryCode数据集，这是一个专门用于评估LLM在多轮编码交互中长期记忆能力的合成数据集。与现有数据集相比，MemoryCode更侧重于模拟真实场景中的长期交互，并包含分散在多个会话中的指令和无关信息，从而更有效地评估LLM的长期记忆能力。

关键设计：MemoryCode数据集的关键设计包括：1) 指令的复杂度：指令需要足够简单，以便LLM能够理解和执行，但又需要足够复杂，以便能够测试LLM的长期记忆能力；2) 会话的数量：会话的数量需要足够多，以便能够模拟真实的长期交互场景；3) 无关信息的数量：无关信息的数量需要足够多，以便能够模拟真实场景中的干扰，但又不能过多，以免影响LLM的性能；4) 评估指标：评估指标需要能够准确地衡量LLM在每个会话中执行指令的准确性。

📊 实验亮点

实验结果表明，即使是GPT-4o等先进模型，在MemoryCode数据集上的性能也会随着会话数量的增加而显著下降。这表明当前LLM在长期记忆方面存在局限性，无法有效地检索和整合长指令链上的信息。该研究揭示了LLM在长期交互中有效协作的瓶颈，为未来的研究方向提供了重要启示。

🎯 应用场景

该研究成果可应用于提升LLM在软件开发、智能助手、教育辅导等领域的长期协作能力。通过MemoryCode数据集，可以更好地评估和改进LLM的长期记忆能力，使其能够更好地理解和执行复杂的、跨越多个会话的任务。这有助于开发更智能、更可靠的AI助手，提高工作效率和用户体验。

📄 摘要（原文）

Large Language Models (LLMs) are increasingly used in working environments for a wide range of tasks, excelling at solving individual problems in isolation. However, are they also able to effectively collaborate over long-term interactions? To investigate this, we introduce MemoryCode, a synthetic multi-session dataset designed to test LLMs' ability to track and execute simple coding instructions amid irrelevant information, simulating a realistic setting. While all the models we tested handle isolated instructions well, even the performance of state-of-the-art models like GPT-4o deteriorates when instructions are spread across sessions. Our analysis suggests this is due to their failure to retrieve and integrate information over long instruction chains. Our results highlight a fundamental limitation of current LLMs, restricting their ability to collaborate effectively in long interactions.

From Tools to Teammates: Evaluating LLMs in Multi-Session Coding Interactions

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理