From Tools to Teammates: Evaluating LLMs in Multi-Session Coding Interactions

📄 arXiv: 2502.13791v2 📥 PDF

作者: Nathanaël Carraz Rakotonirina, Mohammed Hamdy, Jon Ander Campos, Lucas Weber, Alberto Testoni, Marzieh Fadaee, Sandro Pezzelle, Marco Del Tredici

分类: cs.CL

发布日期: 2025-02-19 (更新: 2025-06-06)

备注: Published as conference paper at ACL 2025


💡 一句话要点

MemoryCode:评估LLM在多轮编码交互中的长期记忆能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 多轮交互 长期记忆 编码任务 数据集 评估 GPT-4o

📋 核心要点

  1. 现有LLM在孤立任务中表现出色,但在长期多轮交互中,追踪和整合信息的能力不足,限制了其协作能力。
  2. 论文提出MemoryCode数据集,用于评估LLM在模拟真实场景下的多轮编码交互中的长期记忆和指令执行能力。
  3. 实验表明,即使是GPT-4o等先进模型,在指令分散在多轮会话中时,性能也会显著下降,揭示了LLM在长期记忆方面的局限性。

📝 摘要(中文)

大型语言模型(LLM)越来越多地应用于工作环境中,擅长解决孤立的个体问题。然而,它们是否也能在长期交互中有效地协作?为了研究这个问题,我们引入了MemoryCode,一个合成的多轮数据集,旨在测试LLM在无关信息中跟踪和执行简单编码指令的能力,模拟真实场景。虽然我们测试的所有模型都能很好地处理孤立的指令,但即使是像GPT-4o这样的最先进模型的性能也会在指令分散在多个会话中时下降。我们的分析表明,这是由于它们未能检索和整合长指令链上的信息。我们的结果突出了当前LLM的一个根本局限性,限制了它们在长期交互中有效协作的能力。

🔬 方法详解

问题定义:论文旨在解决LLM在多轮编码交互中长期记忆能力不足的问题。现有LLM在处理孤立的编码指令时表现良好,但在需要跨多个会话追踪和整合指令时,性能会显著下降。这种局限性阻碍了LLM在需要长期协作的实际应用中的应用。现有方法缺乏对LLM在长期交互中记忆和执行复杂指令能力的有效评估。

核心思路:论文的核心思路是构建一个合成数据集MemoryCode,模拟真实的多轮编码交互场景,其中指令分散在多个会话中,并穿插无关信息。通过评估LLM在MemoryCode上的性能,可以有效地衡量其长期记忆和指令执行能力。

技术框架:MemoryCode数据集生成流程包括:1) 定义一系列简单的编码指令;2) 将这些指令分散到多个会话中;3) 在每个会话中添加无关信息,模拟真实场景中的干扰;4) 构建评估指标,衡量LLM在每个会话中执行指令的准确性。评估过程包括:1) 将MemoryCode数据集输入到LLM中;2) 记录LLM在每个会话中的输出;3) 使用评估指标衡量LLM的性能。

关键创新:论文的关键创新在于提出了MemoryCode数据集,这是一个专门用于评估LLM在多轮编码交互中长期记忆能力的合成数据集。与现有数据集相比,MemoryCode更侧重于模拟真实场景中的长期交互,并包含分散在多个会话中的指令和无关信息,从而更有效地评估LLM的长期记忆能力。

关键设计:MemoryCode数据集的关键设计包括:1) 指令的复杂度:指令需要足够简单,以便LLM能够理解和执行,但又需要足够复杂,以便能够测试LLM的长期记忆能力;2) 会话的数量:会话的数量需要足够多,以便能够模拟真实的长期交互场景;3) 无关信息的数量:无关信息的数量需要足够多,以便能够模拟真实场景中的干扰,但又不能过多,以免影响LLM的性能;4) 评估指标:评估指标需要能够准确地衡量LLM在每个会话中执行指令的准确性。

📊 实验亮点

实验结果表明,即使是GPT-4o等先进模型,在MemoryCode数据集上的性能也会随着会话数量的增加而显著下降。这表明当前LLM在长期记忆方面存在局限性,无法有效地检索和整合长指令链上的信息。该研究揭示了LLM在长期交互中有效协作的瓶颈,为未来的研究方向提供了重要启示。

🎯 应用场景

该研究成果可应用于提升LLM在软件开发、智能助手、教育辅导等领域的长期协作能力。通过MemoryCode数据集,可以更好地评估和改进LLM的长期记忆能力,使其能够更好地理解和执行复杂的、跨越多个会话的任务。这有助于开发更智能、更可靠的AI助手,提高工作效率和用户体验。

📄 摘要(原文)

Large Language Models (LLMs) are increasingly used in working environments for a wide range of tasks, excelling at solving individual problems in isolation. However, are they also able to effectively collaborate over long-term interactions? To investigate this, we introduce MemoryCode, a synthetic multi-session dataset designed to test LLMs' ability to track and execute simple coding instructions amid irrelevant information, simulating a realistic setting. While all the models we tested handle isolated instructions well, even the performance of state-of-the-art models like GPT-4o deteriorates when instructions are spread across sessions. Our analysis suggests this is due to their failure to retrieve and integrate information over long instruction chains. Our results highlight a fundamental limitation of current LLMs, restricting their ability to collaborate effectively in long interactions.