Chain of Agents: Large Language Models Collaborating on Long-Context Tasks

📄 arXiv: 2406.02818v1 📥 PDF

作者: Yusen Zhang, Ruoxi Sun, Yanfei Chen, Tomas Pfister, Rui Zhang, Sercan Ö. Arik

分类: cs.CL

发布日期: 2024-06-04

备注: 19 pages, 6 figures


💡 一句话要点

提出Chain-of-Agents框架,通过多智能体协作解决长文本处理中的信息聚合与推理难题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多智能体协作 长文本处理 信息聚合 上下文推理 大型语言模型 自然语言处理 分而治之

📋 核心要点

  1. 现有长文本处理方法,如RAG和扩展上下文窗口,分别存在信息覆盖不全和关注度不足的问题。
  2. Chain-of-Agents框架通过多智能体协作,将长文本分割处理,并由manager agent整合,实现有效的信息聚合和推理。
  3. 实验表明,CoA在问答、摘要和代码补全等任务上,相比现有方法有显著提升,最高达10%。

📝 摘要(中文)

大型语言模型(LLMs)面临着有效处理长文本的挑战。目前有两种主要策略:1) 减少输入长度,例如通过检索增强生成(RAG)检索相关文本块;2) 扩展LLMs的上下文窗口限制。然而,这两种策略都有局限性:输入减少不能保证覆盖所需信息,而窗口扩展难以关注解决任务的相关信息。为了缓解这些限制,我们提出了一种新颖的框架Chain-of-Agents(CoA),它利用多智能体通过自然语言进行协作,从而实现跨各种LLMs在长文本任务中的信息聚合和上下文推理。CoA由多个worker agent组成,它们顺序通信以处理文本的不同分段部分,然后由一个manager agent将这些贡献综合成一个连贯的最终输出。CoA通过交错阅读和推理来处理整个输入,并通过为每个agent分配一个短上下文来缓解长上下文焦点问题。我们在问答、摘要和代码补全等各种长文本任务中对CoA进行了全面评估,结果表明,与RAG、Full-Context和多智能体LLMs等强大的基线相比,CoA取得了显著的改进,提升高达10%。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在处理长文本时面临的信息聚合和上下文推理难题。现有方法,如RAG通过检索减少输入长度,可能遗漏关键信息;扩展上下文窗口则难以让模型关注相关信息,导致性能下降。这些方法无法有效利用长文本中的全部信息。

核心思路:论文的核心思路是将长文本处理任务分解为多个子任务,分配给不同的智能体(worker agents)并行处理,然后由一个管理智能体(manager agent)整合各个智能体的输出,形成最终结果。这种分而治之的策略旨在减轻单个智能体的上下文负担,提高处理效率和准确性。

技术框架:CoA框架包含多个worker agents和一个manager agent。worker agents负责处理长文本的不同分段部分,通过自然语言进行通信,提取和总结各自负责部分的信息。manager agent负责接收所有worker agents的输出,并将其整合为一个连贯的最终输出。整个过程交错进行阅读和推理,每个agent只处理短上下文。

关键创新:CoA的关键创新在于利用多智能体协作来处理长文本,避免了传统方法中单个模型处理长上下文的局限性。通过将长文本分解为多个短文本片段,并分配给不同的智能体处理,可以更有效地利用长文本中的信息,提高处理效率和准确性。此外,自然语言通信机制使得智能体之间可以进行有效的知识传递和信息整合。

关键设计:worker agents的数量可以根据长文本的长度进行调整。每个worker agent负责处理的文本片段长度需要适当控制,以保证其能够有效提取信息,同时避免上下文过长。manager agent的设计需要考虑如何有效地整合来自不同worker agents的信息,可以使用不同的策略,如加权平均、注意力机制等。具体的LLM选择没有限制,可以是不同的模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Chain-of-Agents框架在问答、摘要和代码补全等长文本任务上取得了显著的改进,相比RAG、Full-Context和多智能体LLMs等基线方法,性能提升高达10%。这表明CoA能够更有效地利用长文本中的信息,提高处理效率和准确性。

🎯 应用场景

Chain-of-Agents框架可广泛应用于需要处理长文本的领域,例如长篇文档摘要、复杂问题解答、代码理解与生成、法律文本分析、金融报告解读等。该方法能够有效提升LLM在这些领域的性能,提高工作效率,并为用户提供更准确、全面的信息。

📄 摘要(原文)

Addressing the challenge of effectively processing long contexts has become a critical issue for Large Language Models (LLMs). Two common strategies have emerged: 1) reducing the input length, such as retrieving relevant chunks by Retrieval-Augmented Generation (RAG), and 2) expanding the context window limit of LLMs. However, both strategies have drawbacks: input reduction has no guarantee of covering the part with needed information, while window extension struggles with focusing on the pertinent information for solving the task. To mitigate these limitations, we propose Chain-of-Agents (CoA), a novel framework that harnesses multi-agent collaboration through natural language to enable information aggregation and context reasoning across various LLMs over long-context tasks. CoA consists of multiple worker agents who sequentially communicate to handle different segmented portions of the text, followed by a manager agent who synthesizes these contributions into a coherent final output. CoA processes the entire input by interleaving reading and reasoning, and it mitigates long context focus issues by assigning each agent a short context. We perform comprehensive evaluation of CoA on a wide range of long-context tasks in question answering, summarization, and code completion, demonstrating significant improvements by up to 10% over strong baselines of RAG, Full-Context, and multi-agent LLMs.