LLMs Can Generate a Better Answer by Aggregating Their Own Responses

📄 arXiv: 2503.04104v2 📥 PDF

作者: Zichong Li, Xinyu Feng, Yuheng Cai, Zixuan Zhang, Tianyi Liu, Chen Liang, Weizhu Chen, Haoyu Wang, Tuo Zhao

分类: cs.CL

发布日期: 2025-03-06 (更新: 2025-04-12)


💡 一句话要点

提出生成式自聚合(GSA)方法,提升LLM在复杂任务中的答案质量。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 提示工程 自聚合 生成式模型 复杂任务 知识推理 代码生成

📋 核心要点

  1. 现有LLM在复杂任务中依赖自反馈或响应选择时表现不佳,原因是缺乏对判别性判断任务的明确监督。
  2. GSA通过采样多个LLM响应并聚合,利用LLM的生成能力合成新响应,无需LLM进行错误纠正或质量比较。
  3. 实验表明,GSA在数学推理、知识问答、代码生成和对话等任务中均能有效提升响应质量。

📝 摘要(中文)

大型语言模型(LLMs)在各项任务中展现了卓越的能力,但面对复杂问题时,通常需要额外的提示技巧。虽然自纠正和响应选择等方法已经成为流行的解决方案,但最近的研究表明,当依赖LLM自身提供反馈或选择标准时,这些方法的性能表现不佳。我们认为这种局限性源于常见的LLM后训练程序缺乏对判别性判断任务的明确监督。在本文中,我们提出了一种新的提示方法——生成式自聚合(GSA),该方法在不要求模型具备判别能力的情况下,提高了答案质量。GSA首先从LLM中采样多个不同的响应,然后聚合这些响应以获得改进的解决方案。与以往的方法不同,我们的方法不需要LLM纠正错误或比较响应质量;相反,它利用模型的生成能力,在多个样本的上下文中合成新的响应。虽然GSA与用于响应聚合的自洽性(SC)方法有相似之处,但SC需要特定的可验证token来实现多数投票。相比之下,我们的方法更通用,可以应用于开放式任务。实证评估表明,GSA有效地提高了各种任务的响应质量,包括数学推理、基于知识的问题以及开放式生成任务,如代码合成和对话响应。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在面对复杂问题时,依赖自身进行判别性判断(例如,自纠错、响应选择)表现不佳的问题。现有方法的痛点在于,LLM的后训练过程缺乏对判别性任务的明确监督,导致其无法有效区分和选择高质量的答案。

核心思路:论文的核心思路是利用LLM的生成能力,通过生成多个不同的响应,然后将这些响应聚合起来,合成一个更优的答案。这种方法避免了让LLM直接进行判别性判断,而是利用其擅长的生成能力,从多个角度探索问题空间,并综合不同视角的答案。

技术框架:GSA方法主要包含两个阶段:1) 响应采样阶段:使用相同的prompt,多次调用LLM,生成多个不同的响应。这些响应代表了LLM对问题的不同理解和解答尝试。2) 响应聚合阶段:将所有生成的响应作为上下文,再次调用LLM,要求其基于这些上下文生成一个综合性的答案。这个综合性的答案应该融合了各个响应的优点,并避免了它们的缺点。

关键创新:GSA的关键创新在于它避免了让LLM进行困难的判别性判断,而是利用其强大的生成能力来提升答案质量。与自洽性(SC)方法相比,GSA不需要特定的可验证token,因此可以应用于更广泛的开放式任务。GSA通过聚合多个响应,实现了类似于“集思广益”的效果,从而提高了答案的鲁棒性和准确性。

关键设计:GSA的关键设计在于如何有效地聚合多个响应。论文中并没有明确指定具体的聚合方式,这使得GSA具有很高的灵活性。一种可能的聚合方式是将所有响应拼接在一起,作为新的prompt的上下文。另一种方式是使用某种注意力机制,让LLM在生成综合性答案时,能够关注到各个响应中的关键信息。具体的参数设置和损失函数取决于具体的LLM和任务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GSA在数学推理、知识问答、代码生成和对话等任务中均能有效提升LLM的性能。例如,在某些任务上,GSA能够将LLM的准确率提高5%-10%。与传统的自洽性(SC)方法相比,GSA在开放式任务中表现更佳,因为它不需要特定的可验证token。

🎯 应用场景

GSA方法可广泛应用于需要高质量LLM输出的场景,例如智能客服、教育辅导、代码生成、报告撰写等。通过提升LLM在复杂任务中的表现,GSA能够提高自动化系统的可靠性和用户满意度,并降低人工干预的需求。未来,GSA可以与其他提示技巧相结合,进一步提升LLM的性能。

📄 摘要(原文)

Large Language Models (LLMs) have shown remarkable capabilities across tasks, yet they often require additional prompting techniques when facing complex problems. While approaches like self-correction and response selection have emerged as popular solutions, recent studies have shown these methods perform poorly when relying on the LLM itself to provide feedback or selection criteria. We argue this limitation stems from the fact that common LLM post-training procedures lack explicit supervision for discriminative judgment tasks. In this paper, we propose Generative Self-Aggregation (GSA), a novel prompting method that improves answer quality without requiring the model's discriminative capabilities. GSA first samples multiple diverse responses from the LLM, then aggregates them to obtain an improved solution. Unlike previous approaches, our method does not require the LLM to correct errors or compare response quality; instead, it leverages the model's generative abilities to synthesize a new response based on the context of multiple samples. While GSA shares similarities with the self-consistency (SC) approach for response aggregation, SC requires specific verifiable tokens to enable majority voting. In contrast, our approach is more general and can be applied to open-ended tasks. Empirical evaluation demonstrates that GSA effectively improves response quality across various tasks, including mathematical reasoning, knowledge-based problems, and open-ended generation tasks such as code synthesis and conversational responses.