Improving the Reliability of LLMs: Combining CoT, RAG, Self-Consistency, and Self-Verification

📄 arXiv: 2505.09031v1 📥 PDF

作者: Adarsh Kumar, Hwiyoon Kim, Jawahar Sai Nathani, Neil Roy

分类: cs.AI, cs.CL

发布日期: 2025-05-13


💡 一句话要点

结合CoT、RAG、自洽性和自验证,提升大型语言模型的可靠性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 幻觉问题 思维链 检索增强生成 自洽性 自验证 知识库 可靠性

📋 核心要点

  1. 大型语言模型在开放式任务中存在幻觉问题,生成错误或不相关信息,影响了其可靠性。
  2. 结合CoT、RAG、自洽性和自验证,利用外部知识源并允许模型自我修正,以减少幻觉。
  3. 实验评估了各种方法的有效性,旨在找到在减少幻觉的同时保持流畅性和推理深度的最佳方案。

📝 摘要(中文)

大型语言模型(LLMs)的一个主要局限性在于幻觉问题,即生成自信但错误或不相关的信息,这限制了它们在复杂、开放式任务中的应用。思维链(CoT)提示已成为一种有前景的方法,通过引导模型完成中间步骤来改进多步推理。然而,仅靠CoT并不能完全解决幻觉问题。本文研究了如何将CoT与检索增强生成(RAG)相结合,并应用自洽性和自验证策略,以减少幻觉并提高事实准确性。通过在推理过程中整合外部知识源,并使模型能够验证或修改自己的输出,旨在生成更准确和连贯的响应。我们对基线LLM与CoT、CoT+RAG、自洽性和自验证技术进行了比较评估。我们的结果突出了每种方法的有效性,并确定了在保持流畅性和推理深度的同时,最大限度地减少幻觉的最稳健方法。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在复杂、开放式任务中存在的幻觉问题,即模型会自信地生成不正确或不相关的信息。现有的方法,如单纯的思维链(CoT)提示,虽然能改善多步推理,但无法完全消除幻觉,导致模型输出不可靠。

核心思路:论文的核心思路是将CoT与检索增强生成(RAG)、自洽性和自验证策略相结合。通过RAG引入外部知识,CoT引导推理过程,自洽性确保答案的一致性,自验证则让模型检查和修正自身错误。这种多管齐下的方法旨在提高LLM的事实准确性和整体可靠性。

技术框架:整体框架包含以下几个主要阶段:1) 使用CoT提示引导LLM进行推理;2) 利用RAG从外部知识库检索相关信息;3) 应用自洽性策略,生成多个答案并进行一致性投票;4) 使用自验证模块,让模型评估和修正其自身的输出。这些阶段可以串联或并行执行,以达到最佳效果。

关键创新:论文的关键创新在于将多种技术融合到一个统一的框架中,协同解决LLM的幻觉问题。不同于以往侧重单一技术的方案,该方法充分利用了CoT的推理能力、RAG的知识补充、自洽性的鲁棒性和自验证的纠错能力。这种组合策略能够更有效地减少幻觉,提高模型输出的质量。

关键设计:论文中RAG模块的关键设计在于如何选择合适的知识源和检索策略,以保证检索到的信息与当前问题相关且准确。自洽性模块的关键在于如何定义一致性度量标准,以及如何有效地进行答案投票。自验证模块则需要设计合适的评估指标和修正策略,以确保模型能够准确地识别和修正自身的错误。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了结合CoT、RAG、自洽性和自验证策略的有效性。实验结果表明,相比于基线LLM和单独使用CoT的方法,该组合方法能够显著减少幻觉,提高事实准确性。具体的性能提升数据(例如准确率提升百分比)未知,但论文强调了该方法在减少幻觉方面的显著优势。

🎯 应用场景

该研究成果可广泛应用于需要高可靠性的自然语言处理任务中,例如问答系统、知识图谱构建、智能客服等。通过减少LLM的幻觉,可以提高这些应用的可信度和实用性,从而更好地服务于用户,并为未来的AI应用奠定基础。

📄 摘要(原文)

Hallucination, where large language models (LLMs) generate confident but incorrect or irrelevant information, remains a key limitation in their application to complex, open-ended tasks. Chain-of-thought (CoT) prompting has emerged as a promising method for improving multistep reasoning by guiding models through intermediate steps. However, CoT alone does not fully address the hallucination problem. In this work, we investigate how combining CoT with retrieval-augmented generation (RAG), as well as applying self-consistency and self-verification strategies, can reduce hallucinations and improve factual accuracy. By incorporating external knowledge sources during reasoning and enabling models to verify or revise their own outputs, we aim to generate more accurate and coherent responses. We present a comparative evaluation of baseline LLMs against CoT, CoT+RAG, self-consistency, and self-verification techniques. Our results highlight the effectiveness of each method and identify the most robust approach for minimizing hallucinations while preserving fluency and reasoning depth.