Advancing Large Language Model Attribution through Self-Improving
作者: Lei Huang, Xiaocheng Feng, Weitao Ma, Liang Zhao, Yuchun Fan, Weihong Zhong, Dongliang Xu, Qing Yang, Hongtao Liu, Bing Qin
分类: cs.CL, cs.AI
发布日期: 2024-10-17
备注: Accepted by EMNLP 2024 Main Conference
💡 一句话要点
提出START框架,通过自学习迭代提升大语言模型的事实归因能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 事实归因 自学习 迭代优化 开放域问答
📋 核心要点
- 现有大语言模型的事实归因能力不足,生成文本时缺乏可靠的证据来源,容易产生幻觉。
- START框架通过自学习的方式,迭代地提升大语言模型的事实归因能力,无需人工标注数据。
- 实验结果表明,START框架在开放域问答任务上取得了显著的性能提升,尤其擅长整合多源信息。
📝 摘要(中文)
本文提出了一种名为START的自学习归因框架,旨在迭代提升大语言模型(LLM)的事实归因能力。该框架通过让LLM生成带有证据来源引用的文本,来缓解幻觉问题并增强信息检索系统的可验证性。START首先利用模型自构建的合成训练数据进行预热,以防止模型因初始监督信号不足而停滞。然后,通过迭代地利用从模型采样响应中构建的细粒度偏好监督信号,鼓励模型生成稳健、全面且可归因的文本。在三个开放域问答数据集上的实验表明,START在不依赖人工标注和更先进模型的情况下,平均性能提升了25.13%。进一步的分析表明,START擅长整合来自多个来源的信息。
🔬 方法详解
问题定义:论文旨在解决大语言模型在生成文本时缺乏事实依据,容易产生幻觉的问题。现有方法依赖于大量人工标注的高质量归因数据,成本高昂且效率低下。此外,模型在训练初期可能因监督信号不足而难以有效学习。
核心思路:论文的核心思路是利用大语言模型自身的生成能力,通过自学习的方式迭代提升其事实归因能力。具体而言,首先利用模型生成合成数据进行预热,然后通过细粒度的偏好监督信号引导模型学习更准确的归因。
技术框架:START框架包含两个主要阶段:预热阶段和迭代优化阶段。在预热阶段,利用模型生成合成数据,并使用这些数据对模型进行初步训练。在迭代优化阶段,模型生成多个候选答案,然后根据偏好监督信号选择最佳答案,并使用该答案对模型进行微调。这个过程不断迭代,逐步提升模型的事实归因能力。
关键创新:START框架的关键创新在于其完全依赖于自学习,无需人工标注数据。通过合成数据预热和细粒度偏好监督信号,有效地引导模型学习事实归因,避免了人工标注的成本和偏差。
关键设计:框架设计了细粒度的偏好监督信号,用于区分不同答案的优劣。具体实现方式未知,但推测可能涉及到对答案的事实性、完整性和可归因性进行评估,并根据评估结果生成偏好信号。此外,迭代训练的策略也至关重要,通过不断地自我改进,模型能够逐步提升其事实归因能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,START框架在三个开放域问答数据集上取得了显著的性能提升,平均提升幅度达到25.13%。该框架在不依赖人工标注和更先进模型的情况下,超越了现有的基线方法,证明了其有效性和优越性。此外,分析表明START框架尤其擅长整合来自多个来源的信息。
🎯 应用场景
该研究成果可应用于各种需要事实依据的自然语言生成任务,例如问答系统、信息检索、新闻生成等。通过提高生成文本的可验证性和可靠性,有助于减少虚假信息的传播,提升用户信任度,并为构建更值得信赖的人工智能系统奠定基础。
📄 摘要(原文)
Teaching large language models (LLMs) to generate text with citations to evidence sources can mitigate hallucinations and enhance verifiability in information-seeking systems. However, improving this capability requires high-quality attribution data, which is costly and labor-intensive. Inspired by recent advances in self-improvement that enhance LLMs without manual annotation, we present START, a Self-Taught AttRibuTion framework for iteratively improving the attribution capability of LLMs. First, to prevent models from stagnating due to initially insufficient supervision signals, START leverages the model to self-construct synthetic training data for warming up. To further self-improve the model's attribution ability, START iteratively utilizes fine-grained preference supervision signals constructed from its sampled responses to encourage robust, comprehensive, and attributable generation. Experiments on three open-domain question-answering datasets, covering long-form QA and multi-step reasoning, demonstrate significant performance gains of 25.13% on average without relying on human annotations and more advanced models. Further analysis reveals that START excels in aggregating information across multiple sources.