GenProve: Learning to Generate Text with Fine-Grained Provenance

📄 arXiv: 2601.04932v1 📥 PDF

作者: Jingxuan Wei, Xingyue Wang, Yanghaoyu Liao, Jie Dong, Yuchen Liu, Caijun Jia, Bihui Yu, Junnan Zhu

分类: cs.CL

发布日期: 2026-01-08


💡 一句话要点

GenProve:提出一种生成文本并提供细粒度来源信息的框架,解决LLM幻觉问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 可信生成 细粒度来源 幻觉问题 监督式微调 群体相对策略优化 ReFInE数据集

📋 核心要点

  1. 现有LLM在生成文本时存在幻觉问题,添加引用虽能缓解,但用户难以验证引用与生成内容的相关性。
  2. GenProve框架通过生成流畅答案的同时,提供句子级别的结构化来源三元组,实现细粒度的可追溯性。
  3. GenProve结合监督微调和群体相对策略优化,在答案保真度和来源正确性上均优于现有LLM。

📝 摘要(中文)

大型语言模型(LLM)经常出现幻觉。虽然添加引用是一种常见的解决方案,但由于用户难以验证引用的来源如何支持生成的声明,因此这种方法通常不足以实现可追溯性。现有的方法通常是粗粒度的,无法区分直接引用和复杂的推理。本文介绍了一种生成时细粒度来源(Generation-time Fine-grained Provenance)任务,模型必须生成流畅的答案,同时生成结构化的句子级来源三元组。为此,我们提出了ReFInE(Relation-aware Fine-grained Interpretability & Evidence)数据集,该数据集具有专家验证的注释,可区分引用、压缩和推理。在ReFInE的基础上,我们提出了GenProve框架,该框架结合了监督式微调(SFT)和群体相对策略优化(GRPO)。通过优化答案保真度和来源正确性的复合奖励,GenProve在联合评估中显著优于14个强大的LLM。重要的是,我们的分析揭示了一个推理差距,即模型擅长表面级别的引用,但在基于推理的来源方面表现不佳,这表明可验证的推理仍然是一个前沿挑战,不同于表面级别的引用。

🔬 方法详解

问题定义:LLM在生成文本时容易产生幻觉,即生成不真实或与事实不符的内容。虽然可以通过添加引用来提高可信度,但现有方法通常是粗粒度的,无法区分直接引用、信息压缩和复杂推理等不同类型的来源关系,导致用户难以验证生成内容的真实性和可靠性。因此,需要一种能够提供细粒度来源信息的生成方法,以提高LLM生成内容的可信度和可追溯性。

核心思路:GenProve的核心思路是在生成文本的同时,生成句子级别的来源三元组,从而提供细粒度的来源信息。这些三元组明确地指出了生成内容与来源之间的关系,例如引用、压缩或推理。通过这种方式,用户可以更容易地验证生成内容的真实性和可靠性。此外,GenProve还通过优化答案保真度和来源正确性的复合奖励,来提高生成内容的质量和来源信息的准确性。

技术框架:GenProve框架主要包含两个阶段:监督式微调(SFT)和群体相对策略优化(GRPO)。在SFT阶段,使用ReFInE数据集对LLM进行微调,使其能够生成流畅的答案和相应的来源三元组。ReFInE数据集包含专家验证的注释,区分了引用、压缩和推理等不同的来源关系。在GRPO阶段,通过优化一个复合奖励函数来进一步提高生成内容的质量和来源信息的准确性。该奖励函数同时考虑了答案的保真度和来源的正确性。

关键创新:GenProve的关键创新在于提出了生成时细粒度来源(Generation-time Fine-grained Provenance)的任务,并设计了相应的框架来实现该任务。与现有方法相比,GenProve能够提供句子级别的来源信息,并区分不同的来源关系,从而提高了生成内容的可信度和可追溯性。此外,GenProve还通过优化复合奖励函数,来提高生成内容的质量和来源信息的准确性。

关键设计:ReFInE数据集是GenProve框架的重要组成部分,它包含了专家验证的注释,区分了引用、压缩和推理等不同的来源关系。这些注释用于训练LLM,使其能够生成准确的来源三元组。GRPO阶段的复合奖励函数是另一个关键设计,它同时考虑了答案的保真度和来源的正确性。通过调整这两个奖励的权重,可以控制生成内容的质量和来源信息的准确性。

📊 实验亮点

实验结果表明,GenProve在联合评估中显著优于14个强大的LLM。分析表明,模型在表面级别的引用方面表现出色,但在基于推理的来源方面表现不佳,揭示了可验证推理仍然是一个前沿挑战。GenProve在ReFInE数据集上取得了显著的性能提升,证明了其在生成细粒度来源信息方面的有效性。

🎯 应用场景

GenProve可应用于需要高可信度和可追溯性的文本生成场景,例如新闻报道、科学研究、法律咨询等。通过提供细粒度的来源信息,GenProve可以帮助用户验证生成内容的真实性和可靠性,从而提高LLM在这些领域的应用价值。未来,GenProve可以进一步扩展到其他模态,例如图像和视频,以实现多模态内容的可信生成。

📄 摘要(原文)

Large language models (LLM) often hallucinate, and while adding citations is a common solution, it is frequently insufficient for accountability as users struggle to verify how a cited source supports a generated claim. Existing methods are typically coarse-grained and fail to distinguish between direct quotes and complex reasoning. In this paper, we introduce Generation-time Fine-grained Provenance, a task where models must generate fluent answers while simultaneously producing structured, sentence-level provenance triples. To enable this, we present ReFInE (Relation-aware Fine-grained Interpretability & Evidence), a dataset featuring expert verified annotations that distinguish between Quotation, Compression, and Inference. Building on ReFInE, we propose GenProve, a framework that combines Supervised Fine-Tuning (SFT) with Group Relative Policy Optimization (GRPO). By optimizing a composite reward for answer fidelity and provenance correctness, GenProve significantly outperforms 14 strong LLMs in joint evaluation. Crucially, our analysis uncovers a reasoning gap where models excel at surface-level quotation but struggle significantly with inference-based provenance, suggesting that verifiable reasoning remains a frontier challenge distinct from surface-level citation.