TIAR: Trajectory-Informed Advantage Reweighting for LLM Abstention Learning
作者: Muyu Pan, Shu Zhao, Nan Zhang, Philip Shin, Varun Parekh, Vijaykrishnan Narayanan, Rui Zhang
分类: cs.CL, cs.AI, cs.LG
发布日期: 2026-05-25
备注: 10 pages, 1 figure, 4 tables
💡 一句话要点
TIAR:轨迹信息优势重加权用于LLM拒绝学习,提升模型可靠性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 拒绝学习 轨迹信息 优势重加权 群体相对策略优化
📋 核心要点
- 现有LLM拒绝学习方法缺乏动态调整机制,难以有效探索知识边界和鼓励模型一致性。
- 提出轨迹信息优势重加权(TIAR)方法,利用GRPO轨迹作为置信度指标,动态调整拒绝奖励。
- 实验表明,TIAR在AbstentionBench上取得了SOTA的拒绝F1分数,并在多个数据集上优于静态三元基线。
📝 摘要(中文)
本文研究了大型语言模型(LLM)的拒绝学习,特别是使用三元奖励来激励LLM的真实性。本文通过将三元奖励扩展到轨迹信息优势重加权,在群体相对策略优化(GRPO)训练期间动态地重新加权拒绝奖励。这项工作的目标侧重于拒绝学习,而不是提高真实性,旨在探索减少幻觉。本文的创新之处在于方法论创新、优势重加权和基准选择。该方法利用GRPO的多个轨迹作为自然的拒绝信号,使用奖励信号来探索知识边界并鼓励一致性。通过证明轨迹可以用作策略相对于查询的置信度指标,然后将其用于动态计算拒绝优势。使用AbstentionBench作为评估基准,因为这项工作旨在为拒绝学习领域做出贡献。所有基准数据集都针对此方法和各种基线进行了测试。实验结果表明,TIAR在六个评估类别中的五个类别中实现了最先进的拒绝F1分数,在31个基准数据集中有17个优于静态三元基线,同时完全保留了基线准确性。
🔬 方法详解
问题定义:大型语言模型(LLM)容易产生幻觉,即生成不真实或不一致的内容。现有的拒绝学习方法,例如使用静态三元奖励,在激励模型拒绝回答不确定问题方面存在局限性,无法充分利用模型在训练过程中产生的丰富信息,难以有效探索知识边界。
核心思路:本文的核心思路是利用GRPO训练过程中产生的多个轨迹作为模型置信度的指标,并基于这些轨迹动态地调整拒绝奖励。通过这种方式,模型可以更好地学习何时应该拒绝回答问题,从而减少幻觉的产生。这种动态调整机制能够更有效地探索知识边界,并鼓励模型在不同轨迹之间保持一致性。
技术框架:TIAR方法基于GRPO框架。GRPO生成多个轨迹,每个轨迹代表模型对同一问题的不同回答路径。TIAR利用这些轨迹计算一个优势函数,该函数反映了拒绝回答问题相对于生成答案的优势。然后,使用这个优势函数来重新加权拒绝奖励,从而引导模型学习更有效的拒绝策略。整体流程包括:1) 使用GRPO生成多个轨迹;2) 计算轨迹信息优势;3) 使用优势信息重加权拒绝奖励;4) 使用重加权后的奖励训练LLM。
关键创新:TIAR的关键创新在于利用轨迹信息动态地调整拒绝奖励。与传统的静态奖励方法相比,TIAR能够更有效地利用模型在训练过程中产生的丰富信息,从而更好地探索知识边界,并鼓励模型在不同轨迹之间保持一致性。这种动态调整机制使得模型能够更准确地判断何时应该拒绝回答问题,从而减少幻觉的产生。
关键设计:TIAR的关键设计包括:1) 轨迹信息优势的计算方式,具体来说,如何利用多个轨迹来估计模型对特定问题的置信度;2) 优势函数如何用于重新加权拒绝奖励,需要仔细设计重加权策略,以确保模型能够有效地学习拒绝策略,同时避免过度拒绝或欠拒绝;3) GRPO训练过程中的超参数设置,例如学习率、批量大小等,需要根据具体任务进行调整。
🖼️ 关键图片
📊 实验亮点
TIAR在AbstentionBench基准测试中表现出色,在六个评估类别中的五个类别中实现了最先进的拒绝F1分数。在31个基准数据集中,TIAR在17个数据集上优于静态三元基线,同时完全保留了基线准确性。这些结果表明,TIAR能够有效地提高LLM的拒绝能力,并减少幻觉的产生。
🎯 应用场景
TIAR方法可应用于各种需要LLM具备高可靠性的场景,例如医疗诊断、金融分析、法律咨询等。通过减少LLM的幻觉,可以提高其在这些领域的应用价值,并降低因错误信息带来的风险。未来,该方法可以进一步扩展到其他类型的LLM和任务中,例如对话系统、文本摘要等。
📄 摘要(原文)
This paper investigates large language model (LLM) abstention learning, specifically using ternary reward, which incentivize truthfulness in large language models. This paper extends that idea by moving from a ternary reward to a Trajectory-Informed advantage reweighting, dynamically re-weights the abstention reward during Group Relative Policy Optimization (GRPO) training. The objective of this work focuses on abstention learning instead of improving truthfulness, serving as an exploration into hallucination reduction. The novelty of this paper lies in methodological innovation, advantage re-weighting, and benchmark selection. Leveraging GRPO's multiple trajectories as a natural abstention signal, this method uses a reward signal to explore knowledge boundaries and encourage consistency. By demonstrating that trajectories can be used as a confidence indicator of the policy relative to the query, they are then used to dynamically calculate the abstention advantage. AbstentionBench is used as the evaluation benchmark, as this work aims to contribute to the field of abstention learning. All datasets on the benchmark were tested against this method and various baselines. Empirical results demonstrate that TIAR achieves state-of-the-art abstention F1 scores across five of six evaluation categories, outperforming the static ternary baseline on 17 of 31 benchmark datasets while fully preserving baseline accuracy.