Through the Judge's Eyes: Inferred Thinking Traces Improve Reliability of LLM Raters
作者: Xingjian Zhang, Tianhong Gao, Suliang Jin, Tianhao Wang, Teng Ye, Eytan Adar, Qiaozhu Mei
分类: cs.AI, cs.CL, cs.HC
发布日期: 2025-10-29
💡 一句话要点
通过推断思维轨迹,提升LLM评估者在主观任务中的可靠性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 思维轨迹 拒绝抽样 评估任务 人机协作
📋 核心要点
- 主观评估任务中,LLM评分者受限于缺乏细微推理能力,导致可靠性不足。
- 提出人-LLM协作框架,通过拒绝抽样方法从标签数据中推断思维轨迹。
- 实验表明,该方法能显著提高LLM评分者与人类判断的一致性,并提升模型间一致性。
📝 摘要(中文)
大型语言模型(LLMs)越来越多地被用作评估任务的评分者。然而,对于主观任务,当人类判断涉及超出标注标签的细微推理时,它们的可靠性通常受到限制。思维轨迹,即判断背后的推理,信息量很大,但收集和整理具有挑战性。我们提出了一个人-LLM协作框架,用于从仅标签的标注中推断思维轨迹。所提出的框架使用一种简单有效的拒绝抽样方法来大规模重建这些轨迹。这些推断的思维轨迹被应用于两个互补的任务:(1)微调开放LLM评分者;(2)为专有LLM评分者合成更清晰的标注指南。在多个数据集上,我们的方法显著提高了LLM与人类的一致性。此外,改进的标注指南提高了不同LLM模型之间的一致性。这些结果表明,LLM可以作为人类思维轨迹的实用代理,从而将仅标签的语料库扩展为思维轨迹增强的资源,从而提高LLM评分者的可靠性。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)作为评估者时,在主观任务中可靠性不足的问题。现有方法主要依赖于标注标签,忽略了人类判断中蕴含的复杂推理过程(即思维轨迹),导致LLM难以准确模拟人类的判断标准。缺乏对思维轨迹的有效利用是现有方法的痛点。
核心思路:论文的核心思路是通过人-LLM协作的方式,从已有的仅包含标签的标注数据中推断出隐藏的思维轨迹。具体而言,利用LLM生成可能的思维轨迹,并通过拒绝抽样方法筛选出与人类标注一致的轨迹,从而构建一个思维轨迹增强的数据集。这样,LLM就可以学习到更丰富的判断依据,从而提高其作为评估者的可靠性。
技术框架:整体框架包含两个主要阶段:1) 思维轨迹推断阶段:利用LLM生成候选的思维轨迹,并使用拒绝抽样方法,根据与人类标注的一致性进行筛选。2) 应用阶段:将推断出的思维轨迹应用于两个任务:a) 微调开源LLM评分器,使其更好地模拟人类判断;b) 合成更清晰的标注指南,指导专有LLM评分器进行评估。
关键创新:该论文的关键创新在于提出了一种从仅标签数据中推断思维轨迹的方法。与以往依赖人工标注思维轨迹的方法相比,该方法能够以更低的成本获取大量的思维轨迹数据。此外,将推断的思维轨迹应用于微调LLM评分器和生成标注指南,也为提高LLM评分器的可靠性提供了新的思路。
关键设计:拒绝抽样方法的具体实现:首先,使用一个LLM(例如GPT-3)根据给定的输入和标签生成多个候选的思维轨迹。然后,使用另一个LLM(或同一个LLM)判断每个候选轨迹是否能够合理地推导出给定的标签。只有那些能够合理推导出标签的轨迹才会被保留,否则会被拒绝。这个过程可以迭代多次,直到获得足够数量的思维轨迹。在微调LLM评分器时,可以使用标准的监督学习方法,例如交叉熵损失函数。在生成标注指南时,可以分析推断出的思维轨迹,提取出关键的判断规则和标准,并将其整理成易于理解的指南。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用推断的思维轨迹进行微调后,LLM评分器与人类判断的一致性显著提高。例如,在某些数据集上,LLM与人类的一致性提高了10%以上。此外,使用生成的标注指南后,不同LLM模型之间的一致性也得到了显著提升,表明该方法能够有效地提高LLM评分器的可靠性和一致性。
🎯 应用场景
该研究成果可广泛应用于需要主观评估的领域,例如内容审核、用户反馈分析、产品质量评估等。通过提升LLM评估者的可靠性,可以降低人工成本,提高评估效率,并为自动化决策提供更可靠的依据。未来,该方法可以扩展到其他类型的任务和数据,例如图像、音频等。
📄 摘要(原文)
Large language models (LLMs) are increasingly used as raters for evaluation tasks. However, their reliability is often limited for subjective tasks, when human judgments involve subtle reasoning beyond annotation labels. Thinking traces, the reasoning behind a judgment, are highly informative but challenging to collect and curate. We present a human-LLM collaborative framework to infer thinking traces from label-only annotations. The proposed framework uses a simple and effective rejection sampling method to reconstruct these traces at scale. These inferred thinking traces are applied to two complementary tasks: (1) fine-tuning open LLM raters; and (2) synthesizing clearer annotation guidelines for proprietary LLM raters. Across multiple datasets, our methods lead to significantly improved LLM-human agreement. Additionally, the refined annotation guidelines increase agreement among different LLM models. These results suggest that LLMs can serve as practical proxies for otherwise unrevealed human thinking traces, enabling label-only corpora to be extended into thinking-trace-augmented resources that enhance the reliability of LLM raters.