Any Large Language Model Can Be a Reliable Judge: Debiasing with a Reasoning-based Bias Detector

作者: Haoyan Yang, Runxue Bao, Cao Xiao, Jun Ma, Parminder Bhatia, Shangqian Gao, Taha Kass-Hout

分类: cs.CL

发布日期: 2025-05-21 (更新: 2025-10-27)

备注: Accepted at NeurIPS 2025 (Camera-Ready Version)

💡 一句话要点

提出基于推理的偏差检测器RBD，提升大语言模型作为评判者的可靠性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 偏差检测 推理 自我修正 评估 可解释性 外部干预

📋 核心要点

现有大语言模型评判者存在偏差，上下文学习和微调方法各有局限，难以有效消除偏差。
提出推理偏差检测器RBD，通过外部模块检测偏差并提供推理指导，实现评估器的自我修正。
实验表明，RBD显著提升了评估准确率和一致性，优于现有基线方法，并具有良好的泛化能力。

📝 摘要（中文）

本文提出了一种基于推理的偏差检测器（RBD），旨在解决大语言模型（LLM）作为评判者时存在的偏差问题。现有方法，如上下文学习，无法有效解决深层偏差，而微调方法不适用于所有模型，特别是闭源模型。RBD作为一个插件模块，识别有偏差的评估，并生成结构化的推理来指导评估者的自我修正。RBD不修改评估器本身，而是通过偏差检测和反馈驱动的迭代修正过程进行外部干预。为了支持RBD的开发，本文设计了一个完整的流程，包括偏差数据集构建、监督数据收集、基于蒸馏推理的RBD微调以及与LLM评估器的集成。实验结果表明，RBD在四种偏差类型（冗余、位置、从众和情感）上，使用八个LLM评估器进行评估时，表现出强大的有效性。例如，RBD-8B模型将评估准确率平均提高了18.5%，一致性提高了10.9%，并且超过了基于提示的基线和微调后的评判者。

🔬 方法详解

问题定义：论文旨在解决大语言模型（LLM）作为评判者时存在的偏差问题。现有方法主要存在两个痛点：一是基于上下文学习的方法，由于LLM自身的容量限制，难以解决深层次的偏差；二是微调方法，虽然可以有效缓解偏差，但并不适用于所有LLM，特别是闭源模型，限制了其应用范围。

核心思路：论文的核心思路是设计一个外部的、可插拔的偏差检测模块，即Reasoning-based Bias Detector (RBD)。RBD不直接修改LLM评判者本身，而是通过检测LLM的评估过程，识别出潜在的偏差，并生成结构化的推理过程，引导LLM进行自我修正。这种方法的优势在于，它既可以应用于各种类型的LLM，包括闭源模型，又避免了直接修改LLM可能带来的副作用。

技术框架：整体框架包含以下几个主要模块：1) 偏差数据集构建：构建包含各种偏差类型的数据集，用于训练和评估RBD；2) 监督数据收集：收集LLM在评估过程中产生的推理过程，作为RBD的训练数据；3) RBD微调：使用蒸馏推理的方法，对RBD进行微调，使其能够准确识别偏差并生成有效的推理指导；4) 集成与迭代：将RBD与LLM评判者集成，通过迭代的偏差检测和反馈修正过程，不断提升LLM的评估能力。

关键创新：论文最重要的技术创新点在于提出了Reasoning-based Bias Detector (RBD) 这一概念，并将其实现为一个独立的、可插拔的模块。与现有方法相比，RBD不依赖于修改LLM本身，而是通过外部干预的方式，实现偏差的检测和修正。这种方法具有更强的通用性和灵活性，可以应用于各种类型的LLM，并且避免了直接修改LLM可能带来的风险。

关键设计：RBD模型的训练采用了蒸馏推理的方法，即首先让一个大型的LLM生成评估过程的推理链，然后使用这些推理链作为监督数据，对RBD进行微调。RBD模型的结构采用了标准的Transformer架构，并针对偏差检测任务进行了优化。论文中使用了不同规模的RBD模型（1.5B到14B），以研究模型规模对性能的影响。损失函数方面，使用了交叉熵损失函数，以优化RBD的偏差检测和推理生成能力。

🖼️ 关键图片

📊 实验亮点

实验结果表明，RBD在四种偏差类型（冗余、位置、从众和情感）上，使用八个LLM评估器进行评估时，表现出强大的有效性。例如，RBD-8B模型将评估准确率平均提高了18.5%，一致性提高了10.9%，并且超过了基于提示的基线和微调后的评判者，分别提升了12.8%和17.2%。这些结果表明RBD具有良好的性能和可扩展性。

🎯 应用场景

该研究成果可广泛应用于各种需要自动评估的场景，例如机器翻译、文本摘要、代码生成等。通过消除LLM评判者的偏差，可以提高自动评估的准确性和可靠性，从而提升相关任务的性能和用户体验。未来，该方法还可以扩展到其他类型的AI模型评估，例如图像生成、语音识别等。

📄 摘要（原文）

LLM-as-a-Judge has emerged as a promising tool for automatically evaluating generated outputs, but its reliability is often undermined by potential biases in judgment. Existing efforts to mitigate these biases face key limitations: in-context learning-based methods fail to address rooted biases due to the evaluator's limited capacity for self-reflection, whereas fine-tuning is not applicable to all evaluator types, especially closed-source models. To address this challenge, we introduce the Reasoning-based Bias Detector (RBD), which is a plug-in module that identifies biased evaluations and generates structured reasoning to guide evaluator self-correction. Rather than modifying the evaluator itself, RBD operates externally and engages in an iterative process of bias detection and feedback-driven revision. To support its development, we design a complete pipeline consisting of biased dataset construction, supervision collection, distilled reasoning-based fine-tuning of RBD, and integration with LLM evaluators. We fine-tune four sizes of RBD models, ranging from 1.5B to 14B, and observe consistent performance improvements across all scales. Experimental results on 4 bias types--verbosity, position, bandwagon, and sentiment--evaluated using 8 LLM evaluators demonstrate RBD's strong effectiveness. For example, the RBD-8B model improves evaluation accuracy by an average of 18.5% and consistency by 10.9%, and surpasses prompting-based baselines and fine-tuned judges by 12.8% and 17.2%, respectively. These results highlight RBD's effectiveness and scalability. Additional experiments further demonstrate its strong generalization across biases and domains, as well as its efficiency.

Any Large Language Model Can Be a Reliable Judge: Debiasing with a Reasoning-based Bias Detector

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理