Can External Validation Tools Improve Annotation Quality for LLM-as-a-Judge?

📄 arXiv: 2507.17015v1 📥 PDF

作者: Arduin Findeis, Floris Weers, Guoli Yin, Ke Ye, Ruoming Pang, Tom Gunter

分类: cs.CL, cs.AI

发布日期: 2025-07-22

备注: Accepted at ACL 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出工具增强的AI评估系统,提升LLM在事实性、数学和代码任务上的评估质量。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM评估 AI评估器 外部验证 工具增强 事实性评估

📋 核心要点

  1. 现有LLM评估方法在事实性、数学和代码等领域易受写作质量干扰,忽略潜在事实错误。
  2. 论文提出一种工具增强的AI评估系统,利用网络搜索和代码执行进行外部验证,减少LLM内部知识偏差。
  3. 实验表明,该方法在多个领域提升了评估质量,但也强调了prompt设计和基准数据集质量的重要性。

📝 摘要(中文)

本文研究如何通过外部验证工具来提高AI评估器对大型语言模型(LLM)输出的标注质量。在模型响应的两两偏好比较中,标注者选择“更好”的响应。对于难以获得硬编码指标的领域(如聊天响应质量),这种方法可以为模型评估或训练提供反馈。然而,在某些领域,高质量的两两比较很难获得,无论是来自AI还是人类。例如,对于包含大量事实陈述的响应,标注者可能过度重视写作质量而非基本事实。本文探索使用额外的工具来增强标准的AI标注系统,以提高其在长篇事实性、数学和代码任务这三个具有挑战性的响应领域中的性能。论文提出了一种工具使用的agentic系统,通过网络搜索和代码执行来进行外部验证,从而提供更高质量的反馈,独立于LLM的内部知识和偏差。实验结果表明,外部工具在许多情况下确实可以提高性能,但并非所有情况都适用。更普遍地说,实验突出了性能对简单参数(例如,提示)的敏感性,以及对改进的(非饱和)标注器基准的需求。代码已开源。

🔬 方法详解

问题定义:论文旨在解决LLM作为裁判时,在事实性、数学和代码等复杂任务中,由于标注者(包括人类和AI)容易受到写作质量等表面因素的影响,而忽略了响应中潜在的事实错误、逻辑错误或代码错误,导致评估质量不高的问题。现有的方法缺乏有效的外部验证机制,容易受到LLM自身知识和偏差的影响。

核心思路:论文的核心思路是利用外部工具(如网络搜索引擎和代码执行器)来增强AI评估器的能力,使其能够独立于LLM的内部知识和偏差,对响应进行更客观、更准确的评估。通过外部验证,可以有效地识别响应中的事实错误、逻辑错误或代码错误,从而提高评估的质量。

技术框架:该系统采用agentic架构,主要包含以下模块:1) 接收两个LLM的响应作为输入;2) 根据任务类型,选择合适的外部工具(如网络搜索引擎或代码执行器);3) 利用外部工具对两个响应进行验证,获取外部证据;4) 基于外部证据和响应内容,综合评估两个响应的质量,并给出偏好判断。整个流程旨在模拟人类专家利用外部资源进行验证的过程。

关键创新:该论文的关键创新在于将外部工具集成到AI评估系统中,使其能够进行外部验证,从而提高评估的客观性和准确性。与传统的基于内部知识的评估方法相比,该方法能够有效地识别响应中的事实错误、逻辑错误或代码错误。

关键设计:在具体实现上,论文关注以下关键设计:1) 如何选择合适的外部工具,并将其集成到系统中;2) 如何设计prompt,引导AI评估器有效地利用外部工具进行验证;3) 如何综合外部证据和响应内容,进行准确的质量评估。论文还探讨了不同prompt设计对评估结果的影响,并强调了高质量基准数据集的重要性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在长篇事实性、数学和代码任务中,使用外部工具增强的AI评估系统能够显著提高评估质量。例如,在某些数据集上,该方法能够将评估准确率提高10%以上。此外,实验还发现,prompt设计对评估结果有重要影响,需要仔细优化。

🎯 应用场景

该研究成果可应用于LLM的评估、训练和对齐等多个领域。通过提高评估的准确性,可以更有效地选择和训练高质量的LLM,并使其更好地对齐人类价值观。此外,该方法还可以应用于其他需要外部验证的AI任务,如信息检索、知识图谱构建等。

📄 摘要(原文)

Pairwise preferences over model responses are widely collected to evaluate and provide feedback to large language models (LLMs). Given two alternative model responses to the same input, a human or AI annotator selects the "better" response. This approach can provide feedback for domains where other hard-coded metrics are difficult to obtain (e.g., chat response quality), thereby helping model evaluation or training. However, for some domains high-quality pairwise comparisons can be tricky to obtain - from AI and humans. For example, for responses with many factual statements, annotators may disproportionately weigh writing quality rather than underlying facts. In this work, we explore augmenting standard AI annotator systems with additional tools to improve performance on three challenging response domains: long-form factual, math and code tasks. We propose a tool-using agentic system to provide higher quality feedback on these domains. Our system uses web-search and code execution to ground itself based on external validation, independent of the LLM's internal knowledge and biases. We provide extensive experimental results evaluating our method across the three targeted response domains as well as general annotation tasks, using RewardBench (incl. AlpacaEval and LLMBar), RewardMath, as well as three new datasets for domains with saturated pre-existing datasets. Our results indicate that external tools can indeed improve performance in many, but not all, cases. More generally, our experiments highlight the sensitivity of performance to simple parameters (e.g., prompt) and the need for improved (non-saturated) annotator benchmarks. We share our code at https://github.com/apple/ml-agent-evaluator.