Evaluating LLMs Without Oracle Feedback: Agentic Annotation Evaluation Through Unsupervised Consistency Signals

作者: Cheng Chen, Haiyan Yin, Ivor Tsang

分类: cs.CL

发布日期: 2025-09-10

备注: 11 pages, 10 figures

期刊: Published ICLR 2025 Workshop on Scaling Self-Improving Foundation Models without Human Supervision

💡 一句话要点

提出基于一致性信号的Agentic标注评估方法，无需人工反馈评估LLM标注质量。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 无监督评估 数据标注 一致性学习 Agentic标注 用户偏好 模型选择

📋 核心要点

现有方法难以在缺乏人工反馈的动态环境中评估LLM标注质量。
提出Agentic标注范式，利用学生模型与LLM协作，通过一致性评估改进标注质量。
引入CAI比率作为无监督评估指标，实验表明其与LLM准确率呈强正相关。

📝 摘要（中文）

大型语言模型（LLM）与基于提示的任务相结合，显著降低了数据标注成本和对人工标注者的依赖。然而，在缺乏人工反馈的动态、无监督环境中，评估其标注质量仍然具有挑战性，传统方法也难以奏效。为了解决这个问题，我们提出了一种新颖的agentic标注范式，其中学生模型与噪声教师（LLM）协作，以评估和改进标注质量，而无需依赖人工反馈。学生模型充当无监督反馈机制，采用基于用户偏好的多数投票策略来评估LLM输出的一致性。为了系统地衡量LLM生成标注的可靠性，我们引入了一致和不一致（CAI）比率，这是一种新的无监督评估指标。CAI比率不仅量化了噪声教师在有限用户偏好下的标注质量，而且在模型选择中起着关键作用，能够在动态、无监督环境中识别出鲁棒的LLM。应用于跨四个LLM的十个开放域NLP数据集，CAI比率与LLM准确率呈强正相关，使其成为实际环境中无监督评估和模型选择的重要工具。

🔬 方法详解

问题定义：论文旨在解决在缺乏人工标注的情况下，如何有效评估大型语言模型（LLM）自动标注数据的质量问题。现有方法依赖人工反馈或预先标注好的数据集，但在实际应用中，获取高质量的人工标注成本高昂，且难以适应动态变化的任务需求。因此，如何无监督地评估LLM标注质量成为一个关键挑战。

核心思路：论文的核心思路是利用一个“学生模型”来评估“教师模型”（LLM）的标注质量。学生模型通过学习用户偏好，对教师模型的标注结果进行一致性检验。如果教师模型的标注结果与学生模型基于用户偏好的判断一致，则认为该标注是可靠的；反之，则认为不可靠。通过统计一致和不一致的比例，可以量化教师模型的标注质量。

技术框架：整体框架包含以下几个主要模块：1) LLM标注模块：使用LLM对未标注数据进行标注，生成初始标注结果。2) 学生模型训练模块：利用少量用户偏好数据（例如，用户对不同标注结果的排序）训练一个学生模型，使其能够模拟用户的判断标准。3) 一致性评估模块：学生模型对LLM的标注结果进行评估，判断其是否与用户偏好一致。4) CAI比率计算模块：计算一致标注和不一致标注的比例，得到CAI比率，作为LLM标注质量的评估指标。

关键创新：最重要的技术创新点在于提出了基于一致性信号的无监督评估方法。与传统方法不同，该方法不需要人工标注数据，而是通过学习用户偏好，利用学生模型来评估LLM的标注质量。这种方法能够有效地降低标注成本，并适应动态变化的任务需求。

关键设计：关键设计包括：1) 用户偏好建模：如何有效地利用少量用户偏好数据训练学生模型，使其能够准确地模拟用户的判断标准。2) 一致性评估策略：如何定义和计算标注结果的一致性，例如，可以使用多数投票或相似度计算等方法。3) CAI比率的计算方法：如何合理地定义一致和不一致的标注，并计算它们的比例，以准确地反映LLM的标注质量。

🖼️ 关键图片

📊 实验亮点

实验结果表明，提出的CAI比率与LLM的准确率之间存在显著的正相关关系。在十个开放域NLP数据集上，CAI比率能够有效地评估不同LLM的标注质量，并能够准确地识别出性能最佳的LLM。该方法在无监督评估和模型选择方面具有重要的应用价值。

🎯 应用场景

该研究成果可广泛应用于自然语言处理领域，尤其是在数据标注成本高昂或难以获取人工标注的场景下。例如，可以用于自动评估和选择最佳的LLM标注模型，提高数据质量，降低模型训练成本。此外，该方法还可以应用于主动学习、数据增强等领域，提升模型的泛化能力和鲁棒性。未来，该方法有望扩展到其他领域，如图像识别、语音识别等。

📄 摘要（原文）

Large Language Models (LLMs), when paired with prompt-based tasks, have significantly reduced data annotation costs and reliance on human annotators. However, evaluating the quality of their annotations remains challenging in dynamic, unsupervised environments where oracle feedback is scarce and conventional methods fail. To address this challenge, we propose a novel agentic annotation paradigm, where a student model collaborates with a noisy teacher (the LLM) to assess and refine annotation quality without relying on oracle feedback. The student model, acting as an unsupervised feedback mechanism, employs a user preference-based majority voting strategy to evaluate the consistency of the LLM outputs. To systematically measure the reliability of LLM-generated annotations, we introduce the Consistent and Inconsistent (CAI) Ratio, a novel unsupervised evaluation metric. The CAI Ratio not only quantifies the annotation quality of the noisy teacher under limited user preferences but also plays a critical role in model selection, enabling the identification of robust LLMs in dynamic, unsupervised environments. Applied to ten open-domain NLP datasets across four LLMs, the CAI Ratio demonstrates a strong positive correlation with LLM accuracy, establishing it as an essential tool for unsupervised evaluation and model selection in real-world settings.

Evaluating LLMs Without Oracle Feedback: Agentic Annotation Evaluation Through Unsupervised Consistency Signals

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理