Human Label Variation as Stable Signal: Learning Annotator-Specific Explanation Behavior via Cross-Annotator Preference Optimization

📄 arXiv: 2605.28802v1 📥 PDF

作者: Beiduo Chen, Pingjun Hong, Ziyun Zhang, Benjamin Roth, Anna Korhonen, Barbara Plank

分类: cs.CL

发布日期: 2026-05-27

备注: 43 pages, 20 figures


💡 一句话要点

提出跨标注者偏好优化CAPO,学习并复现标注者特定解释行为

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人类标签变异 标注者偏好 解释生成 跨标注者偏好优化 自然语言推理

📋 核心要点

  1. 现有方法难以有效利用标注者差异信息,忽略了标注背后蕴含的丰富推理和偏好。
  2. 提出跨标注者偏好优化(CAPO),通过对比目标标注者与其他标注者的响应,学习标注者特定行为。
  3. 实验表明CAPO在模仿标注者行为和保留推理模式方面优于提示和监督微调,提升了模型性能。

📝 摘要(中文)

本文研究大型语言模型(LLMs)是否能够学习和复现标注者特定的标签-解释行为,这种行为通过自由文本解释扩展了人类标签变异(HLV),揭示了标注者决策背后的推理和偏好。研究使用了两个句子对任务(自然语言推理和释义判断),每个任务有四个标注者。首先分析了标注者是否表现出稳定的个体模式,发现由于强烈的输入内容影响,这种模式在单次标注层面较弱,但在输入内容减少和标注者层面聚合后变得可检测。然后,比较了提示和监督微调(SFT)基线,并提出了跨标注者偏好优化(CAPO),该方法将目标标注者的响应与其他有效但目标特异性较低的相同输入标注进行对比。实验表明,提示效果有限且不稳定,SFT更好地捕捉了标注者特定的行为,而CAPO进一步改进了聚合感知模仿和基于判断的归因,同时在人工验证下保留了目标特定的推理模式。总体而言,结果表明HLV可以被学习为标注者特定的标签-解释行为,这为基于解释的可扩展标注提供了一条途径,该途径基于标注者历史而非仅基于标签。

🔬 方法详解

问题定义:现有方法在处理自然语言理解任务时,通常只关注最终的标签结果,而忽略了不同标注者在给出相同标签时可能存在的不同推理过程和偏好。这种人类标注变异性(HLV)蕴含着丰富的信息,如果能够有效利用,可以提升模型的理解能力和泛化性。现有方法难以捕捉和复现这种标注者特定的行为模式,尤其是在解释生成任务中。

核心思路:本文的核心思路是将学习标注者特定行为视为一个偏好学习问题。通过对比目标标注者的解释与其他标注者的解释,模型可以学习到目标标注者的独特偏好和推理模式。这种对比学习的方式能够有效区分不同标注者之间的细微差异,从而更好地复现其行为。

技术框架:整体框架包括数据预处理、模型训练和评估三个阶段。数据预处理阶段主要进行输入内容缩减和标注者层面聚合,以增强标注者特定模式的可检测性。模型训练阶段,首先使用提示或监督微调作为基线,然后引入跨标注者偏好优化(CAPO)方法。评估阶段,通过自动化指标和人工评估来衡量模型复现标注者行为的能力。

关键创新:本文最重要的技术创新点是提出了跨标注者偏好优化(CAPO)方法。与传统的监督学习方法不同,CAPO不是直接预测目标标注者的解释,而是通过对比学习的方式,让模型学习目标标注者的偏好。这种方法能够有效区分不同标注者之间的细微差异,从而更好地复现其行为。CAPO与现有方法的本质区别在于,它关注的是标注者之间的相对偏好,而不是绝对的标签或解释。

关键设计:CAPO的关键设计在于损失函数的设计。损失函数的目标是让模型生成的解释更接近目标标注者的解释,同时远离其他标注者的解释。具体来说,可以使用hinge loss或margin ranking loss来实现这种对比学习的目标。此外,还可以引入正则化项,以防止模型过度拟合目标标注者的特定模式。在实验中,作者使用了基于Transformer的语言模型作为基础模型,并对模型进行了微调。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,跨标注者偏好优化(CAPO)方法在自然语言推理和释义判断任务上,能够显著提升模型复现标注者特定行为的能力。相比于提示和监督微调基线,CAPO在聚合感知模仿和基于判断的归因方面均取得了更好的效果,并且在人工验证下,CAPO能够更好地保留目标特定的推理模式。

🎯 应用场景

该研究成果可应用于构建更鲁棒、可信赖的自然语言处理系统。例如,在医疗诊断、法律咨询等领域,可以利用标注者历史数据,生成更符合特定专家偏好的解释,提高决策的准确性和透明度。此外,该方法还可以用于自动化标注,降低人工成本,并提高标注质量。

📄 摘要(原文)

Free-text explanations extend human label variation (HLV) beyond label disagreement by revealing the reasoning and preferences behind annotators' decisions. We study whether large language models (LLMs) can learn and reproduce such annotator-specific label-explanation behavior. Using two sentence-pair tasks with four annotators each -- natural language inference and paraphrase judgment -- we first analyze whether annotators exhibit stable individual patterns. We find that such patterns are weak at the single-annotation level due to strong input-content effects, but become detectable after input-content reduction and annotator-level aggregation. We then compare prompting and supervised fine-tuning (SFT) baselines and propose cross-annotator preference optimization (CAPO), which contrasts a target annotator's response with other valid but less target-specific annotations for the same input. Experiments show that prompting is limited and unstable, SFT better captures annotator-specific behavior, and CAPO further improves aggregation-aware imitation and judge-based attribution while preserving target-specific reasoning patterns under human validation. Overall, our results show that HLV can be learned as annotator-specific label-explanation behavior, suggesting a path toward scalable explanation-based annotation grounded in annotator histories rather than labels alone.