Revisiting Active Learning under (Human) Label Variation

📄 arXiv: 2507.02593v1 📥 PDF

作者: Cornelia Gruber, Helen Alber, Bernd Bischl, Göran Kauermann, Barbara Plank, Matthias Aßenmacher

分类: cs.CL, cs.HC, cs.LG, stat.ML

发布日期: 2025-07-03


💡 一句话要点

提出一种考虑人类标注差异的主动学习框架,提升真实场景下的标注效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 主动学习 人类标注差异 标签变异 自然语言处理 数据标注 信息信号 标注者选择

📋 核心要点

  1. 现有主动学习方法忽略了人类标注差异(HLV),假设存在单一正确标签,导致在真实场景下性能受限。
  2. 论文提出一个概念框架,将HLV整合到主动学习循环中,包括实例选择、标注者选择和标签表示等环节。
  3. 该研究旨在为HLV感知的主动学习奠定基础,从而更有效地利用有限的标注资源,提升模型性能。

📝 摘要(中文)

高质量标注数据是监督学习应用中的限制因素。标注差异(LV)普遍存在,尤其是在自然语言处理中,但现有标注框架通常假设存在单一正确答案,忽略了人类标注差异(HLV)这一信息信号。类似地,主动学习(AL)旨在优化有限标注预算,但其简化假设在考虑HLV时往往不成立。本文探讨了关于真值和标注本质的基本假设,强调需将观测到的LV分解为信号(如HLV)和噪声(如标注错误)。我们调研了AL和(H)LV领域如何处理这些区别,并提出了一个概念框架,用于在AL循环中整合HLV,包括实例选择、标注者选择和标签表示。我们还讨论了将大型语言模型(LLM)作为标注者的整合。我们的工作旨在为HLV感知的主动学习奠定概念基础,更好地反映真实标注的复杂性。

🔬 方法详解

问题定义:论文旨在解决主动学习在存在人类标注差异(HLV)情况下的性能瓶颈。现有主动学习方法通常假设每个实例存在单一的“正确”标签,忽略了不同标注者可能给出不同但都合理的标签这一现实。这种假设导致主动学习算法选择的实例可能并非最具信息量,从而降低了标注效率和模型性能。现有方法未能有效区分HLV中的信号(有意义的差异)和噪声(标注错误)。

核心思路:论文的核心思路是将人类标注差异(HLV)视为一种信息信号,而非简单的噪声。通过对观测到的标注差异进行分解,区分出HLV中的信号和噪声,并将其整合到主动学习的各个环节中,从而更有效地利用标注资源。这种方法旨在选择更具代表性和信息量的实例进行标注,并更好地利用不同标注者的知识。

技术框架:论文提出了一个概念框架,用于在主动学习循环中整合HLV。该框架包含以下主要模块:1) 实例选择:选择能够反映HLV的实例,例如选择标注差异较大的实例。2) 标注者选择:根据标注者的专业知识和偏好,选择合适的标注者进行标注。3) 标签表示:采用能够表达HLV的标签表示方法,例如使用概率分布或多标签表示。4) 模型训练:设计能够处理HLV的模型训练方法,例如使用鲁棒的损失函数或集成学习方法。

关键创新:论文的关键创新在于提出了一个将人类标注差异视为信息信号的主动学习框架。与现有方法将HLV视为噪声不同,该框架旨在利用HLV来提高标注效率和模型性能。此外,该框架还考虑了标注者选择和标签表示等因素,从而更全面地解决了HLV带来的挑战。

关键设计:论文提出了一个概念框架,并未涉及具体的算法实现细节。未来的研究可以根据该框架,设计具体的实例选择策略、标注者选择策略、标签表示方法和模型训练方法。例如,可以使用基于不确定性的方法来选择标注差异较大的实例,可以使用基于专家知识的方法来选择合适的标注者,可以使用概率分布来表示标签,可以使用鲁棒的损失函数来训练模型。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

由于是概念框架论文,没有具体的实验结果。但论文强调了现有主动学习方法在处理人类标注差异方面的不足,并提出了一个有前景的解决方案框架。未来的研究可以基于该框架进行实验验证,并与其他主动学习方法进行比较,以评估其性能提升。

🎯 应用场景

该研究成果可应用于自然语言处理、计算机视觉等领域,尤其是在标注成本高昂或存在主观性的任务中,如情感分析、文本摘要、图像描述等。通过更有效地利用有限的标注资源,可以降低模型训练成本,提高模型性能,并更好地适应真实世界的复杂标注环境。未来,该研究可以促进人机协作标注系统的发展,提高标注质量和效率。

📄 摘要(原文)

Access to high-quality labeled data remains a limiting factor in applied supervised learning. While label variation (LV), i.e., differing labels for the same instance, is common, especially in natural language processing, annotation frameworks often still rest on the assumption of a single ground truth. This overlooks human label variation (HLV), the occurrence of plausible differences in annotations, as an informative signal. Similarly, active learning (AL), a popular approach to optimizing the use of limited annotation budgets in training ML models, often relies on at least one of several simplifying assumptions, which rarely hold in practice when acknowledging HLV. In this paper, we examine foundational assumptions about truth and label nature, highlighting the need to decompose observed LV into signal (e.g., HLV) and noise (e.g., annotation error). We survey how the AL and (H)LV communities have addressed -- or neglected -- these distinctions and propose a conceptual framework for incorporating HLV throughout the AL loop, including instance selection, annotator choice, and label representation. We further discuss the integration of large language models (LLM) as annotators. Our work aims to lay a conceptual foundation for HLV-aware active learning, better reflecting the complexities of real-world annotation.