WhoSaidIt: Human-LLM Collaborative Annotation for Text-Based Multilingual Speaker-Attribute Classification
作者: Lingyu Gao, Will Monroe, David Smith, Meghan Jemison, Jackie Lee
分类: cs.CL
发布日期: 2026-05-25
备注: 16 pages in total
💡 一句话要点
提出基于人-LLM协作的文本多语种说话人属性分类标注框架WhoSaidIt
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 说话人属性分类 多语种标注 人机协作 大型语言模型 数据集构建
📋 核心要点
- 多语种环境下,说话人属性标注因文化差异和隐含线索而存在固有模糊性,现有方法难以有效处理。
- 论文提出人-LLM协作的标注框架,通过LLM挖掘标注理由并结合专家知识,稳定多语种说话人属性标签。
- 构建了多语种数据集WhoSaidIt,实验结果揭示了跨语言标注差异,并评估了LLM在说话人属性分类中的表现。
📝 摘要(中文)
从文本中标注说话人属性本质上是模糊的,尤其是在多语种环境中,人口统计和社会线索是隐含的且具有文化差异。我们提出了一种人-大型语言模型(LLM)协作的重新标注框架,用于在实际资源约束下稳定多语种说话人属性标签。从一个噪声语料库开始,我们使用LLM通过与专家的迭代交互来揭示重复出现的标注理由,并应用以分歧为中心的抽样进行有针对性的重新标注。使用此框架,我们构建了WhoSaidIt,一个涵盖九个说话人属性标签的多语种数据集。我们量化了原始标注和修订标注之间的差异,对最近的LLM进行了基准测试,并分析了显式理由对模型行为的影响。我们的结果揭示了标注决策中显著的跨语言差异,并展示了LLM在说话人属性分类中的优势和局限性。
🔬 方法详解
问题定义:论文旨在解决多语种文本中说话人属性标注的模糊性和不一致性问题。现有的标注方法在处理跨文化、隐含信息时表现不足,导致标注质量不高,且难以泛化到不同语言。此外,标注成本高昂,尤其是在需要专家知识的情况下。
核心思路:论文的核心思路是利用大型语言模型(LLM)的推理能力,辅助人工标注,从而提高标注质量和效率。通过LLM生成标注理由,并让人工专家进行审核和修正,从而形成更稳定、更可靠的标注结果。这种人-机协作的方式可以充分利用LLM的知识和推理能力,同时避免LLM的幻觉和偏见。
技术框架:该框架包含以下几个主要阶段:1) 初始标注:使用现有的噪声语料库作为起点。2) LLM理由生成:使用LLM为每个标注生成理由,解释为什么该文本应该被赋予特定的说话人属性。3) 人工审核与修正:人工专家审核LLM生成的理由,并对标注进行修正。4) 分歧聚焦抽样:针对标注分歧较大的样本进行重点抽样,进行进一步的标注和审核。5) 数据集构建:将最终的标注结果构建成多语种数据集WhoSaidIt。
关键创新:该论文的关键创新在于提出了一种人-LLM协作的标注框架,该框架能够有效地利用LLM的推理能力,辅助人工标注,从而提高标注质量和效率。此外,该论文还提出了一种分歧聚焦抽样方法,该方法能够有效地识别标注不一致的样本,并进行重点标注。
关键设计:在LLM理由生成阶段,使用了prompt engineering技术,设计了合适的prompt,引导LLM生成高质量的理由。在人工审核阶段,设计了清晰的标注指南,帮助人工专家进行标注。在分歧聚焦抽样阶段,使用了多种分歧度量指标,例如标注一致性、理由一致性等,从而有效地识别标注不一致的样本。具体的参数设置和损失函数等技术细节在论文中未详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
论文构建了包含九个说话人属性标签的多语种数据集WhoSaidIt。实验结果表明,原始标注和修订标注之间存在显著差异,揭示了跨语言标注决策的复杂性。同时,论文对现有LLM在说话人属性分类任务上进行了基准测试,并分析了显式理由对模型行为的影响,为后续研究提供了重要参考。
🎯 应用场景
该研究成果可应用于多个领域,如自然语言理解、对话系统、情感分析、社会偏见检测等。高质量的多语种说话人属性标注数据有助于提升相关任务的性能,并促进跨文化交流和理解。未来,该方法可推广到其他类型的文本标注任务,并应用于更广泛的语言和文化背景。
📄 摘要(原文)
Annotating speaker attributes from text is inherently ambiguous, particularly in multilingual settings where demographic and social cues are implicit and culturally variable. We propose a human-large language model (LLM) collaborative re-annotation framework for stabilizing multilingual speaker-attribute labels under practical resource constraints. Starting from a noisy corpus, we use LLMs to surface recurring annotation rationales through iterative interaction with experts, and apply disagreement-focused sampling for targeted re-annotation. Using this framework, we construct WhoSaidIt, a multilingual dataset covering nine speaker-attribute labels. We quantify divergence between original and revised annotations, benchmark recent LLMs, and analyze the effect of explicit rationales on model behavior. Our results reveal substantial cross-lingual differences in annotation decisions and demonstrate both the strengths and limitations of LLMs in speaker-attribute classification.