JuniperLiu at CoMeDi Shared Task: Models as Annotators in Lexical Semantics Disagreements
作者: Zhu Liu, Zhen Hu, Ying Liu
分类: cs.CL
发布日期: 2024-11-19 (更新: 2024-12-30)
备注: accepted by CoMeDi workshop in Coling 2025
🔗 代码/项目: GITHUB
💡 一句话要点
提出基于模型集成和异方性消除的词汇语义分歧预测方法
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 词汇语义 标注者分歧 模型集成 预训练语言模型 各向异性消除
📋 核心要点
- 现有方法难以有效捕捉词汇语义标注中的细微分歧,尤其是在标注者意见不一致的情况下。
- 将多个预训练语言模型视为虚拟标注者,通过集成其连续相关性得分和离散分类标签来模拟标注过程。
- 实验表明,该方法在预测标注者分歧方面表现出色,尤其是在利用连续相关性得分的标准差时。
📝 摘要(中文)
本文介绍了我们在CoMeDi共享任务中的系统结果,该任务旨在预测多数投票(子任务1)和标注者分歧(子任务2)。我们的方法结合了模型集成策略与基于MLP和阈值的方法,这些方法在预训练语言模型上进行训练。我们将各个模型视为虚拟标注者,通过设计聚合度量来模拟标注过程,这些度量结合了连续相关性得分和离散分类标签,以捕捉多数意见和分歧。此外,我们采用各向异性消除技术来提高性能。实验结果表明了我们方法的有效性,尤其是在子任务2中。值得注意的是,我们发现不同模型操作之间连续相关性得分的标准差与人类分歧标注相关,而聚合离散标签的指标则不然。代码将在https://github.com/RyanLiut/CoMeDi_Solution上发布。
🔬 方法详解
问题定义:该论文旨在解决CoMeDi共享任务中的两个子任务:预测多数投票(Subtask 1)和预测标注者之间的分歧(Subtask 2)。现有方法在处理标注者意见不一致的情况时,难以有效捕捉词汇语义的细微差别,尤其是在分歧预测方面表现不佳。
核心思路:论文的核心思路是将多个预训练语言模型视为虚拟标注者,通过模拟人工标注的过程来预测多数投票和标注者分歧。通过集成不同模型的输出,可以更全面地捕捉词汇语义的复杂性,从而提高预测的准确性。此外,利用连续相关性得分的标准差来反映模型间的不确定性,进而预测人类标注者的分歧。
技术框架:整体框架包括以下几个主要阶段:1) 使用预训练语言模型(如BERT、RoBERTa等)提取词汇语义的特征表示。2) 利用MLP(多层感知机)或基于阈值的方法,将特征表示映射到连续相关性得分和离散分类标签。3) 设计聚合度量,将不同模型的输出进行集成,以获得最终的预测结果。4) 应用各向异性消除技术,进一步提高模型的性能。
关键创新:该论文的关键创新在于将模型视为虚拟标注者,并利用模型输出的连续相关性得分的标准差来预测人类标注者的分歧。与传统的基于离散标签的聚合方法相比,这种方法能够更好地捕捉模型间的不确定性,从而更准确地预测标注者分歧。此外,各向异性消除技术的应用也进一步提高了模型的性能。
关键设计:在模型集成方面,论文设计了多种聚合度量,包括基于连续相关性得分的平均值、标准差等,以及基于离散分类标签的多数投票等。在损失函数方面,可以使用交叉熵损失函数来训练分类模型,并使用均方误差损失函数来训练回归模型。在网络结构方面,MLP的层数和神经元数量可以根据具体任务进行调整。各向异性消除技术的具体实现方式未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在CoMeDi共享任务的子任务2(标注者分歧预测)中表现出色。尤其值得注意的是,不同模型操作之间连续相关性得分的标准差与人类分歧标注高度相关,优于基于聚合离散标签的指标。具体的性能提升幅度未知。
🎯 应用场景
该研究成果可应用于自然语言处理的多个领域,例如情感分析、文本蕴含识别、语义相似度计算等。通过更准确地预测标注者分歧,可以提高模型的鲁棒性和泛化能力,从而更好地处理真实世界中的复杂语言现象。此外,该方法还可以用于评估不同模型的性能,并选择最适合特定任务的模型。
📄 摘要(原文)
We present the results of our system for the CoMeDi Shared Task, which predicts majority votes (Subtask 1) and annotator disagreements (Subtask 2). Our approach combines model ensemble strategies with MLP-based and threshold-based methods trained on pretrained language models. Treating individual models as virtual annotators, we simulate the annotation process by designing aggregation measures that incorporate continuous relatedness scores and discrete classification labels to capture both majority and disagreement. Additionally, we employ anisotropy removal techniques to enhance performance. Experimental results demonstrate the effectiveness of our methods, particularly for Subtask 2. Notably, we find that standard deviation on continuous relatedness scores among different model manipulations correlates with human disagreement annotations compared to metrics on aggregated discrete labels. The code will be published at https://github.com/RyanLiut/CoMeDi_Solution.