Annotating Training Data for Conditional Semantic Textual Similarity Measurement using Large Language Models

作者: Gaifan Zhang, Yi Zhou, Danushka Bollegala

分类: cs.CL

发布日期: 2025-09-17

备注: Accepted to EMNLP 2025

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

利用大型语言模型重标注条件语义文本相似度训练数据

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 条件语义文本相似度 大型语言模型 数据重标注 自然语言处理 语义理解

📋 核心要点

现有的条件语义文本相似度(C-STS)数据集存在标注质量问题，限制了C-STS模型性能的提升。
利用大型语言模型(LLM)自动纠正C-STS数据集中条件语句和相似度评分，降低人工成本。
通过在重标注数据集上训练C-STS模型，Spearman相关性显著提升5.4%，验证了方法的有效性。

📝 摘要（中文）

语义文本相似度取决于句子间考虑的方面。为了研究这一现象，Deshpande等人(2023)提出了条件语义文本相似度(C-STS)任务，并标注了一个人工评估的相似度数据集，其中包含在两种不同条件下比较的句子对。然而，Tu等人(2024)发现该数据集中存在各种标注问题，并表明手动重新标注一小部分数据可以得到更准确的C-STS模型。尽管有这些开创性的努力，但缺乏大型且准确标注的C-STS数据集仍然是该任务取得进展的阻碍，C-STS模型的表现不佳就证明了这一点。为了满足这种训练数据的需求，我们借助大型语言模型(LLM)来纠正Deshpande等人(2023)提出的原始数据集中的条件语句和相似度评分。我们提出的方法能够以最小的人工干预重新标注C-STS任务的大型训练数据集。重要的是，通过在我们清理和重新标注的数据集上训练有监督的C-STS模型，我们在Spearman相关性方面取得了5.4%的统计显著提升。重新标注的数据集可在https://LivNLP.github.io/CSTS-reannotation上获取。

🔬 方法详解

问题定义：论文旨在解决条件语义文本相似度(C-STS)任务中，现有数据集标注质量不高的问题。现有C-STS数据集存在标注错误，导致训练出的模型性能受限，难以准确衡量在特定条件下两个句子的语义相似度。人工重新标注成本高昂，难以扩展到大规模数据集。

核心思路：论文的核心思路是利用大型语言模型(LLM)的强大语义理解和生成能力，自动对C-STS数据集进行清洗和重新标注。LLM可以识别并纠正原始数据集中的错误条件语句和不准确的相似度评分，从而生成更高质量的训练数据。

技术框架：该方法主要包含以下几个阶段：1) 使用LLM评估原始数据集中条件语句的合理性，并进行修正。2) 使用LLM根据修正后的条件语句，重新评估句子对的相似度，并给出新的相似度评分。3) 将LLM生成的修正后的条件语句和相似度评分，替换原始数据集中的对应内容，得到重标注后的C-STS数据集。4) 在重标注后的数据集上训练C-STS模型。

关键创新：该方法最重要的创新点在于利用LLM自动进行数据清洗和重标注，显著降低了人工成本，并提高了C-STS数据集的质量。与传统的人工标注相比，LLM具有更高的效率和一致性。

关键设计：论文中没有详细描述LLM的具体选择和prompt设计。但可以推测，prompt的设计对于LLM生成高质量的条件语句和相似度评分至关重要。此外，如何评估LLM生成结果的质量，并进行必要的过滤或修正，也是一个关键的设计考虑。

🖼️ 关键图片

📊 实验亮点

通过在重标注的C-STS数据集上训练C-STS模型，Spearman相关性指标相较于在原始数据集上训练的模型，取得了5.4%的统计显著提升。这一结果表明，利用LLM进行数据清洗和重标注能够有效提高C-STS数据集的质量，并显著提升C-STS模型的性能。

🎯 应用场景

该研究成果可应用于各种需要衡量条件语义相似度的场景，例如信息检索、问答系统、对话生成等。通过更准确地理解句子在特定条件下的语义关系，可以提升相关应用的性能和用户体验。未来，该方法可以推广到其他需要数据标注的任务中，降低标注成本，提高数据质量。

📄 摘要（原文）

Semantic similarity between two sentences depends on the aspects considered between those sentences. To study this phenomenon, Deshpande et al. (2023) proposed the Conditional Semantic Textual Similarity (C-STS) task and annotated a human-rated similarity dataset containing pairs of sentences compared under two different conditions. However, Tu et al. (2024) found various annotation issues in this dataset and showed that manually re-annotating a small portion of it leads to more accurate C-STS models. Despite these pioneering efforts, the lack of large and accurately annotated C-STS datasets remains a blocker for making progress on this task as evidenced by the subpar performance of the C-STS models. To address this training data need, we resort to Large Language Models (LLMs) to correct the condition statements and similarity ratings in the original dataset proposed by Deshpande et al. (2023). Our proposed method is able to re-annotate a large training dataset for the C-STS task with minimal manual effort. Importantly, by training a supervised C-STS model on our cleaned and re-annotated dataset, we achieve a 5.4% statistically significant improvement in Spearman correlation. The re-annotated dataset is available at https://LivNLP.github.io/CSTS-reannotation.

Annotating Training Data for Conditional Semantic Textual Similarity Measurement using Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理