SwissGov-RSD: A Human-annotated, Cross-lingual Benchmark for Token-level Recognition of Semantic Differences Between Related Documents

作者: Michelle Wastl, Jannis Vamvas, Rico Sennrich

分类: cs.CL

发布日期: 2025-12-08

备注: 30 pages

💡 一句话要点

提出SwissGov-RSD跨语言基准数据集，用于识别相关文档间语义差异。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 跨语言语义差异识别 基准数据集 自然语言处理 机器翻译评估 多语言内容对齐

📋 核心要点

现有方法在识别跨语言文档间的细粒度语义差异方面存在不足，缺乏自然、文档级别的基准数据集。
论文构建了SwissGov-RSD数据集，包含多语言平行文档，并进行token级别的语义差异人工标注。
实验表明，现有大型语言模型和编码器模型在SwissGov-RSD上的表现远低于其在其他数据集上的表现。

📝 摘要（中文）

识别文档间的语义差异，尤其是在不同语言之间，对于文本生成评估和多语言内容对齐至关重要。然而，作为一个独立任务，它受到的关注较少。我们通过引入SwissGov-RSD来解决这个问题，这是第一个自然、文档级别、跨语言的语义差异识别数据集。它包含总共224个英语-德语、英语-法语和英语-意大利语的多并行文档，并由人工标注者进行token级别的差异标注。我们在这个新的基准上评估了各种开源和闭源的大型语言模型以及编码器模型在不同微调设置下的性能。结果表明，与它们在单语、句子级别和合成基准上的表现相比，当前自动方法的表现较差，揭示了LLM和编码器模型都存在相当大的差距。我们将公开我们的代码和数据集。

🔬 方法详解

问题定义：论文旨在解决跨语言文档间语义差异识别的问题。现有方法在处理自然、文档级别的跨语言语义差异时表现不佳，缺乏高质量的基准数据集来评估和提升模型性能。现有的数据集通常是单语的、句子级别的或者合成的，无法真实反映实际应用场景的复杂性。

核心思路：论文的核心思路是通过构建一个高质量的人工标注数据集SwissGov-RSD，为跨语言语义差异识别任务提供一个可靠的评估基准。该数据集包含多语言平行文档，并进行token级别的差异标注，从而能够更精确地评估模型在识别细粒度语义差异方面的能力。

技术框架：该研究主要围绕数据集的构建和模型的评估展开。数据集构建方面，收集了英语、德语、法语和意大利语的平行文档，并由人工标注者进行token级别的语义差异标注。模型评估方面，选择了多种开源和闭源的大型语言模型以及编码器模型，并在SwissGov-RSD数据集上进行微调和评估。评估指标包括精确率、召回率和F1值。

关键创新：该论文的关键创新在于构建了第一个自然、文档级别、跨语言的语义差异识别数据集SwissGov-RSD。与现有的数据集相比，SwissGov-RSD更贴近实际应用场景，能够更真实地反映模型在处理跨语言语义差异时的性能。此外，该论文还对多种主流模型在SwissGov-RSD数据集上的性能进行了评估，为未来的研究提供了参考。

关键设计：数据集构建的关键设计在于人工标注的质量控制。论文采用了多轮标注和审核机制，确保标注的准确性和一致性。模型评估的关键设计在于选择了多种具有代表性的模型，并在不同的微调设置下进行评估，从而能够更全面地了解模型在SwissGov-RSD数据集上的性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有的大型语言模型和编码器模型在SwissGov-RSD数据集上的表现远低于其在单语、句子级别和合成基准上的表现。这表明，当前的模型在处理自然、文档级别的跨语言语义差异时仍然存在很大的差距。例如，某些模型的F1值仅为0.3左右，远低于在其他数据集上的表现。

🎯 应用场景

该研究成果可应用于机器翻译评估、多语言内容对齐、跨语言信息检索等领域。通过识别不同语言文档间的语义差异，可以更准确地评估机器翻译的质量，提高多语言内容对齐的效率，并提升跨语言信息检索的准确性。未来，该数据集可以促进相关算法的开发和优化，推动跨语言自然语言处理技术的发展。

📄 摘要（原文）

Recognizing semantic differences across documents, especially in different languages, is crucial for text generation evaluation and multilingual content alignment. However, as a standalone task it has received little attention. We address this by introducing SwissGov-RSD, the first naturalistic, document-level, cross-lingual dataset for semantic difference recognition. It encompasses a total of 224 multi-parallel documents in English-German, English-French, and English-Italian with token-level difference annotations by human annotators. We evaluate a variety of open-source and closed source large language models as well as encoder models across different fine-tuning settings on this new benchmark. Our results show that current automatic approaches perform poorly compared to their performance on monolingual, sentence-level, and synthetic benchmarks, revealing a considerable gap for both LLMs and encoder models. We make our code and datasets publicly available.

SwissGov-RSD: A Human-annotated, Cross-lingual Benchmark for Token-level Recognition of Semantic Differences Between Related Documents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理