GerAV: Towards New Heights in German Authorship Verification using Fine-Tuned LLMs on a New Benchmark

作者: Lotta Kiefer, Christoph Leiter, Sotaro Takeshita, Elena Schmidt, Steffen Eger

分类: cs.CL

发布日期: 2026-01-20

💡 一句话要点

提出GerAV：一个用于德语作者身份验证的新基准，并利用微调LLM达到新高度

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 作者身份验证 德语 大型语言模型 基准数据集 微调

📋 核心要点

现有作者身份验证研究主要集中在英语数据上，缺乏针对其他语言的大规模基准和系统评估。
论文构建了包含超过60万文本对的德语作者身份验证基准GerAV，并进行了细致的数据集划分。
通过微调大型语言模型，在GerAV基准上取得了显著的性能提升，超越了现有基线和GPT-5。

📝 摘要（中文）

作者身份验证（AV）旨在确定两段文本是否由同一作者撰写，并且已被广泛研究，主要针对英语数据。相比之下，其他语言的大规模基准和系统评估仍然稀缺。我们通过引入GerAV来解决这一差距，GerAV是一个全面的德语AV基准，包含超过60万个带标签的文本对。GerAV由Twitter和Reddit数据构建，其中Reddit部分进一步分为领域内和跨领域的基于消息的子集，以及基于配置文件的子集。这种设计能够对数据源、主题领域和文本长度的影响进行受控分析。使用提供的训练集，我们对强大的基线和最先进的模型进行了系统评估，发现我们最好的方法，即微调的大型语言模型，比最近的基线高出高达0.09的绝对F1分数，并且在零样本设置中超过GPT-5 0.08。我们进一步观察到专业化和泛化之间的权衡：在特定数据类型上训练的模型在匹配条件下表现最佳，但在跨数据机制中的泛化能力较差，这种限制可以通过组合训练源来缓解。总的来说，GerAV为推进德语和跨领域AV的研究提供了一个具有挑战性和多功能的基准。

🔬 方法详解

问题定义：论文旨在解决德语作者身份验证（AV）任务中缺乏大规模基准数据集的问题。现有方法主要集中在英语数据上，无法直接应用于德语，并且缺乏对不同数据源、领域和文本长度的系统性分析。

核心思路：论文的核心思路是构建一个包含多种数据源（Twitter和Reddit）和领域（领域内和跨领域）的德语AV基准数据集GerAV，并利用微调的大型语言模型（LLM）在该基准上进行训练和评估。通过这种方式，可以系统地研究不同因素对AV性能的影响，并找到适用于德语AV的最佳模型。

技术框架：整体框架包括以下几个主要步骤：1) 数据收集和预处理：从Twitter和Reddit收集德语文本数据，并进行清洗和标注。2) 数据集划分：将Reddit数据划分为领域内、跨领域和基于配置文件的子集。3) 模型选择和微调：选择合适的大型语言模型，并在GerAV数据集上进行微调。4) 实验评估：在GerAV数据集上评估微调模型的性能，并与现有基线进行比较。

关键创新：论文的关键创新在于构建了一个大规模、多样的德语作者身份验证基准数据集GerAV。该数据集包含多种数据源和领域，可以用于系统地研究不同因素对AV性能的影响。此外，论文还发现，微调的大型语言模型在GerAV基准上取得了显著的性能提升，超越了现有基线。

关键设计：论文的关键设计包括：1) 数据集划分策略：将Reddit数据划分为领域内、跨领域和基于配置文件的子集，以便研究领域对AV性能的影响。2) 模型微调策略：选择合适的大型语言模型，并使用GerAV数据集进行微调。具体的参数设置和损失函数等技术细节在论文中没有详细描述，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，微调的大型语言模型在GerAV基准上取得了显著的性能提升，比最近的基线高出高达0.09的绝对F1分数，并且在零样本设置中超过GPT-5 0.08。此外，研究还发现，在特定数据类型上训练的模型在匹配条件下表现最佳，但在跨数据机制中的泛化能力较差，可以通过组合训练源来缓解。

🎯 应用场景

该研究成果可应用于德语文本的作者身份识别、版权保护、网络安全等领域。例如，可以用于识别网络谣言的作者，追踪恶意信息的来源，以及验证在线内容的真实性。未来，该研究可以扩展到其他语言，并与其他自然语言处理技术相结合，以提高作者身份验证的准确性和可靠性。

📄 摘要（原文）

Authorship verification (AV) is the task of determining whether two texts were written by the same author and has been studied extensively, predominantly for English data. In contrast, large-scale benchmarks and systematic evaluations for other languages remain scarce. We address this gap by introducing GerAV, a comprehensive benchmark for German AV comprising over 600k labeled text pairs. GerAV is built from Twitter and Reddit data, with the Reddit part further divided into in-domain and cross-domain message-based subsets, as well as a profile-based subset. This design enables controlled analysis of the effects of data source, topical domain, and text length. Using the provided training splits, we conduct a systematic evaluation of strong baselines and state-of-the-art models and find that our best approach, a fine-tuned large language model, outperforms recent baselines by up to 0.09 absolute F1 score and surpasses GPT-5 in a zero-shot setting by 0.08. We further observe a trade-off between specialization and generalization: models trained on specific data types perform best under matching conditions but generalize less well across data regimes, a limitation that can be mitigated by combining training sources. Overall, GerAV provides a challenging and versatile benchmark for advancing research on German and cross-domain AV.

GerAV: Towards New Heights in German Authorship Verification using Fine-Tuned LLMs on a New Benchmark

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理