SteuerLLM: Local specialized large language model for German tax law analysis

📄 arXiv: 2602.11081v1 📥 PDF

作者: Sebastian Wind, Jeta Sopa, Laurin Schmid, Quirin Jackl, Sebastian Kiefer, Fei Wu, Martin Mayr, Harald Köstler, Gerhard Wellein, Andreas Maier, Soroosh Tayebi Arasteh

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-02-11


💡 一句话要点

提出SteuerLLM,一个针对德国税法分析的本地专业大语言模型。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 德国税法 大型语言模型 领域自适应 法律人工智能 合成数据生成

📋 核心要点

  1. 现有大型语言模型在法律等专业领域表现不佳,原因是这些领域需要精确的知识和推理。
  2. SteuerLLM通过领域自适应训练,利用从考试材料生成的合成数据,提升模型在德国税法领域的性能。
  3. 实验表明,SteuerLLM优于通用LLM,证明领域特定数据和架构调整比模型规模更重要。

📝 摘要(中文)

大型语言模型(LLMs)在通用推理和语言理解方面表现出强大的能力,但在受严格形式规则、精确术语和具有法律约束力的结构约束的领域中,其性能会下降。税法就是这些挑战的一个例子,因为正确的答案需要精确的法规引用、结构化的法律论证以及在严格评分方案下的数值准确性。我们算法式地生成了SteuerEx,这是第一个源自真实的德国大学税法考试的开放基准。SteuerEx包含115个经过专家验证的考试问题,涵盖六个核心税法领域和多个学术水平,并采用语句级的、部分学分的评估框架,该框架与真实的考试实践非常相似。我们进一步提出了SteuerLLM,这是一个针对德国税法的领域自适应LLM,它是在使用受控检索增强管道从真实的考试材料生成的大规模合成数据集上训练的。SteuerLLM(280亿参数)始终优于同等规模的通用指令调整模型,并且在某些情况下,大大优于更大的系统,这表明领域特定的数据和架构适应比参数规模对于现实的法律推理任务更具决定性。所有基准数据、训练数据集、模型权重和评估代码都已公开发布,以支持领域特定法律人工智能的可重复研究。SteuerLLM的基于Web的演示可在https://steuerllm.i5.ai.fau.de上找到。

🔬 方法详解

问题定义:现有的大型语言模型在处理需要精确知识和严格推理的专业领域(如德国税法)时,性能显著下降。这些领域对法规引用、法律论证和数值准确性有极高的要求,通用LLM难以满足。现有方法缺乏针对特定领域的训练数据和适应性架构,导致无法有效解决实际法律问题。

核心思路:SteuerLLM的核心思路是利用领域特定的数据和架构调整来提升LLM在德国税法领域的性能。通过生成大规模的合成训练数据,并在此基础上进行模型训练,使模型能够更好地理解和应用税法知识。同时,通过检索增强管道,确保生成的数据与真实考试材料高度相关。

技术框架:SteuerLLM的整体框架包括以下几个主要阶段:1) 使用算法从真实的德国大学税法考试中生成SteuerEx基准数据集;2) 利用受控检索增强管道,从考试材料中生成大规模的合成训练数据集;3) 在合成数据集上训练一个280亿参数的领域自适应LLM(SteuerLLM);4) 使用SteuerEx基准评估SteuerLLM的性能,并与其他通用LLM进行比较。

关键创新:SteuerLLM的关键创新在于其领域自适应训练方法和大规模合成数据的生成。通过使用真实的考试材料和受控的检索增强管道,生成了高质量的合成训练数据,从而使模型能够更好地学习和应用税法知识。此外,SteuerLLM证明了领域特定数据和架构调整比参数规模对于现实的法律推理任务更具决定性。

关键设计:SteuerLLM的关键设计包括:1) 使用语句级的、部分学分的评估框架,该框架与真实的考试实践非常相似;2) 使用受控检索增强管道生成合成数据,确保数据质量和相关性;3) 针对德国税法领域进行模型微调,优化模型性能;4) 公开发布所有基准数据、训练数据集、模型权重和评估代码,以支持可重复研究。

📊 实验亮点

SteuerLLM (28B) 在 SteuerEx 基准测试中,始终优于同等规模的通用指令调整模型,并在某些情况下,大大优于更大的系统。这表明,对于现实的法律推理任务,领域特定的数据和架构调整比参数规模更重要。该研究还开源了所有基准数据、训练数据集、模型权重和评估代码,促进了领域特定法律人工智能的可重复研究。

🎯 应用场景

SteuerLLM可应用于德国税法领域的自动化咨询、税务合规检查、税务风险评估等场景。它能够帮助税务专业人士更高效地处理复杂的税务问题,并为普通用户提供更便捷的税务信息服务。未来,该研究可推广到其他法律领域,提升法律服务的智能化水平。

📄 摘要(原文)

Large language models (LLMs) demonstrate strong general reasoning and language understanding, yet their performance degrades in domains governed by strict formal rules, precise terminology, and legally binding structure. Tax law exemplifies these challenges, as correct answers require exact statutory citation, structured legal argumentation, and numerical accuracy under rigid grading schemes. We algorithmically generate SteuerEx, the first open benchmark derived from authentic German university tax law examinations. SteuerEx comprises 115 expert-validated examination questions spanning six core tax law domains and multiple academic levels, and employs a statement-level, partial-credit evaluation framework that closely mirrors real examination practice. We further present SteuerLLM, a domain-adapted LLM for German tax law trained on a large-scale synthetic dataset generated from authentic examination material using a controlled retrieval-augmented pipeline. SteuerLLM (28B parameters) consistently outperforms general-purpose instruction-tuned models of comparable size and, in several cases, substantially larger systems, demonstrating that domain-specific data and architectural adaptation are more decisive than parameter scale for performance on realistic legal reasoning tasks. All benchmark data, training datasets, model weights, and evaluation code are released openly to support reproducible research in domain-specific legal artificial intelligence. A web-based demo of SteuerLLM is available at https://steuerllm.i5.ai.fau.de.