TaxPraBen: A Scalable Benchmark for Structured Evaluation of LLMs in Chinese Real-World Tax Practice

作者: Gang Hu, Yating Chen, Haiyan Ding, Wang Gao, Jiajia Huang, Min Peng, Qianqian Xie, Kun Yu

分类: cs.CL

发布日期: 2026-04-10

期刊: ACL 2026 Main Conference

💡 一句话要点

TaxPraBen：构建中文税务实践LLM结构化评估基准

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 税务实践 结构化评估 中文基准 税务风险防范

📋 核心要点

现有税务基准侧重于孤立的NLP任务，缺乏对LLM在真实税务实践中应用能力的全面评估。
TaxPraBen通过结构化评估范式，结合传统任务和真实场景，实现端到端的税务实践评估。
实验结果表明，闭源大参数LLM表现最佳，中文LLM优于多语言LLM，微调效果有限。

📝 摘要（中文）

大型语言模型（LLM）在各种通用领域表现出色，但在高度专业化、知识密集且受法律监管的中国税务领域存在显著差距。虽然税务相关基准日益受到关注，但许多基准侧重于孤立的NLP任务，忽略了实际应用能力。为了解决这个问题，我们推出了TaxPraBen，这是第一个专门用于中国税务实践的基准。它结合了10个传统应用任务，以及3个开创性的真实场景：税务风险防范、税务稽查分析和税务战略规划，这些场景来自14个数据集，总计7.3K个实例。TaxPraBen采用了一种可扩展的结构化评估范式，该范式通过“结构化解析-字段对齐提取-数值和文本匹配”的过程设计，实现了端到端的税务实践评估，同时可扩展到其他领域。我们基于Bloom分类法评估了19个LLM。结果表明，性能差异显著：所有闭源大参数LLM表现出色，Qwen2.5等中文LLM通常优于多语言LLM，而使用一些税务数据进行微调的YaYi2 LLM仅显示出有限的改进。TaxPraBen是推进LLM在实际应用中评估的重要资源。

🔬 方法详解

问题定义：现有税务领域的LLM评估基准主要关注孤立的NLP任务，例如文本分类或命名实体识别，而忽略了LLM在真实税务实践中的综合应用能力，例如税务风险防范、税务稽查分析和税务战略规划。这些真实场景需要LLM具备理解复杂税务法规、处理大量税务数据的能力，现有方法难以有效评估。

核心思路：TaxPraBen的核心思路是构建一个包含传统任务和真实场景的综合性基准，并采用结构化的评估范式，将复杂的税务实践问题分解为可量化的子任务，例如结构化解析、字段对齐提取、数值和文本匹配。通过这种方式，可以更全面、更准确地评估LLM在税务领域的应用能力。

技术框架：TaxPraBen的整体评估流程包括以下几个主要阶段：1) 数据收集与整理：收集来自不同来源的税务数据，包括税务法规、税务申报表、税务稽查报告等，并进行清洗和标注。2) 任务定义：定义10个传统应用任务和3个真实场景任务，涵盖税务实践的各个方面。3) 结构化解析：将非结构化的税务数据解析为结构化的数据表示，例如将税务法规解析为树状结构。4) 字段对齐提取：从结构化数据中提取关键字段，例如纳税人识别号、应纳税所得额、税率等。5) 数值和文本匹配：对提取的字段进行数值和文本匹配，例如验证纳税人识别号的有效性，计算应纳税额。6) 性能评估：根据匹配结果评估LLM的性能，并生成评估报告。

关键创新：TaxPraBen的关键创新在于其结构化的评估范式，该范式将复杂的税务实践问题分解为可量化的子任务，并采用结构化解析、字段对齐提取、数值和文本匹配等技术，实现了端到端的税务实践评估。这种范式不仅可以更全面、更准确地评估LLM在税务领域的应用能力，而且可以扩展到其他领域。

关键设计：TaxPraBen的关键设计包括：1) 任务选择：选择具有代表性的传统应用任务和真实场景任务，涵盖税务实践的各个方面。2) 数据标注：对税务数据进行高质量的标注，确保评估结果的准确性。3) 评估指标：采用多种评估指标，包括准确率、召回率、F1值等，全面评估LLM的性能。4) 基线模型：选择具有代表性的LLM作为基线模型，例如Bloom、Qwen2.5、YaYi2等，进行对比实验。

🖼️ 关键图片

📊 实验亮点

实验结果表明，闭源大参数LLM在TaxPraBen上表现出色，Qwen2.5等中文LLM通常优于多语言LLM，而使用一些税务数据进行微调的YaYi2 LLM仅显示出有限的改进。这表明，模型参数规模和预训练数据质量对LLM在税务领域的性能至关重要，而简单的微调可能无法有效提升性能。

🎯 应用场景

TaxPraBen可用于评估和提升LLM在税务领域的应用能力，例如智能税务咨询、税务风险预警、税务稽查辅助等。该基准有助于推动税务领域的智能化转型，提高税务管理的效率和准确性，降低税务风险，并为纳税人提供更优质的服务。未来，TaxPraBen可以扩展到其他专业领域，例如金融、法律等。

📄 摘要（原文）

While Large Language Models (LLMs) excel in various general domains, they exhibit notable gaps in the highly specialized, knowledge-intensive, and legally regulated Chinese tax domain. Consequently, while tax-related benchmarks are gaining attention, many focus on isolated NLP tasks, neglecting real-world practical capabilities. To address this issue, we introduce TaxPraBen, the first dedicated benchmark for Chinese taxation practice. It combines 10 traditional application tasks, along with 3 pioneering real-world scenarios: tax risk prevention, tax inspection analysis, and tax strategy planning, sourced from 14 datasets totaling 7.3K instances. TaxPraBen features a scalable structured evaluation paradigm designed through process of "structured parsing-field alignment extraction-numerical and textual matching", enabling end-to-end tax practice assessment while being extensible to other domains. We evaluate 19 LLMs based on Bloom's taxonomy. The results indicate significant performance disparities: all closed-source large-parameter LLMs excel, and Chinese LLMs like Qwen2.5 generally exceed multilingual LLMs, while the YaYi2 LLM, fine-tuned with some tax data, shows only limited improvement. TaxPraBen serves as a vital resource for advancing evaluations of LLMs in practical applications.

TaxPraBen: A Scalable Benchmark for Structured Evaluation of LLMs in Chinese Real-World Tax Practice

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理