TaxPraBen: A Scalable Benchmark for Structured Evaluation of LLMs in Chinese Real-World Tax Practice
作者: Gang Hu, Yating Chen, Haiyan Ding, Wang Gao, Jiajia Huang, Min Peng, Qianqian Xie, Kun Yu
分类: cs.CL
发布日期: 2026-04-10
期刊: ACL 2026 Main Conference
💡 一句话要点
TaxPraBen:构建中文税务实践LLM结构化评估基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 税务实践 结构化评估 中文基准 税务风险防范
📋 核心要点
- 现有税务基准侧重于孤立的NLP任务,缺乏对LLM在真实税务实践中应用能力的全面评估。
- TaxPraBen通过结构化评估范式,结合传统任务和真实场景,实现端到端的税务实践评估。
- 实验结果表明,闭源大参数LLM表现最佳,中文LLM优于多语言LLM,微调效果有限。
📝 摘要(中文)
大型语言模型(LLM)在各种通用领域表现出色,但在高度专业化、知识密集且受法律监管的中国税务领域存在显著差距。虽然税务相关基准日益受到关注,但许多基准侧重于孤立的NLP任务,忽略了实际应用能力。为了解决这个问题,我们推出了TaxPraBen,这是第一个专门用于中国税务实践的基准。它结合了10个传统应用任务,以及3个开创性的真实场景:税务风险防范、税务稽查分析和税务战略规划,这些场景来自14个数据集,总计7.3K个实例。TaxPraBen采用了一种可扩展的结构化评估范式,该范式通过“结构化解析-字段对齐提取-数值和文本匹配”的过程设计,实现了端到端的税务实践评估,同时可扩展到其他领域。我们基于Bloom分类法评估了19个LLM。结果表明,性能差异显著:所有闭源大参数LLM表现出色,Qwen2.5等中文LLM通常优于多语言LLM,而使用一些税务数据进行微调的YaYi2 LLM仅显示出有限的改进。TaxPraBen是推进LLM在实际应用中评估的重要资源。
🔬 方法详解
问题定义:现有税务领域的LLM评估基准主要关注孤立的NLP任务,例如文本分类或命名实体识别,而忽略了LLM在真实税务实践中的综合应用能力,例如税务风险防范、税务稽查分析和税务战略规划。这些真实场景需要LLM具备理解复杂税务法规、处理大量税务数据的能力,现有方法难以有效评估。
核心思路:TaxPraBen的核心思路是构建一个包含传统任务和真实场景的综合性基准,并采用结构化的评估范式,将复杂的税务实践问题分解为可量化的子任务,例如结构化解析、字段对齐提取、数值和文本匹配。通过这种方式,可以更全面、更准确地评估LLM在税务领域的应用能力。
技术框架:TaxPraBen的整体评估流程包括以下几个主要阶段:1) 数据收集与整理:收集来自不同来源的税务数据,包括税务法规、税务申报表、税务稽查报告等,并进行清洗和标注。2) 任务定义:定义10个传统应用任务和3个真实场景任务,涵盖税务实践的各个方面。3) 结构化解析:将非结构化的税务数据解析为结构化的数据表示,例如将税务法规解析为树状结构。4) 字段对齐提取:从结构化数据中提取关键字段,例如纳税人识别号、应纳税所得额、税率等。5) 数值和文本匹配:对提取的字段进行数值和文本匹配,例如验证纳税人识别号的有效性,计算应纳税额。6) 性能评估:根据匹配结果评估LLM的性能,并生成评估报告。
关键创新:TaxPraBen的关键创新在于其结构化的评估范式,该范式将复杂的税务实践问题分解为可量化的子任务,并采用结构化解析、字段对齐提取、数值和文本匹配等技术,实现了端到端的税务实践评估。这种范式不仅可以更全面、更准确地评估LLM在税务领域的应用能力,而且可以扩展到其他领域。
关键设计:TaxPraBen的关键设计包括:1) 任务选择:选择具有代表性的传统应用任务和真实场景任务,涵盖税务实践的各个方面。2) 数据标注:对税务数据进行高质量的标注,确保评估结果的准确性。3) 评估指标:采用多种评估指标,包括准确率、召回率、F1值等,全面评估LLM的性能。4) 基线模型:选择具有代表性的LLM作为基线模型,例如Bloom、Qwen2.5、YaYi2等,进行对比实验。
🖼️ 关键图片
📊 实验亮点
实验结果表明,闭源大参数LLM在TaxPraBen上表现出色,Qwen2.5等中文LLM通常优于多语言LLM,而使用一些税务数据进行微调的YaYi2 LLM仅显示出有限的改进。这表明,模型参数规模和预训练数据质量对LLM在税务领域的性能至关重要,而简单的微调可能无法有效提升性能。
🎯 应用场景
TaxPraBen可用于评估和提升LLM在税务领域的应用能力,例如智能税务咨询、税务风险预警、税务稽查辅助等。该基准有助于推动税务领域的智能化转型,提高税务管理的效率和准确性,降低税务风险,并为纳税人提供更优质的服务。未来,TaxPraBen可以扩展到其他专业领域,例如金融、法律等。
📄 摘要(原文)
While Large Language Models (LLMs) excel in various general domains, they exhibit notable gaps in the highly specialized, knowledge-intensive, and legally regulated Chinese tax domain. Consequently, while tax-related benchmarks are gaining attention, many focus on isolated NLP tasks, neglecting real-world practical capabilities. To address this issue, we introduce TaxPraBen, the first dedicated benchmark for Chinese taxation practice. It combines 10 traditional application tasks, along with 3 pioneering real-world scenarios: tax risk prevention, tax inspection analysis, and tax strategy planning, sourced from 14 datasets totaling 7.3K instances. TaxPraBen features a scalable structured evaluation paradigm designed through process of "structured parsing-field alignment extraction-numerical and textual matching", enabling end-to-end tax practice assessment while being extensible to other domains. We evaluate 19 LLMs based on Bloom's taxonomy. The results indicate significant performance disparities: all closed-source large-parameter LLMs excel, and Chinese LLMs like Qwen2.5 generally exceed multilingual LLMs, while the YaYi2 LLM, fine-tuned with some tax data, shows only limited improvement. TaxPraBen serves as a vital resource for advancing evaluations of LLMs in practical applications.