CLASE: A Hybrid Method for Chinese Legalese Stylistic Evaluation

📄 arXiv: 2602.12639v1 📥 PDF

作者: Yiran Rex Ma, Yuxiao Ye, Huiyuan Xie

分类: cs.CL

发布日期: 2026-02-13

备注: Accepted at LREC 2026

🔗 代码/项目: GITHUB


💡 一句话要点

提出CLASE混合方法,用于评估中文法律文本的文风质量。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 法律文本评估 文风评估 大型语言模型 混合方法 对比学习

📋 核心要点

  1. 现有法律文本生成评估方法难以兼顾准确性和文风,专家规则难以形式化,自动评估方法存在语义混淆和不透明性。
  2. CLASE方法结合语言特征和经验指导的LLM评估,从对比数据中学习,以透明且无参考的方式捕捉文风规范。
  3. 实验表明,CLASE与人类判断的一致性显著高于传统指标和纯LLM评估,并提供可解释的分数分解和改进建议。

📝 摘要(中文)

大型语言模型(LLM)生成的法律文本通常在事实准确性方面表现良好,但往往未能遵守法律写作的专业文风规范和语言习惯。为了提高文风质量,首要步骤是建立可靠的评估方法。然而,让法律专家手动开发此类指标是不切实际的,因为法律写作实践中隐含的文风要求难以形式化为明确的规则。同时,现有的自动评估方法也存在不足:基于参考的指标将语义准确性与文风保真度混淆,而LLM作为评判者的评估则缺乏透明度和一致性。为了解决这些挑战,我们引入了CLASE(中文法律文风评估),一种专注于法律文本文风表现的混合评估方法。该方法结合了1)基于语言特征的分数和2)经验指导的LLM作为评判者的分数。特征系数和LLM评分经验均从真实的法律文件及其LLM恢复的对应文件的对比对中学习。这种混合设计以透明、无参考的方式捕捉了表面层面的特征和隐含的文风规范。在200份中文法律文件上的实验表明,CLASE比传统指标和纯LLM作为评判者的方法更能与人类判断保持一致。除了提高一致性外,CLASE还提供了可解释的分数分解和改进建议,为法律文本生成中的专业文风评估提供了一种可扩展且实用的解决方案。

🔬 方法详解

问题定义:论文旨在解决大型语言模型生成的中文法律文本在文风上不符合规范的问题。现有方法,如基于参考的指标,无法区分语义准确性和文风,而直接使用LLM进行评估则缺乏透明度和一致性。专家手动评估成本高昂且难以形式化。

核心思路:CLASE的核心思路是结合可解释的语言特征和LLM的判断能力,通过对比学习的方式,让模型学习区分符合法律文风和不符合法律文风的文本。这种混合方法旨在克服现有方法的局限性,提供更准确、透明和可解释的文风评估。

技术框架:CLASE包含两个主要模块:1) 基于语言特征的评分模块,提取法律文本的语言特征,并根据学习到的权重进行评分;2) 基于LLM的评分模块,利用LLM作为评判者,根据经验对文本进行评分。这两个模块的分数通过加权平均的方式进行融合,最终得到CLASE的评估分数。训练数据由真实的法律文件和LLM生成的对应文件组成,形成对比对。

关键创新:CLASE的关键创新在于其混合评估方法,它结合了可解释的语言特征和LLM的判断能力。通过对比学习,CLASE能够学习到隐含在法律文本中的文风规范,并提供更准确、透明和可解释的评估结果。与传统的基于参考的指标和纯LLM评估方法相比,CLASE更专注于文风评估,并避免了语义混淆和不透明性问题。

关键设计:CLASE的关键设计包括:1) 语言特征的选择,需要选择能够有效区分法律文风的特征;2) 对比学习数据的构建,需要保证对比对的质量和多样性;3) LLM的选择和prompt设计,需要选择具有较强语言理解和生成能力的LLM,并设计合适的prompt来引导LLM进行文风评估;4) 权重学习,需要学习语言特征和LLM评分之间的最佳权重。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CLASE在200份中文法律文件上的评估结果与人类判断的一致性显著高于传统指标和纯LLM评估方法。CLASE还提供了可解释的分数分解和改进建议,为用户提供了更深入的文风分析。

🎯 应用场景

CLASE可应用于评估和改进大型语言模型生成的中文法律文本的文风质量,帮助法律从业者提高工作效率,并促进法律人工智能的发展。该方法还可扩展到其他专业领域的文本文风评估,例如金融、医疗等。

📄 摘要(原文)

Legal text generated by large language models (LLMs) can usually achieve reasonable factual accuracy, but it frequently fails to adhere to the specialised stylistic norms and linguistic conventions of legal writing. In order to improve stylistic quality, a crucial first step is to establish a reliable evaluation method. However, having legal experts manually develop such a metric is impractical, as the implicit stylistic requirements in legal writing practice are difficult to formalise into explicit rubrics. Meanwhile, existing automatic evaluation methods also fall short: reference-based metrics conflate semantic accuracy with stylistic fidelity, and LLM-as-a-judge evaluations suffer from opacity and inconsistency. To address these challenges, we introduce CLASE (Chinese LegAlese Stylistic Evaluation), a hybrid evaluation method that focuses on the stylistic performance of legal text. The method incorporates a hybrid scoring mechanism that combines 1) linguistic feature-based scores and 2) experience-guided LLM-as-a-judge scores. Both the feature coefficients and the LLM scoring experiences are learned from contrastive pairs of authentic legal documents and their LLM-restored counterparts. This hybrid design captures both surface-level features and implicit stylistic norms in a transparent, reference-free manner. Experiments on 200 Chinese legal documents show that CLASE achieves substantially higher alignment with human judgments than traditional metrics and pure LLM-as-a-judge methods. Beyond improved alignment, CLASE provides interpretable score breakdowns and suggestions for improvements, offering a scalable and practical solution for professional stylistic evaluation in legal text generation (Code and data for CLASE is available at: https://github.com/rexera/CLASE).