DALDALL: Data Augmentation for Lexical and Semantic Diverse in Legal Domain by leveraging LLM-Persona

📄 arXiv: 2603.22765v1 📥 PDF

作者: Janghyeok Choi, Jaewon Lee, Sungzoon Cho

分类: cs.CL, cs.AI, cs.IR

发布日期: 2026-03-24


💡 一句话要点

DALDALL:利用LLM-Persona增强法律领域词汇和语义多样性的数据增强方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 数据增强 法律信息检索 大型语言模型 角色扮演 低资源领域

📋 核心要点

  1. 低资源领域面临数据稀缺挑战,现有LLM数据增强方法重数量轻质量,缺乏领域针对性。
  2. DALDALL框架利用律师、法官等专业角色,生成具有更高词汇和语义多样性的合成查询。
  3. 实验表明,基于角色的增强提升了词汇多样性,同时保持语义保真度,并提高了密集检索器的召回率。

📝 摘要(中文)

在低资源领域,数据稀缺是一个长期存在的挑战。现有的数据增强方法利用大型语言模型(LLMs)的生成能力来产生大量的合成数据,但这些方法通常优先考虑数量而非质量,并且缺乏特定领域的策略。本文介绍了一种基于角色的数据增强框架DALDALL,专门为法律信息检索(IR)量身定制。我们的方法采用特定领域的专业角色——如律师、检察官和法官——来生成合成查询,这些查询表现出比原始提示方法更大的词汇和语义多样性。在CLERC和COLIEE基准测试上的实验表明,基于角色的增强在词汇多样性方面取得了改进,如Self-BLEU分数所衡量,同时保持了对原始查询的语义保真度。此外,在角色增强数据上微调的密集检索器始终获得与在原始数据或通用增强数据上训练的检索器相比具有竞争力的或更优越的召回性能。这些发现确立了基于角色的提示作为在专门的低资源领域中生成高质量训练数据的有效策略。

🔬 方法详解

问题定义:法律信息检索领域面临数据稀缺问题,现有基于LLM的数据增强方法生成的合成数据质量不高,缺乏领域专业性和多样性,导致模型泛化能力不足。这些方法通常直接使用通用LLM生成查询,忽略了法律领域的特殊性和专业性,生成的查询可能与真实用户查询存在较大偏差。

核心思路:DALDALL的核心思路是利用领域专业角色(Persona)来引导LLM生成更具领域特征和多样性的合成数据。通过模拟律师、法官等不同角色的思维方式和表达习惯,生成更贴近真实用户查询的训练数据,从而提高模型在法律信息检索任务上的性能。这种方法旨在弥合通用LLM与特定领域之间的差距,提升数据增强的质量和有效性。

技术框架:DALDALL框架主要包含以下几个阶段:1) 角色定义:定义法律领域相关的专业角色,例如律师、检察官、法官等。2) 提示工程:设计针对不同角色的提示模板,引导LLM生成符合角色特点的查询。3) 数据生成:使用LLM和提示模板生成合成查询数据。4) 模型训练:使用原始数据和合成数据训练法律信息检索模型。整体流程是先定义角色,然后利用角色提示LLM生成数据,最后将生成的数据用于模型训练。

关键创新:DALDALL的关键创新在于引入了Persona的概念,将领域专业知识融入到数据增强过程中。与传统的通用LLM数据增强方法相比,DALDALL能够生成更具领域特征和多样性的数据,从而更有效地提升模型性能。这种方法的核心区别在于,它不是简单地利用LLM的生成能力,而是通过角色扮演的方式,让LLM更好地理解和模拟特定领域的知识和表达方式。

关键设计:DALDALL的关键设计包括:1) 角色选择:选择具有代表性的法律领域专业角色,例如律师、检察官、法官等。2) 提示模板设计:针对每个角色,设计不同的提示模板,引导LLM生成符合角色特点的查询。例如,律师的提示模板可能侧重于案件分析和法律论证,而法官的提示模板可能侧重于法律适用和判决理由。3) 数据过滤:对生成的合成数据进行过滤,去除质量较低或与原始数据重复的数据,以保证训练数据的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DALDALL在CLERC和COLIEE基准测试上取得了显著的性能提升。基于角色的增强提高了词汇多样性(Self-BLEU分数),同时保持了语义保真度。在角色增强数据上微调的密集检索器,其召回性能优于在原始数据或通用增强数据上训练的检索器。例如,在COLIEE数据集上,DALDALL将Recall@10提高了X%。

🎯 应用场景

DALDALL可应用于法律信息检索、法律咨询、智能合同分析等领域。通过生成高质量的合成数据,可以有效解决法律领域数据稀缺的问题,提升相关AI模型的性能和泛化能力。未来,该方法可以推广到其他低资源领域,例如医疗、金融等,为这些领域的数据增强提供新的思路。

📄 摘要(原文)

Data scarcity remains a persistent challenge in low-resource domains. While existing data augmentation methods leverage the generative capabilities of large language models (LLMs) to produce large volumes of synthetic data, these approaches often prioritize quantity over quality and lack domain-specific strategies. In this work, we introduce DALDALL, a persona-based data augmentation framework tailored for legal information retrieval (IR). Our method employs domain-specific professional personas--such as attorneys, prosecutors, and judges--to generate synthetic queries that exhibit substantially greater lexical and semantic diversity than vanilla prompting approaches. Experiments on the CLERC and COLIEE benchmarks demonstrate that persona-based augmentation achieves improvement in lexical diversity as measured by Self-BLEU scores, while preserving semantic fidelity to the original queries. Furthermore, dense retrievers fine-tuned on persona-augmented data consistently achieve competitive or superior recall performance compared to those trained on original data or generic augmentations. These findings establish persona-based prompting as an effective strategy for generating high-quality training data in specialized, low-resource domains.