Contrastive Learning on LLM Back Generation Treebank for Cross-domain Constituency Parsing
作者: Peiming Guo, Meishan Zhang, Jianling Li, Min Zhang, Yue Zhang
分类: cs.CL
发布日期: 2025-05-27
备注: Accepted by ACL 2025 main conference
💡 一句话要点
提出基于LLM反向生成的对比学习方法,提升跨领域成分句法分析性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 成分句法分析 跨领域学习 大型语言模型 反向生成 对比学习
📋 核心要点
- 跨领域成分句法分析面临多领域树库资源稀缺的挑战,现有方法难以有效利用有限的数据。
- 论文提出LLM反向生成方法,通过填充领域关键词树的缺失部分来自动构建跨领域树库。
- 结合跨度级别的对比学习预训练,充分利用生成的树库,在多个目标领域取得了显著的性能提升。
📝 摘要(中文)
本文针对跨领域成分句法分析中多领域树库资源有限的挑战,探索利用大型语言模型(LLMs)自动生成树库的方法。由于LLMs在成分句法分析上的直接表现不佳,因此提出了一种新颖的树库生成方法:LLM反向生成,该方法类似于成分句法分析的逆过程。LLM反向生成以仅包含领域关键词叶子节点的非完整跨领域成分句法树作为输入,填充缺失的词语以生成跨领域成分句法树库。此外,还引入了一种跨度级别的对比学习预训练策略,以充分利用LLM反向生成的树库进行跨领域成分句法分析。在MCTB的五个目标领域上验证了LLM反向生成树库与对比学习预训练相结合的有效性。实验结果表明,与各种基线方法相比,该方法在平均结果上取得了最先进的性能。
🔬 方法详解
问题定义:跨领域成分句法分析旨在将句法分析器应用于与训练数据领域不同的目标领域。现有的方法受限于多领域成分句法树库的稀缺,导致模型在目标领域泛化能力不足。直接使用LLM进行成分句法分析效果不佳,无法有效解决数据稀缺问题。
核心思路:论文的核心思路是利用LLM的反向生成能力,从领域关键词出发,逐步构建完整的句法树。这种反向生成过程可以有效地利用LLM的语言建模能力,生成高质量的跨领域树库。通过对比学习,模型能够更好地学习领域间的共性和差异,从而提升泛化能力。
技术框架:整体框架包含两个主要阶段:1) LLM反向生成树库:输入包含领域关键词的非完整句法树,LLM填充缺失的词语,生成完整的句法树。2) 对比学习预训练:利用生成的树库,采用跨度级别的对比学习策略,预训练成分句法分析模型。最终,使用预训练的模型在目标领域进行微调。
关键创新:最重要的技术创新点在于LLM反向生成树库的方法。与直接使用LLM进行句法分析或生成完整句子不同,该方法利用LLM填充非完整句法树,更有效地利用了LLM的语言建模能力,生成更符合句法结构的树库。此外,跨度级别的对比学习进一步提升了模型的泛化能力。
关键设计:LLM反向生成过程中,需要设计合适的提示(prompt)来引导LLM生成符合句法结构的句子。对比学习采用跨度级别的负采样策略,选择与正样本相似但错误的跨度作为负样本。损失函数采用InfoNCE损失,鼓励模型区分正负样本。具体的LLM选择和训练参数设置在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在MCTB的五个目标领域上取得了state-of-the-art的平均性能。与现有基线方法相比,该方法在F1值上取得了显著提升,证明了LLM反向生成树库和对比学习预训练的有效性。具体的性能提升幅度在论文中有详细的数值对比。
🎯 应用场景
该研究成果可应用于各种跨领域自然语言处理任务,例如跨领域机器翻译、文本分类和信息抽取。通过自动生成高质量的领域树库,可以降低对人工标注数据的依赖,提升模型在低资源领域的性能。此外,该方法还可以用于增强现有树库,提高句法分析器的鲁棒性和泛化能力。
📄 摘要(原文)
Cross-domain constituency parsing is still an unsolved challenge in computational linguistics since the available multi-domain constituency treebank is limited. We investigate automatic treebank generation by large language models (LLMs) in this paper. The performance of LLMs on constituency parsing is poor, therefore we propose a novel treebank generation method, LLM back generation, which is similar to the reverse process of constituency parsing. LLM back generation takes the incomplete cross-domain constituency tree with only domain keyword leaf nodes as input and fills the missing words to generate the cross-domain constituency treebank. Besides, we also introduce a span-level contrastive learning pre-training strategy to make full use of the LLM back generation treebank for cross-domain constituency parsing. We verify the effectiveness of our LLM back generation treebank coupled with contrastive learning pre-training on five target domains of MCTB. Experimental results show that our approach achieves state-of-the-art performance on average results compared with various baselines.