Evaluation of Finetuned LLMs in AMR Parsing
作者: Shu Han Ho
分类: cs.CL, cs.AI
发布日期: 2025-08-07 (更新: 2025-08-18)
备注: 27 pages, 32 figures
💡 一句话要点
通过微调LLM,在AMR解析任务上达到媲美复杂SOTA模型的性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: AMR解析 大型语言模型 微调 自然语言理解 语义表示
📋 核心要点
- AMR解析旨在将自然语言句子转化为抽象意义表示图,现有方法通常依赖复杂的模型结构。
- 本文探索了直接微调仅解码器LLM用于AMR解析,简化了模型结构,降低了开发和维护成本。
- 实验表明,微调后的LLaMA 3.2在AMR解析任务上取得了与SOTA模型相当的性能,SMATCH F1达到0.804。
📝 摘要(中文)
本文评估了微调仅解码器的大型语言模型(LLM)在抽象意义表示(AMR)解析中的性能。AMR是一种将句子意义编码为有根、有向、非循环图的语义形式,其中节点表示概念,边表示语义关系。微调仅解码器的LLM代表了一种有前景的、直接的AMR解析新方向。本文全面评估了四种不同的LLM架构:Phi 3.5、Gemma 2、LLaMA 3.2和DeepSeek R1 LLaMA Distilled,使用LDC2020T02 Gold AMR3.0测试集。结果表明,直接微调仅解码器的LLM可以实现与复杂的SOTA AMR解析器相媲美的性能。值得注意的是,LLaMA 3.2在直接微调方法下表现出与SOTA AMR解析器相当的竞争力。在完整的LDC2020T02测试集上,我们实现了SMATCH F1:0.804,与APT + Silver (IBM)的0.804持平,并接近Graphene Smatch (MBSE)的0.854。在我们的分析中,我们还观察到一个一致的模式,即LLaMA 3.2在语义性能方面领先,而Phi 3.5在结构有效性方面表现出色。
🔬 方法详解
问题定义:论文旨在解决AMR解析问题,即将自然语言句子转换为抽象意义表示图。现有AMR解析器通常依赖于复杂的模型架构和多阶段处理流程,这增加了模型的复杂性和维护成本。因此,简化AMR解析流程,并降低模型复杂度是一个重要的研究方向。
核心思路:论文的核心思路是利用预训练语言模型的强大生成能力,通过微调仅解码器结构的LLM,直接生成AMR图的序列化表示。这种方法避免了复杂的中间步骤和手工设计的特征,简化了AMR解析流程。
技术框架:整体框架非常直接:首先,选择一个预训练的仅解码器LLM(如Phi 3.5、Gemma 2、LLaMA 3.2、DeepSeek R1 LLaMA Distilled)。然后,使用AMR数据集(LDC2020T02 Gold AMR3.0)对LLM进行微调,使其能够将输入句子转换为对应的AMR图序列。最后,使用SMATCH F1等指标评估模型在测试集上的性能。
关键创新:最重要的创新点在于探索了直接微调LLM进行AMR解析的可行性,并证明了这种简单的方法可以达到与复杂SOTA模型相媲美的性能。与传统方法相比,该方法避免了复杂的特征工程和多阶段处理,大大简化了AMR解析流程。
关键设计:论文没有详细描述具体的参数设置、损失函数或网络结构等技术细节,而是侧重于评估不同LLM架构在AMR解析任务上的性能。关键在于选择合适的预训练LLM,并使用高质量的AMR数据进行微调。损失函数通常采用标准的语言模型损失函数,如交叉熵损失。
🖼️ 关键图片
📊 实验亮点
实验结果表明,通过直接微调LLM,可以在AMR解析任务上取得显著成果。LLaMA 3.2在LDC2020T02测试集上实现了SMATCH F1值为0.804,与APT + Silver (IBM)的0.804持平,并接近Graphene Smatch (MBSE)的0.854。同时,观察到LLaMA 3.2在语义性能方面领先,而Phi 3.5在结构有效性方面表现出色。
🎯 应用场景
该研究成果可应用于自然语言理解、机器翻译、信息抽取等领域。通过简化AMR解析流程,可以降低相关应用的开发和维护成本,提高系统的鲁棒性和可扩展性。未来,该方法有望应用于更复杂的语义分析任务,例如对话系统和知识图谱构建。
📄 摘要(原文)
AMR (Abstract Meaning Representation) is a semantic formalism that encodes sentence meaning as rooted, directed, acyclic graphs, where nodes represent concepts and edges denote semantic relations. Finetuning decoder only Large Language Models (LLMs) represent a promising novel straightfoward direction for AMR parsing. This paper presents a comprehensive evaluation of finetuning four distinct LLM architectures, Phi 3.5, Gemma 2, LLaMA 3.2, and DeepSeek R1 LLaMA Distilled using the LDC2020T02 Gold AMR3.0 test set. Our results have shown that straightfoward finetuning of decoder only LLMs can achieve comparable performance to complex State of the Art (SOTA) AMR parsers. Notably, LLaMA 3.2 demonstrates competitive performance against SOTA AMR parsers given a straightforward finetuning approach. We achieved SMATCH F1: 0.804 on the full LDC2020T02 test split, on par with APT + Silver (IBM) at 0.804 and approaching Graphene Smatch (MBSE) at 0.854. Across our analysis, we also observed a consistent pattern where LLaMA 3.2 leads in semantic performance while Phi 3.5 excels in structural validity.