Boosting Large Language Models with Continual Learning for Aspect-based Sentiment Analysis
作者: Xuanwen Ding, Jie Zhou, Liang Dou, Qin Chen, Yuanbin Wu, Chengcai Chen, Liang He
分类: cs.CL
发布日期: 2024-05-09
💡 一句话要点
提出基于大语言模型和持续学习的LLM-CL模型,解决面向方面情感分析中的领域知识迁移和遗忘问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 面向方面情感分析 持续学习 大语言模型 领域知识解耦 领域知识迁移
📋 核心要点
- 现有ABSA方法在持续学习场景下,难以兼顾新领域学习和旧领域知识保持,存在灾难性遗忘问题。
- 论文提出LLM-CL模型,通过领域知识解耦和预热策略,实现领域不变知识和领域相关知识的有效分离和对齐。
- 实验结果表明,LLM-CL模型在多个ABSA数据集上取得了state-of-the-art的性能,验证了其有效性。
📝 摘要(中文)
本文针对面向方面的情感分析(ABSA)这一情感分析的重要子任务,提出了一种基于大语言模型的持续学习模型(LLM-CL)。现有研究主要集中于通过在目标领域数据集上微调特定领域的模型来提高目标领域的性能,而很少有工作提出针对ABSA的持续学习任务,即在学习目标领域能力的同时保持历史领域的能力。本文提出的LLM-CL模型,首先设计了一个领域知识解耦模块,学习一个领域不变的适配器,并通过正交约束独立地分离领域相关的适配器。然后,引入领域知识预热策略,以对齐领域不变和领域相关知识之间的表示。在测试阶段,通过领域定位来索引相应的领域相关知识,而不需要每个样本的领域ID。在19个数据集上的大量实验表明,本文的LLM-CL模型获得了新的state-of-the-art性能。
🔬 方法详解
问题定义:面向方面的情感分析(ABSA)旨在提取文本中的方面并预测其情感极性。在持续学习场景下,ABSA面临的挑战是如何在学习新领域知识的同时,避免遗忘先前学习的领域知识,即灾难性遗忘问题。现有方法通常针对特定领域进行微调,缺乏对领域知识的有效解耦和迁移能力。
核心思路:论文的核心思路是将大语言模型(LLM)与持续学习相结合,利用LLM强大的表示能力和泛化能力,并通过领域知识解耦和预热策略,实现领域不变知识和领域相关知识的有效分离和对齐。领域不变知识用于保持通用情感分析能力,领域相关知识用于适应特定领域的特点。
技术框架:LLM-CL模型主要包含以下几个模块:1) 领域知识解耦模块:该模块通过引入领域不变适配器和领域相关适配器,并将两者进行正交约束,从而实现领域知识的解耦。2) 领域知识预热策略:该策略用于对齐领域不变知识和领域相关知识之间的表示,从而提高模型的泛化能力。3) 领域定位模块:在测试阶段,该模块用于根据输入样本的特征,自动定位到相应的领域相关知识,而无需显式地提供领域ID。
关键创新:论文的关键创新在于:1) 提出了基于LLM的持续学习框架LLM-CL,有效利用了LLM的强大能力。2) 设计了领域知识解耦模块,通过正交约束实现了领域不变知识和领域相关知识的有效分离。3) 提出了领域知识预热策略,对齐了领域不变知识和领域相关知识的表示。
关键设计:领域知识解耦模块中,领域不变适配器和领域相关适配器通常采用Transformer结构,通过正交约束损失函数来保证两者之间的独立性。领域知识预热策略通过最小化领域不变知识和领域相关知识之间的距离来实现表示对齐。领域定位模块可以采用聚类算法或分类算法,根据输入样本的特征进行领域分类。
📊 实验亮点
LLM-CL模型在19个ABSA数据集上进行了广泛的实验,结果表明该模型取得了state-of-the-art的性能。相比于现有的持续学习方法,LLM-CL模型在保持历史领域知识的同时,能够更好地适应新的领域,显著提高了ABSA的准确率和泛化能力。
🎯 应用场景
该研究成果可应用于各种面向方面的情感分析场景,例如电商评论分析、舆情监控、产品反馈分析等。通过持续学习,模型能够不断适应新的领域和数据,提高情感分析的准确性和鲁棒性,为企业决策提供更有价值的信息。
📄 摘要(原文)
Aspect-based sentiment analysis (ABSA) is an important subtask of sentiment analysis, which aims to extract the aspects and predict their sentiments. Most existing studies focus on improving the performance of the target domain by fine-tuning domain-specific models (trained on source domains) based on the target domain dataset. Few works propose continual learning tasks for ABSA, which aim to learn the target domain's ability while maintaining the history domains' abilities. In this paper, we propose a Large Language Model-based Continual Learning (\texttt{LLM-CL}) model for ABSA. First, we design a domain knowledge decoupling module to learn a domain-invariant adapter and separate domain-variant adapters dependently with an orthogonal constraint. Then, we introduce a domain knowledge warmup strategy to align the representation between domain-invariant and domain-variant knowledge. In the test phase, we index the corresponding domain-variant knowledge via domain positioning to not require each sample's domain ID. Extensive experiments over 19 datasets indicate that our \texttt{LLM-CL} model obtains new state-of-the-art performance.