LAMPO: Large Language Models as Preference Machines for Few-shot Ordinal Classification

📄 arXiv: 2408.03359v1 📥 PDF

作者: Zhen Qin, Junru Wu, Jiaming Shen, Tianqi Liu, Xuanhui Wang

分类: cs.LG, cs.AI, cs.CL

发布日期: 2024-08-06

备注: COLM 2024


💡 一句话要点

LAMPO:利用大语言模型作为偏好机器,解决少样本序数分类问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 少样本学习 序数分类 偏好学习 自监督学习

📋 核心要点

  1. 现有少样本序数分类方法受限于上下文长度、排序偏差,且绝对值估计困难。
  2. LAMPO将LLM作为偏好机器,通过比较测试实例与示例,进行相对决策。
  3. 实验表明,LAMPO在多个数据集上表现出色,某些应用提升超过20%。

📝 摘要(中文)

本文提出了一种名为LAMPO的新范式,它利用大语言模型(LLMs)来解决少样本多类序数分类任务。与传统方法将所有演示示例与测试实例连接,并提示LLM生成逐点预测不同,我们的框架将LLM用作偏好机器,对测试实例和每个演示示例进行相对比较决策。然后,引入一种自监督方法将这些二元比较结果聚合为最终的序数决策。LAMPO解决了先前方法中固有的几个局限性,包括上下文长度约束、排序偏差以及与绝对逐点估计相关的挑战。在七个公共数据集上的大量实验表明,LAMPO在各种应用(例如,电影评论分析和仇恨言论检测)中表现出显著的竞争力。值得注意的是,在某些应用中,改进可能是巨大的,绝对值超过20%。此外,我们认为LAMPO代表了LLM之上非参数应用的一个有趣的补充,因为它支持黑盒LLM,而不需要像以前的方法那样输出LLM的内部状态(例如,嵌入)。

🔬 方法详解

问题定义:论文旨在解决少样本多类序数分类问题。现有方法,例如直接将所有示例拼接后输入LLM进行预测,存在上下文长度限制,排序偏差,以及难以进行准确的绝对数值估计等问题。这些问题限制了LLM在实际序数分类任务中的应用效果。

核心思路:LAMPO的核心思路是将LLM作为一个偏好机器,不再直接预测测试样本的类别,而是通过比较测试样本与每个示例样本,判断它们之间的相对偏好关系。这种相对比较的方式可以有效缓解排序偏差,并且避免了直接进行绝对数值估计的困难。

技术框架:LAMPO的整体框架包括以下几个主要阶段:1) 偏好比较阶段:将测试样本与每个示例样本分别输入LLM,LLM输出两者之间的偏好关系(例如,测试样本比示例样本更积极/消极)。2) 偏好聚合阶段:利用自监督方法,将所有示例样本与测试样本的偏好关系进行聚合,得到一个综合的序数预测结果。具体来说,可以训练一个简单的分类器,将LLM输出的偏好信息作为输入,预测测试样本的类别。

关键创新:LAMPO的关键创新在于将LLM从一个直接的预测器转变为一个偏好比较器。这种转变使得模型能够更好地利用LLM的上下文理解能力,并且避免了直接进行绝对数值估计的困难。此外,LAMPO采用自监督的方式进行偏好聚合,避免了对大量标注数据的依赖。

关键设计:在偏好比较阶段,可以使用不同的prompting策略来引导LLM进行比较。例如,可以使用类似于“哪个样本更积极?”的prompt。在偏好聚合阶段,可以使用不同的分类器,例如线性分类器或神经网络。损失函数可以选择交叉熵损失函数。此外,还可以通过调整prompt的细节,例如添加更多的上下文信息,来进一步提升模型的性能。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

LAMPO在七个公共数据集上进行了广泛的实验,结果表明其性能显著优于现有的少样本序数分类方法。在某些应用中,LAMPO的性能提升超过20%。此外,LAMPO不需要访问LLM的内部状态(例如,嵌入),使其更易于部署和使用。

🎯 应用场景

LAMPO具有广泛的应用前景,例如情感分析(电影评论、产品评论)、仇恨言论检测、信用评级、风险评估等需要进行序数分类的场景。该方法能够有效利用少量样本,降低标注成本,并且能够充分发挥大语言模型的上下文理解能力,提升分类精度。未来,LAMPO可以应用于更多需要进行排序或等级划分的任务中。

📄 摘要(原文)

We introduce LAMPO, a novel paradigm that leverages Large Language Models (LLMs) for solving few-shot multi-class ordinal classification tasks. Unlike conventional methods, which concatenate all demonstration examples with the test instance and prompt LLMs to produce the pointwise prediction, our framework uses the LLM as a preference machine that makes a relative comparative decision between the test instance and each demonstration. A self-supervised method is then introduced to aggregate these binary comparisons into the final ordinal decision. LAMPO addresses several limitations inherent in previous methods, including context length constraints, ordering biases, and challenges associated with absolute point-wise estimation. Extensive experiments on seven public datasets demonstrate LAMPO's remarkably competitive performance across a diverse spectrum of applications (e.g., movie review analysis and hate speech detection). Notably, in certain applications, the improvement can be substantial, exceeding 20% in an absolute term. Moreover, we believe LAMPO represents an interesting addition to the non-parametric application layered on top of LLMs, as it supports black-box LLMs without necessitating the outputting of LLM's internal states (e.g., embeddings), as seen in previous approaches.