Enhancing Input-Label Mapping in In-Context Learning with Contrastive Decoding
作者: Keqin Peng, Liang Ding, Yuanxin Ouyang, Meng Fang, Yancheng Yuan, Dacheng Tao
分类: cs.CL
发布日期: 2025-02-19 (更新: 2025-06-07)
备注: ACL2025
期刊: The 63rd Annual Meeting of the Association for Computational Linguistics (ACL2025)
🔗 代码/项目: GITHUB
💡 一句话要点
提出In-Context Contrastive Decoding,增强ICL中输入-标签映射,提升NLU任务性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 上下文学习 对比学习 自然语言理解 大型语言模型 输入-标签映射
📋 核心要点
- 现有ICL方法忽略输入-标签映射,过度依赖预训练知识,导致性能瓶颈。
- ICCD通过对比正负样本输出分布,强化输入-标签映射,提升模型对任务的理解。
- 实验表明,ICCD在多种LLM和NLU任务上均有显著提升,且无需额外训练。
📝 摘要(中文)
大型语言模型(LLMs)通过上下文学习(ICL)在一系列任务中表现出色,其中仅有少量的任务示例来指导它们的预测。然而,先前的研究表明,LLMs在ICL中经常忽略输入-标签映射信息,更多地依赖于其预训练知识。为了解决这个问题,我们引入了In-Context Contrastive Decoding (ICCD),这是一种新颖的方法,通过对比正例和负例上下文示例之间的输出分布来强调输入-标签映射。在7个自然语言理解(NLU)任务上的实验表明,我们的ICCD方法在6种不同规模的LLMs上带来了持续且显著的改进(平均高达+1.8),而无需额外的训练。我们的方法是通用的,通过各种演示选择方法增强性能,证明了其广泛的适用性和有效性。代码和脚本已在https://github.com/Romainpkq/CD_ICL上发布。
🔬 方法详解
问题定义:现有In-Context Learning (ICL) 方法在利用大型语言模型 (LLMs) 进行自然语言理解 (NLU) 任务时,存在忽略输入-标签映射关系的问题。LLMs 倾向于依赖其预训练知识,而未能充分利用上下文示例中提供的输入和标签之间的对应关系。这导致模型在面对需要精确理解输入-标签映射的任务时表现不佳。
核心思路:论文的核心思路是通过对比学习的方式,显式地增强 LLM 对输入-标签映射的感知。具体来说,通过构造正例和负例上下文示例,并对比它们之间的输出分布,引导 LLM 学习区分正确的输入-标签对应关系和错误的对应关系。这种对比学习的方式能够有效地提升 LLM 对上下文示例中关键信息的关注度。
技术框架:ICCD 的整体框架是在标准的 ICL 流程中引入对比解码 (Contrastive Decoding) 步骤。首先,为每个输入构建包含正例和负例的上下文示例。然后,使用 LLM 对这些上下文示例进行解码,得到相应的输出分布。最后,通过对比正例和负例的输出分布,调整模型的预测结果,从而增强输入-标签映射。
关键创新:ICCD 的关键创新在于将对比学习的思想引入到 ICL 中,并设计了一种有效的对比解码方法。与传统的 ICL 方法相比,ICCD 能够更有效地利用上下文示例中的信息,提升模型对任务的理解能力。此外,ICCD 不需要额外的训练,可以直接应用于现有的 LLM,具有很强的通用性。
关键设计:ICCD 的关键设计包括正负样本的构建方式和对比损失函数的选择。正样本是与输入对应的正确标签,负样本则是与输入不对应的错误标签。对比损失函数的目标是拉近正样本的输出分布,推远负样本的输出分布。具体的损失函数可以选择 KL 散度、交叉熵等。此外,论文还探讨了不同的演示选择方法对 ICCD 性能的影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ICCD在7个NLU任务上,对6种不同规模的LLM均带来了持续且显著的改进,平均提升高达+1.8。该方法与多种演示选择方法兼容,进一步验证了其通用性和有效性。代码已开源,方便研究者复现和应用。
🎯 应用场景
ICCD可广泛应用于各种自然语言理解任务,尤其是在数据稀缺或需要快速适应新任务的场景下。例如,在低资源语言翻译、零样本学习、小样本分类等领域,ICCD能够显著提升模型性能。该方法还可用于提升对话系统、问答系统等应用的智能化水平。
📄 摘要(原文)
Large language models (LLMs) excel at a range of tasks through in-context learning (ICL), where only a few task examples guide their predictions. However, prior research highlights that LLMs often overlook input-label mapping information in ICL, relying more on their pre-trained knowledge. To address this issue, we introduce In-Context Contrastive Decoding (ICCD), a novel method that emphasizes input-label mapping by contrasting the output distributions between positive and negative in-context examples. Experiments on 7 natural language understanding (NLU) tasks show that our ICCD method brings consistent and significant improvement (up to +1.8 improvement on average) upon 6 different scales of LLMs without requiring additional training. Our approach is versatile, enhancing performance with various demonstration selection methods, demonstrating its broad applicability and effectiveness. The code and scripts are released at https://github.com/Romainpkq/CD_ICL.