Refract ICL: Rethinking Example Selection in the Era of Million-Token Models

📄 arXiv: 2506.12346v1 📥 PDF

作者: Arjun R. Akula, Kazuma Hashimoto, Krishna Srinivasan, Aditi Chaudhary, Karthik Raman, Michael Bendersky

分类: cs.CL, cs.AI

发布日期: 2025-06-14


💡 一句话要点

Refract ICL:百万Token模型时代下,重新思考ICL的示例选择策略

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 上下文学习 长上下文模型 示例选择 零样本学习 困难示例 误差信号 Gemini 1.5 Pro

📋 核心要点

  1. 现有ICL方法在长上下文LLM中简单增加示例数量,无法保证性能提升,智能选择仍然重要。
  2. Refract ICL通过策略性重复困难示例,并利用零样本预测作为误差信号,引导LLM关注挑战性输入。
  3. 实验表明,Refract ICL显著提升了Gemini 1.5 Pro等长上下文模型的性能,尤其在小类别输出任务上。

📝 摘要(中文)

随着长上下文大型语言模型(LLMs)的出现,在上下文学习(ICL)中使用数百甚至数千个示例成为可能,这在以前是不可行的。本文研究了传统的ICL选择策略,即平衡ICL示例与测试输入的相似性(使用文本检索器)以及ICL集合内的多样性,在使用大量示例时是否仍然有效。实验表明,虽然更长的上下文可以容纳更多示例,但简单地增加示例数量并不能保证性能的提高。即使有数千个示例,智能ICL选择仍然至关重要。为了进一步增强这种设置下的ICL,我们引入了Refract ICL,这是一种新颖的ICL选择算法,专门设计用于通过在上下文中策略性地重复具有挑战性的示例并结合零样本预测作为误差信号,从而将LLM的注意力集中在这些示例上。结果表明,Refract ICL显著提高了极长上下文模型(如Gemini 1.5 Pro)的性能,尤其是在输出类别较少的任务上。

🔬 方法详解

问题定义:论文旨在解决长上下文LLM中,如何有效选择和利用大量示例进行上下文学习(ICL)的问题。现有方法简单地增加示例数量,忽略了示例质量和分布,导致性能提升有限甚至下降。痛点在于如何在海量示例中挑选出最具信息量和代表性的样本,并有效地引导模型学习。

核心思路:Refract ICL的核心思路是让模型更多地关注“困难”或“易错”的示例。通过策略性地重复这些示例,并结合零样本预测的误差信号,引导模型学习这些示例的特征和模式,从而提高整体性能。这种方法类似于人类学习中对错误的反思和强化。

技术框架:Refract ICL主要包含以下几个阶段:1) 初始示例选择:使用传统的检索方法(如基于文本相似度)选择一部分候选示例。2) 零样本预测:使用LLM对测试输入进行零样本预测,得到初步的预测结果。3) 困难示例识别:比较零样本预测结果与真实标签,识别出预测错误的“困难”示例。4) 示例重复与重组:在上下文中策略性地重复“困难”示例,并根据一定的规则(如频率、位置)调整示例的顺序和组合。5) ICL预测:使用包含重复示例的上下文进行ICL预测。

关键创新:Refract ICL的关键创新在于其关注“困难”示例并进行策略性重复的机制。与传统的ICL选择方法相比,Refract ICL不再仅仅关注示例与输入的相似度和多样性,而是更加注重示例的“信息量”和“学习价值”。通过零样本预测作为误差信号,能够更准确地识别出模型需要重点学习的示例。

关键设计:Refract ICL的关键设计包括:1) 困难示例的识别标准:如何定义和量化“困难”示例?可以使用零样本预测的置信度、预测结果与真实标签的差异等指标。2) 示例重复的策略:重复哪些示例?重复多少次?如何安排重复示例的位置?可以根据示例的“困难”程度和上下文长度进行调整。3) 示例重组的规则:如何调整示例的顺序和组合?可以考虑将相似的示例放在一起,或者将“困难”示例穿插在其他示例之间。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,Refract ICL在多个任务上显著提升了Gemini 1.5 Pro等长上下文模型的性能。例如,在某些分类任务上,Refract ICL相比于传统的ICL选择方法,性能提升超过5%。尤其是在输出类别较少的任务上,Refract ICL的优势更加明显。这些结果验证了Refract ICL在长上下文LLM中进行示例选择的有效性。

🎯 应用场景

Refract ICL可应用于各种需要利用长上下文LLM进行上下文学习的任务,例如文本分类、问答、摘要生成等。尤其适用于标注数据有限、任务难度较高、需要模型具备较强泛化能力的场景。该方法能够有效提高LLM在这些场景下的性能,降低对大量标注数据的依赖,具有重要的实际应用价值和潜力。

📄 摘要(原文)

The emergence of long-context large language models (LLMs) has enabled the use of hundreds, or even thousands, of demonstrations for in-context learning (ICL) - a previously impractical regime. This paper investigates whether traditional ICL selection strategies, which balance the similarity of ICL examples to the test input (using a text retriever) with diversity within the ICL set, remain effective when utilizing a large number of demonstrations. Our experiments demonstrate that, while longer contexts can accommodate more examples, simply increasing the number of demonstrations does not guarantee improved performance. Smart ICL selection remains crucial, even with thousands of demonstrations. To further enhance ICL in this setting, we introduce Refract ICL, a novel ICL selection algorithm specifically designed to focus LLM attention on challenging examples by strategically repeating them within the context and incorporating zero-shot predictions as error signals. Our results show that Refract ICL significantly improves the performance of extremely long-context models such as Gemini 1.5 Pro, particularly on tasks with a smaller number of output classes.