From Cross-Task Examples to In-Task Prompts: A Graph-Based Pseudo-Labeling Framework for In-context Learning
作者: Zihan Chen, Song Wang, Xingbo Fu, Chengshuai Shi, Zhenyu Lei, Cong Shen, Jundong Li
分类: cs.AI
发布日期: 2025-10-28
💡 一句话要点
提出基于图的伪标签框架,利用跨任务示例提升上下文学习效率。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 上下文学习 伪标签 图标签传播 跨任务学习 低资源学习
📋 核心要点
- 上下文学习依赖高质量示例,但为新任务或复杂任务收集这些示例成本高昂。
- 利用易于获取的跨任务示例,结合图标签传播,为目标任务生成伪标签数据。
- 实验表明,该方法在降低标注成本的同时,显著提升了上下文学习的性能。
📝 摘要(中文)
本文提出了一种经济高效的两阶段流程,旨在减少对大型语言模型(LLM)进行数据标注的依赖。该方法首先利用现成的跨任务示例来提示LLM,并伪标记一小部分目标任务实例。然后,引入一种基于图的标签传播方法,将标签信息传播到剩余的目标示例,而无需额外的LLM查询。由此产生的完全伪标记数据集用于构建上下文学习(ICL)的任务内演示。该流程结合了跨任务监督的灵活性和无LLM传播的可扩展性。在五个任务上的实验表明,该方法在降低标注成本的同时实现了强大的性能。
🔬 方法详解
问题定义:上下文学习(ICL)依赖于高质量的输入-输出示例,但为新的或具有挑战性的任务获取这些示例既昂贵又耗时。现有的方法要么依赖大量的人工标注,要么直接使用LLM进行标注,但这些方法成本高昂,效率低下。
核心思路:本文的核心思路是利用容易获得的跨任务示例,先通过LLM对少量目标任务数据进行伪标注,然后利用图标签传播算法将这些标签传播到剩余的未标注数据,从而构建一个完全伪标注的数据集,用于上下文学习。这样既降低了对LLM的依赖,又提高了标注效率。
技术框架:该方法包含两个主要阶段:1) 跨任务伪标注:利用现成的跨任务示例提示LLM,对少量目标任务实例进行伪标注。2) 基于图的标签传播:构建一个图,节点代表目标任务的实例,边代表实例之间的相似度。然后,利用标签传播算法,将第一阶段获得的伪标签传播到剩余的未标注实例。最终,使用完全伪标注的数据集构建上下文学习的演示。
关键创新:该方法的主要创新在于结合了跨任务监督和图标签传播。传统的上下文学习方法依赖于人工标注或直接使用LLM标注,而该方法利用跨任务示例作为先验知识,并通过图标签传播实现高效的标签扩展,从而降低了标注成本。
关键设计:在跨任务伪标注阶段,需要选择合适的跨任务示例和提示语。在图标签传播阶段,需要选择合适的相似度度量方法和标签传播算法。论文中可能涉及一些超参数的设置,例如图的邻接矩阵的构建方式、标签传播算法的迭代次数等。具体的损失函数可能涉及到标签传播过程中的平滑性约束和一致性约束。
🖼️ 关键图片
📊 实验亮点
论文在五个不同的任务上进行了实验,证明了该方法的有效性。实验结果表明,该方法在降低标注成本的同时,能够达到与人工标注相近甚至更好的性能。具体的性能提升幅度和对比基线需要在论文中查找。
🎯 应用场景
该研究成果可应用于各种自然语言处理任务,尤其是在数据标注成本高昂或难以获取的情况下。例如,可以应用于低资源语言的文本分类、情感分析、机器翻译等任务。该方法能够降低对人工标注的依赖,提高模型训练效率,具有重要的实际应用价值。
📄 摘要(原文)
The capability of in-context learning (ICL) enables large language models (LLMs) to perform novel tasks without parameter updates by conditioning on a few input-output examples. However, collecting high-quality examples for new or challenging tasks can be costly and labor-intensive. In this work, we propose a cost-efficient two-stage pipeline that reduces reliance on LLMs for data labeling. Our approach first leverages readily available cross-task examples to prompt an LLM and pseudo-label a small set of target task instances. We then introduce a graph-based label propagation method that spreads label information to the remaining target examples without additional LLM queries. The resulting fully pseudo-labeled dataset is used to construct in-task demonstrations for ICL. This pipeline combines the flexibility of cross-task supervision with the scalability of LLM-free propagation. Experiments across five tasks demonstrate that our method achieves strong performance while lowering labeling costs.