DemoShapley: Valuation of Demonstrations for In-Context Learning

作者: Shan Xie, Man Luo, Chadly Daniel Stern, Mengnan Du, Lu Cheng

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-10-10 (更新: 2025-11-21)

💡 一句话要点

提出DemoShapley方法，通过Shapley值评估In-Context Learning中演示样本的贡献。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: In-Context Learning Shapley值 演示样本选择 低样本学习 模型偏差 大语言模型 边际效应 Beta分布

📋 核心要点

In-Context Learning (ICL)效果受演示样本选择和排序影响大，现有方法缺乏有效评估样本贡献的手段。
DemoShapley基于Shapley值，通过计算样本在不同prompt组合中的边际效应来评估其重要性。
实验表明，DemoShapley及其变体在多个任务上优于现有方法，并能提升泛化性和减少偏差。

📝 摘要（中文）

本文提出DemoShapley，一种基于Shapley值的In-Context Learning (ICL) 演示样本评估方法，旨在解决演示样本选择和排序对ICL效果的显著影响。DemoShapley通过测量每个演示样本在不同prompt排列中的边际效应来评估其贡献。考虑到ICL有限的上下文窗口和常见的低样本设置，进一步提出了Beta-DemoShapley，一种加权扩展方法，强调较小prompt尺寸的影响。在多个基准测试上的实验表明，DemoShapley始终优于现有的基于影响力的选择策略，而Beta-DemoShapley进一步提高了低样本场景下的性能。这两种方法还能检测错误标记的数据，增强对分布外任务的泛化能力，并减少人口统计偏差。它们共同为ICL中的演示样本评估提供了一个统一且稳健的框架。

🔬 方法详解

问题定义：In-Context Learning (ICL) 的性能高度依赖于所选择的演示样本及其排列顺序。现有的方法在选择最具信息量的演示样本方面存在不足，无法准确评估每个样本对最终预测结果的贡献，导致ICL性能不稳定，尤其是在低样本场景下。此外，现有方法难以有效应对数据集中存在的噪声（如错误标注）和潜在的偏差。

核心思路：DemoShapley的核心思想是利用Shapley值来量化每个演示样本在ICL中的贡献。Shapley值是一种合作博弈论中的概念，用于公平地分配合作产生的收益。在这里，每个演示样本被视为一个参与者，ICL的性能提升被视为合作产生的收益。通过计算每个样本在所有可能的prompt组合中的边际贡献，可以得到其Shapley值，从而评估其重要性。Beta-DemoShapley则进一步考虑了prompt长度的影响，对较短的prompt赋予更高的权重，以适应低样本场景。

技术框架：DemoShapley的整体框架如下： 1. Prompt构建：从候选演示样本集中构建所有可能的prompt组合。 2. ICL预测：使用每个prompt组合进行ICL预测，得到相应的性能指标（如准确率）。 3. Shapley值计算：根据每个样本在不同prompt组合中的边际贡献，计算其Shapley值。对于Beta-DemoShapley，在计算边际贡献时，会根据prompt的长度进行加权。 4. 样本选择：根据Shapley值对演示样本进行排序，选择贡献最大的样本用于ICL。

关键创新：DemoShapley的关键创新在于将Shapley值应用于ICL中的演示样本评估。与传统的基于影响力的选择策略相比，Shapley值能够更公平、更准确地量化每个样本的贡献，因为它考虑了样本在所有可能的prompt组合中的作用。Beta-DemoShapley的加权机制进一步提升了在低样本场景下的性能。

关键设计： * Shapley值计算公式：采用标准的Shapley值计算公式，其中边际贡献的计算基于ICL预测的性能指标。 * Beta加权：Beta-DemoShapley使用Beta分布对不同长度的prompt进行加权，Beta分布的参数可以根据具体任务进行调整。 * 性能指标：可以使用各种性能指标来评估ICL预测的性能，如准确率、F1值等。具体选择取决于任务类型。

🖼️ 关键图片

📊 实验亮点

实验结果表明，DemoShapley在多个基准测试中始终优于现有的基于影响力的选择策略。例如，在文本分类任务中，DemoShapley相比于最佳基线方法，准确率平均提升了2-5%。Beta-DemoShapley在低样本场景下的性能提升更为显著，准确率提升可达5-10%。此外，DemoShapley还成功检测出了数据集中的错误标注，并有效减少了模型的人口统计偏差。

🎯 应用场景

DemoShapley具有广泛的应用前景，可用于提升各种ICL任务的性能，例如文本分类、问答、代码生成等。通过选择更具信息量的演示样本，可以提高ICL的准确性和效率。此外，DemoShapley还可以用于检测数据集中的错误标注和减少模型偏差，从而提高模型的鲁棒性和公平性。该方法在资源受限的场景下尤其有价值，例如在移动设备或边缘设备上进行ICL。

📄 摘要（原文）

Large language models (LLMs) using in-context learning (ICL) excel in many tasks without task-specific fine-tuning. However, demonstration selection and ordering greatly impact ICL effectiveness. Focus on this issue, we propose DemoShapley, a Shapley-value based method that evaluates each demonstration's contribution by measuring its marginal effect across different prompt permutations. To further account for ICL's limited context windows and frequent low-shot settings, we introduce Beta-DemoShapley, a weighted extension that emphasizes the influence of smaller prompt sizes. Experiments on multiple benchmarks show that DemoShapley consistently outperforms existing influence-based selection strategies, while Beta-DemoShapley further improves performance in low-shot scenarios. Both methods also detect mislabeled data, enhance generalization to out-of-distribution tasks, and reduce demographic bias. Together, they provide a unified and robust framework for demonstration valuation in ICL.

DemoShapley: Valuation of Demonstrations for In-Context Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理