APE: Active Learning-based Tooling for Finding Informative Few-shot Examples for LLM-based Entity Matching
作者: Kun Qian, Yisi Sang, Farima Fatahi Bayat, Anton Belyi, Xianqi Chu, Yash Govind, Samira Khorshidi, Rahul Khot, Katherine Luna, Azadeh Nikfarjam, Xiaoguang Qi, Fei Wu, Xianhan Zhang, Yunyao Li
分类: cs.CL
发布日期: 2024-07-29
备注: 3 pages, Proceedings of the Fifth Workshop on Data Science with Human-in-the-Loop (DaSH 2024)
💡 一句话要点
APE:基于主动学习的工具,用于为LLM实体匹配寻找信息量大的少量样本
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 主动学习 Prompt工程 大型语言模型 实体匹配 人机协作
📋 核心要点
- Prompt工程依赖人工,为LLM寻找有效的少量样本费时费力,存在效率瓶颈。
- APE工具利用主动学习,迭代选择信息量最大的样本让人工标注,提升prompt质量。
- APE通过人机协作,优化LLM的prompt,提高其在实体匹配任务中的性能。
📝 摘要(中文)
Prompt工程是一个迭代过程,通常需要大量的人工来制定合适的指令,以有效地指导大型语言模型(LLM)完成特定任务。 结合少量样本是为LLM提供精确指令的一种重要且有效的方法,从而提高LLM的性能。 然而,为LLM识别最具信息量的演示样本是劳动密集型的,通常需要筛选大量的搜索空间。 在本次演示中,我们展示了一个名为APE(主动Prompt工程)的人机协作工具,该工具旨在通过主动学习来改进prompt。 APE从主动学习中汲取灵感,迭代地选择最不明确的示例以获取人工反馈,这些反馈将被转换为prompt中的少量样本。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在实体匹配任务中,如何高效地选择最具信息量的少量样本(few-shot examples)的问题。现有方法依赖人工筛选,效率低下,且难以在庞大的搜索空间中找到最优的样本组合。这导致prompt工程耗时费力,阻碍了LLM在实体匹配任务中的应用。
核心思路:APE的核心思路是借鉴主动学习的思想,通过迭代地选择LLM预测最不确定的样本,让人工进行标注,并将这些标注后的样本作为few-shot examples加入到prompt中。这样可以逐步提升prompt的质量,提高LLM在实体匹配任务中的性能。
技术框架:APE工具采用人机协作的框架。首先,LLM基于初始prompt对实体对进行匹配预测。然后,APE根据LLM的预测结果,选择置信度最低(即最不确定)的实体对,提交给人工进行标注。人工标注的结果被转化为few-shot examples,加入到prompt中,用于下一轮的LLM预测。这个过程迭代进行,直到达到预定的性能指标或迭代次数。
关键创新:APE的关键创新在于将主动学习的思想引入到LLM的prompt工程中。与传统的prompt工程方法相比,APE能够自动地选择最具信息量的样本进行标注,从而大大减少了人工工作量,提高了prompt工程的效率。此外,APE还能够根据LLM的反馈,动态地调整prompt,使其更好地适应特定的实体匹配任务。
关键设计:APE的关键设计包括:1) 不确定性度量:用于衡量LLM对每个样本预测的不确定性,例如可以使用预测概率的熵或方差。2) 样本选择策略:用于从所有样本中选择不确定性最高的样本,例如可以选择top-k个不确定性最高的样本。3) prompt构建方法:用于将人工标注的样本转化为few-shot examples,并将其加入到prompt中。具体实现细节未知。
📊 实验亮点
由于是demo论文,没有提供具体的实验结果。论文展示了一个人机协作的工具APE,该工具旨在通过主动学习来改进prompt,从而提高LLM在实体匹配任务中的性能。通过迭代地选择最不明确的示例以获取人工反馈,这些反馈将被转换为prompt中的少量样本。具体性能提升幅度未知。
🎯 应用场景
APE工具可广泛应用于各种需要使用LLM进行实体匹配的场景,例如知识图谱构建、数据集成、产品匹配等。通过减少人工标注工作量,提高prompt工程效率,APE能够加速LLM在这些领域的应用,并提升实体匹配的准确性和效率。未来,APE可以扩展到其他自然语言处理任务,例如文本分类、情感分析等。
📄 摘要(原文)
Prompt engineering is an iterative procedure often requiring extensive manual effort to formulate suitable instructions for effectively directing large language models (LLMs) in specific tasks. Incorporating few-shot examples is a vital and effective approach to providing LLMs with precise instructions, leading to improved LLM performance. Nonetheless, identifying the most informative demonstrations for LLMs is labor-intensive, frequently entailing sifting through an extensive search space. In this demonstration, we showcase a human-in-the-loop tool called APE (Active Prompt Engineering) designed for refining prompts through active learning. Drawing inspiration from active learning, APE iteratively selects the most ambiguous examples for human feedback, which will be transformed into few-shot examples within the prompt. The demo recording can be found with the submission or be viewed at https://youtu.be/OwQ6MQx53-Y.