LLM-Forest: Ensemble Learning of LLMs with Graph-Augmented Prompts for Data Imputation
作者: Xinrui He, Yikun Ban, Jiaru Zou, Tianxin Wei, Curtiss B. Cook, Jingrui He
分类: cs.LG, cs.CL
发布日期: 2024-10-28 (更新: 2025-08-23)
期刊: Findings of the Association for Computational Linguistics: ACL 2025
DOI: 10.18653/v1/2025.findings-acl.361
💡 一句话要点
提出LLM-Forest框架,通过图增强提示集成LLM进行数据插补
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 数据插补 大型语言模型 集成学习 图神经网络 提示学习
📋 核心要点
- 现有数据插补方法在处理复杂数据和利用领域知识方面存在不足,难以充分挖掘LLM的潜力。
- LLM-Forest框架通过构建二部信息图,增强LLM的提示信息,并采用集成学习的方式提高插补的准确性和鲁棒性。
- 实验结果表明,LLM-Forest在多个真实数据集上显著优于现有方法,证明了其有效性和效率。
📝 摘要(中文)
数据插补在医疗、金融等领域至关重要,因为数据的完整性对准确分析至关重要。大型语言模型(LLM)在海量语料库上训练,在数据生成方面表现出强大的潜力,使其成为数据插补的有希望的工具。然而,为无微调过程设计有效的提示,以及减轻LLM输出中的偏差和不确定性仍然存在挑战。为了解决这些问题,我们提出了一个新颖的框架LLM-Forest,它引入了一个“森林”,由多个基于少量样本提示学习的LLM“树”组成,这些“树”的输出通过基于置信度的加权投票进行聚合,该投票基于LLM的自我评估,灵感来自集成学习(随机森林)。该框架建立在二部信息图的新概念之上,以识别具有特征和值粒度的高质量相关邻近条目。在9个真实世界数据集上的大量实验证明了LLM-Forest的有效性和效率。
🔬 方法详解
问题定义:论文旨在解决数据插补问题,特别是在数据缺失严重且需要利用领域知识的情况下。现有方法,尤其是直接使用LLM进行数据插补的方法,面临着提示工程困难、LLM输出偏差和不确定性高等挑战。这些挑战限制了LLM在数据插补任务中的应用。
核心思路:论文的核心思路是利用集成学习的思想,构建一个由多个LLM“树”组成的“森林”。每棵“树”通过不同的提示进行数据插补,然后通过基于置信度的加权投票机制将它们的输出进行聚合。这种方法可以有效降低单个LLM的偏差,提高插补的准确性和鲁棒性。同时,论文还引入了二部信息图来增强提示信息,从而更好地利用领域知识。
技术框架:LLM-Forest框架主要包含以下几个模块:1) 二部信息图构建:构建一个二部图,节点包括特征和值,边表示特征和值之间的关系。2) 邻居选择:基于二部图,为每个缺失值选择相关的邻居节点,用于构建提示信息。3) 提示生成:利用选择的邻居节点信息,生成针对每个LLM“树”的提示。4) LLM推理:使用生成的提示,让每个LLM“树”进行数据插补。5) 置信度评估:每个LLM“树”对其自身的输出进行置信度评估。6) 加权投票:根据置信度,对每个LLM“树”的输出进行加权投票,得到最终的插补结果。
关键创新:论文的关键创新点在于:1) 提出了LLM-Forest框架,将集成学习的思想引入到LLM数据插补中。2) 引入了二部信息图来增强提示信息,从而更好地利用领域知识。3) 提出了基于置信度的加权投票机制,可以有效降低LLM的偏差。
关键设计:二部图的构建方式,邻居选择的策略,提示信息的生成方式,置信度评估的方法,以及加权投票的权重计算方式等都是关键的设计细节。例如,置信度评估可以基于LLM输出的概率分布,或者基于LLM对自身输出的自我评估。加权投票的权重可以基于置信度进行线性或非线性变换。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM-Forest在9个真实数据集上显著优于现有的数据插补方法。例如,在某些数据集上,LLM-Forest的性能提升超过10%。此外,实验还表明,LLM-Forest对LLM的偏差具有较强的鲁棒性,并且能够有效地利用领域知识。
🎯 应用场景
LLM-Forest框架可广泛应用于医疗、金融、社会科学等领域的数据插补任务。在医疗领域,可以用于填充患者病历中的缺失数据,从而提高诊断的准确性。在金融领域,可以用于填充信用评分数据中的缺失值,从而提高风险评估的准确性。该研究有助于提高数据分析的质量和效率,为决策提供更可靠的依据。
📄 摘要(原文)
Missing data imputation is a critical challenge in various domains, such as healthcare and finance, where data completeness is vital for accurate analysis. Large language models (LLMs), trained on vast corpora, have shown strong potential in data generation, making them a promising tool for data imputation. However, challenges persist in designing effective prompts for a finetuning-free process and in mitigating biases and uncertainty in LLM outputs. To address these issues, we propose a novel framework, LLM-Forest, which introduces a "forest" of few-shot prompt learning LLM "trees" with their outputs aggregated via confidence-based weighted voting based on LLM self-assessment, inspired by the ensemble learning (Random Forest). This framework is established on a new concept of bipartite information graphs to identify high-quality relevant neighboring entries with both feature and value granularity. Extensive experiments on 9 real-world datasets demonstrate the effectiveness and efficiency of LLM-Forest.