Random Rule Forest (RRF): Interpretable Ensembles of LLM-Generated Questions for Predicting Startup Success
作者: Ben Griffin, Diego Vidaurre, Ugur Koyluoglu, Joseph Ternasky, Fuat Alican, Yigit Ihlamur
分类: cs.AI, cs.LG
发布日期: 2025-05-30 (更新: 2025-09-15)
备注: 13 pages including appendix, 4 figures
💡 一句话要点
提出随机规则森林(RRF),利用LLM生成问题进行可解释的创业成功预测。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 创业成功预测 大型语言模型 集成学习 可解释性 自然语言问题
📋 核心要点
- 现有预测创业成功的方法缺乏可解释性,难以支持风险投资决策。
- RRF利用LLM生成自然语言问题作为弱学习器,并通过集成学习提升预测性能和可解释性。
- 实验表明,RRF在创业成功预测任务上显著优于现有方法,并受益于人-LLM协作。
📝 摘要(中文)
预测创业成功等罕见事件对于风险投资至关重要,这需要模型既准确又可解释。本文介绍了一种轻量级的集成方法——随机规则森林(RRF),它使用大型语言模型(LLM)生成简单的自然语言YES/NO问题。每个问题作为一个弱学习器,它们的回答通过基于阈值的投票规则组合起来,形成一个强大的、可解释的预测器。在包含9892名创始人的数据集上应用RRF,在留存数据上实现了比随机基线6.9倍的改进;添加专家设计的问答后,这一改进提升至8倍,突出了人-LLM协作的价值。与三种LLM架构上的零样本和少样本基线相比,RRF达到了0.121的F0.5分数,而最佳基线为0.086(绝对提升+0.035,相对提升+41%)。通过结合LLM的创造性和集成学习的严谨性,RRF提供了适用于高风险领域决策的可解释、高精度预测。
🔬 方法详解
问题定义:论文旨在解决创业成功预测问题,现有方法通常难以兼顾预测精度和模型的可解释性,导致决策者难以理解预测结果背后的逻辑,从而影响投资决策。现有方法的痛点在于缺乏透明度和可信度。
核心思路:论文的核心思路是利用大型语言模型(LLM)的生成能力,自动生成一系列简单、可理解的自然语言问题,每个问题作为一个弱学习器。通过集成这些弱学习器的预测结果,构建一个既准确又可解释的强预测器。这种方法借鉴了集成学习的思想,同时利用了LLM的知识和推理能力。
技术框架:RRF的整体框架包括以下几个主要阶段: 1. 问题生成:使用LLM生成一系列YES/NO问题,这些问题旨在捕捉影响创业成功的关键因素。 2. 数据标注:使用生成的问题对数据集中的每个样本进行标注,得到每个样本对每个问题的回答(YES或NO)。 3. 弱学习器训练:每个问题及其对应的回答被视为一个弱学习器。 4. 集成预测:通过基于阈值的投票规则,将所有弱学习器的预测结果组合起来,得到最终的预测结果。
关键创新:RRF最重要的技术创新点在于将LLM的生成能力与集成学习相结合,创造性地使用LLM生成自然语言问题作为弱学习器。与传统的特征工程方法相比,这种方法能够自动发现潜在的影响因素,并提供更具可解释性的预测结果。与直接使用LLM进行预测相比,RRF通过集成多个弱学习器,提高了预测的鲁棒性和准确性。
关键设计:RRF的关键设计包括: 1. LLM Prompt设计:设计合适的prompt,引导LLM生成高质量的问题。 2. 阈值投票规则:选择合适的阈值,平衡预测的精度和召回率。 3. 问题筛选:对生成的问题进行筛选,去除冗余或无效的问题。 4. 人-LLM协作:允许专家人工添加或修改问题,进一步提高模型的性能。
🖼️ 关键图片
📊 实验亮点
RRF在创业成功预测任务上取得了显著的性能提升,相较于随机基线,在留存数据上实现了6.9倍的改进。通过添加专家设计的问答,性能提升至8倍,验证了人-LLM协作的有效性。与零样本和少样本基线相比,RRF的F0.5分数提高了41%(绝对提升0.035)。
🎯 应用场景
RRF可应用于风险投资、创业孵化等领域,帮助投资者和创业者评估创业项目的成功概率。该方法的可解释性使得决策者能够理解预测结果背后的原因,从而做出更明智的决策。未来,RRF可以扩展到其他高风险、低频事件的预测,例如疾病诊断、金融欺诈检测等。
📄 摘要(原文)
Predicting rare outcomes such as startup success is central to venture capital, demanding models that are both accurate and interpretable. We introduce Random Rule Forest (RRF), a lightweight ensemble method that uses a large language model (LLM) to generate simple YES/NO questions in natural language. Each question functions as a weak learner, and their responses are combined using a threshold-based voting rule to form a strong, interpretable predictor. Applied to a dataset of 9,892 founders, RRF achieves a 6.9x improvement over a random baseline on held-out data; adding expert-crafted questions lifts this to 8x and highlights the value of human-LLM collaboration. Compared with zero- and few-shot baselines across three LLM architectures, RRF attains an F0.5 of 0.121, versus 0.086 for the best baseline (+0.035 absolute, +41% relative). By combining the creativity of LLMs with the rigor of ensemble learning, RRF delivers interpretable, high-precision predictions suitable for decision-making in high-stakes domains.