The Gaining Paths to Investment Success: Information-Driven LLM Graph Reasoning for Venture Capital Prediction

📄 arXiv: 2512.23489v2 📥 PDF

作者: Haoyu Pei, Zhongyang Liu, Xiangyi Xiao, Xiaocong Du, Suting Hong, Kunpeng Zhang, Haipeng Zhang

分类: cs.AI

发布日期: 2025-12-29 (更新: 2026-01-03)


💡 一句话要点

提出MIRAGE-VC,利用信息增益驱动的LLM图推理进行风险投资预测。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 风险投资预测 图神经网络 大型语言模型 信息增益 多智能体系统

📋 核心要点

  1. 传统方法难以有效整合公司信息、投资记录和网络结构进行风险投资预测,缺乏可解释的推理过程。
  2. MIRAGE-VC利用信息增益驱动的路径检索,将投资网络提炼成紧凑链条,并结合多智能体架构融合异构证据。
  3. 实验表明,MIRAGE-VC在风险投资预测中F1提升5.0%,PrecisionAt5提升16.6%,显著优于现有方法。

📝 摘要(中文)

风险投资(VC)中,多数投资失败,少数带来超额回报。准确预测初创企业成功需要综合复杂的关联证据,包括公司披露信息、投资者业绩记录和投资网络结构,并通过显式推理形成连贯、可解释的投资论点。传统机器学习和图神经网络都缺乏这种推理能力。大型语言模型(LLM)具有强大的推理能力,但与图存在模态不匹配。现有的图-LLM方法主要针对答案位于图内的任务,而VC预测是图外的:目标存在于网络之外。核心挑战是选择最大化外部目标预测性能的图路径,同时实现逐步推理。我们提出了MIRAGE-VC,一个多视角检索增强生成框架,解决了路径爆炸(数千条候选路径淹没LLM上下文)和异构证据融合(不同的初创公司需要不同的分析重点)两个障碍。我们的信息增益驱动的路径检索器迭代地选择高价值邻居,将投资网络提炼成紧凑的链条以进行显式推理。一个多智能体架构通过基于公司属性的可学习门控机制整合三个证据流。在严格的反泄露控制下,MIRAGE-VC实现了+5.0%的F1和+16.6%的PrecisionAt5,并揭示了其他图外预测任务,如推荐和风险评估。

🔬 方法详解

问题定义:论文旨在解决风险投资预测问题,即如何准确预测初创企业的成功率。现有方法,如传统机器学习和图神经网络,难以有效整合公司披露信息、投资者业绩记录和投资网络结构等复杂关系证据,并且缺乏可解释的推理过程。大型语言模型虽然具有推理能力,但与图数据的模态不匹配,难以直接应用。

核心思路:论文的核心思路是利用信息增益来指导图路径的选择,从而将复杂的投资网络提炼成紧凑的、信息量大的路径,然后利用大型语言模型在这些路径上进行推理。这种方法旨在解决路径爆炸问题,并使LLM能够专注于最有价值的证据。同时,采用多智能体架构来融合来自不同来源的异构证据,并根据公司属性动态调整分析重点。

技术框架:MIRAGE-VC框架主要包含两个阶段:路径检索和证据融合。首先,信息增益驱动的路径检索器迭代地选择高价值邻居,将投资网络提炼成紧凑的链条。然后,一个多智能体架构利用可学习的门控机制整合三个证据流:公司信息、投资者信息和网络结构信息。最后,利用LLM在融合的证据上进行推理,预测初创企业的成功率。

关键创新:该论文的关键创新在于提出了一种信息增益驱动的路径检索方法,用于从复杂的投资网络中提取最有价值的证据。与现有图-LLM方法不同,MIRAGE-VC专注于图外预测任务,即预测目标存在于网络之外。此外,多智能体架构和可学习的门控机制能够有效地融合来自不同来源的异构证据,并根据公司属性动态调整分析重点。

关键设计:信息增益的计算方式是基于节点连接后,预测目标不确定性的降低程度。路径检索器迭代地选择信息增益最高的邻居,直到达到预设的路径长度。多智能体架构包含三个智能体,分别负责处理公司信息、投资者信息和网络结构信息。可学习的门控机制使用一个神经网络来学习不同证据流的权重,权重的大小取决于公司属性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MIRAGE-VC在风险投资预测任务中取得了显著的性能提升,F1值提高了5.0%,PrecisionAt5提高了16.6%。这些结果表明,MIRAGE-VC能够有效地整合复杂的关联证据,并通过显式推理提高预测准确性。

🎯 应用场景

MIRAGE-VC可应用于风险投资领域的项目评估和投资决策,帮助投资者更准确地预测初创企业的成功率,降低投资风险。此外,该方法也可推广到其他图外预测任务,如推荐系统和风险评估,具有广泛的应用前景。

📄 摘要(原文)

Most venture capital (VC) investments fail, while a few deliver outsized returns. Accurately predicting startup success requires synthesizing complex relational evidence, including company disclosures, investor track records, and investment network structures, through explicit reasoning to form coherent, interpretable investment theses. Traditional machine learning and graph neural networks both lack this reasoning capability. Large language models (LLMs) offer strong reasoning but face a modality mismatch with graphs. Recent graph-LLM methods target in-graph tasks where answers lie within the graph, whereas VC prediction is off-graph: the target exists outside the network. The core challenge is selecting graph paths that maximize predictor performance on an external objective while enabling step-by-step reasoning. We present MIRAGE-VC, a multi-perspective retrieval-augmented generation framework that addresses two obstacles: path explosion (thousands of candidate paths overwhelm LLM context) and heterogeneous evidence fusion (different startups need different analytical emphasis). Our information-gain-driven path retriever iteratively selects high-value neighbors, distilling investment networks into compact chains for explicit reasoning. A multi-agent architecture integrates three evidence streams via a learnable gating mechanism based on company attributes. Under strict anti-leakage controls, MIRAGE-VC achieves +5.0% F1 and +16.6% PrecisionAt5, and sheds light on other off-graph prediction tasks such as recommendation and risk assessment. Code: https://anonymous.4open.science/r/MIRAGE-VC-323F.