Graphs of Research: Citation Evolution Graphs as Supervision for Research Idea Generation

📄 arXiv: 2605.14790v1 📥 PDF

作者: Songyang Gao, Yinghui Xia, Siyi Liu, Hui Xiong

分类: cs.CL, cs.AI

发布日期: 2026-05-14


💡 一句话要点

提出Graphs of Research以解决研究创意生成中的引用关系问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 研究创意生成 引用演化图 大型语言模型 自动化科学研究 监督微调

📋 核心要点

  1. 现有方法主要依赖静态文献检索和复杂提示,未能充分利用引用之间的结构关系,限制了创意生成的效果。
  2. 本文提出Graphs of Research(GoR),通过提取2跳引用邻域并构建引用演化图,增强了对引用关系的理解。
  3. GoR-SFT在与gpt-4o基线模型的对抗赛中表现优异,达到了当前最先进的性能,展示了其在创意生成中的有效性。

📝 摘要(中文)

研究创意生成是自动化科学研究的创新驱动步骤。近年来,大型语言模型(LLMs)在大规模自动化创意生成方面展现出潜力。然而,现有方法主要依赖静态文献检索或复杂的提示工程,未能充分利用引用之间的结构关系。本文提出Graphs of Research(GoR),一种监督微调方法,通过提取每篇种子论文的2跳引用邻域,基于引用位置、频率、前驱链接和出版时间推导引用之间的关系,并将其组织成论文演化有向无环图(DAG)。我们构建了一个自动化提取管道,从五个主要的机器学习/自然语言处理会议中提取数据,包含498/50/50的训练/验证/测试种子论文和约7600个引用文献。通过对比实验,GoR-SFT在与gpt-4o驱动的基线模型的对抗赛中表现出色,证明了引用演化图作为LLM创意生成的监督信号的有效性。

🔬 方法详解

问题定义:本文旨在解决现有研究创意生成方法未能有效利用引用文献之间的结构关系的问题。现有方法往往依赖静态检索和复杂提示,导致创意生成的局限性。

核心思路:论文提出Graphs of Research(GoR),通过提取每篇种子论文的2跳引用邻域,利用引用的多种特征(如位置、频率等)构建引用演化图,从而为LLM提供更丰富的上下文信息。

技术框架:整体架构包括数据提取、引用关系构建和模型微调三个主要模块。首先,从五个主要的ML/NLP会议中提取种子论文及其引用文献;其次,基于引用特征构建有向无环图(DAG);最后,使用构建的图信息对Qwen2.5-7B-Instruct-1M进行微调。

关键创新:最重要的技术创新在于将引用演化图作为监督信号,显著提升了LLM在创意生成任务中的表现。这一方法与传统的静态检索方法本质上不同,强调了引用关系的动态性和结构性。

关键设计:在模型微调过程中,采用了结构化文本提示,包含引用图、边信号、参考信息和任务定义等,确保模型能够充分理解引用关系及其对创意生成的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在与gpt-4o驱动的基线模型的对抗赛中,GoR-SFT表现出色,达到了当前最先进的性能,证明了引用演化图作为监督信号的有效性,显著提升了创意生成的质量和效率。

🎯 应用场景

该研究的潜在应用领域包括自动化科学研究、文献综述生成和学术创意挖掘等。通过利用引用演化图,研究人员可以更高效地生成创新的研究想法,推动科学研究的进展,降低文献检索和创意生成的门槛。

📄 摘要(原文)

Research idea generation is the innovation-driving step of automated scientific research. Recently, large language models (LLMs) have shown potential for automating idea generation at scale. However, existing methods mainly condition LLMs on eliciting idea generation through static retrieval of relevant literature or complex prompt engineering, without discarding the structural relations among references. We propose Graphs of Research (GoR), a supervised fine-tuning method that extracts a 2-hop reference neighborhood for each seed paper, derives the relations among those references from citation position, frequency, predecessor links, and publication time, and organizes them into a paper-evolution directed acyclic graph (DAG). We construct an automated extraction pipeline that draws data from five major ML/NLP venues, comprising 498/50/50 train/validation/test seed papers and approximately 7,600 cited references. Qwen2.5-7B-Instruct-1M is fine-tuned on a structured-text prompt that includes the citation graph, edge signals, reference information, and task definition to predict the idea for the seed paper. Across head-to-head LLM-judge tournaments against gpt-4o-driven baselines, GoR-SFT achieves SOTA, demonstrating the effectiveness of citation-evolution graphs as supervision signal for LLM-based idea generation. We hope that this reduces the barrier for citation evolution graphs as a supervision, accelerating automated scientific innovation.