ARISE: Agentic Rubric-Guided Iterative Survey Engine for Automated Scholarly Paper Generation

📄 arXiv: 2511.17689v1 📥 PDF

作者: Zi Wang, Xingqiao Wang, Sangah Lee, Xiaowei Xu

分类: cs.DL, cs.AI

发布日期: 2025-11-21

备注: 20 pages including an appendix, 7 figures and 6 tables

🔗 代码/项目: GITHUB


💡 一句话要点

ARISE:一种基于Agent和Rubric迭代的学术论文自动生成引擎

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动综述生成 Agent系统 Rubric引导 迭代改进 大型语言模型

📋 核心要点

  1. 现有自动综述生成方法在质量控制、格式和迭代反馈适应性方面存在不足,难以满足学术写作的严格要求。
  2. ARISE提出了一种基于Agent和Rubric的迭代框架,模拟学术写作流程,实现高质量的综述论文自动生成与改进。
  3. 实验表明,ARISE在全面性、准确性、格式和学术严谨性方面均优于现有系统,质量评分达到92.48。

📝 摘要(中文)

学术文献的快速增长给综合全面、高质量的学术综述带来了巨大挑战。Agent系统的最新进展为自动化传统上需要人类专业知识的任务(包括文献综述、综合和迭代改进)提供了相当大的希望。然而,现有的自动综述生成解决方案通常存在质量控制不足、格式不佳以及对迭代反馈的适应性有限等问题,而这些是学术写作固有的核心要素。为了解决这些局限性,我们介绍了一种Agentic Rubric引导的迭代综述引擎ARISE,用于自动生成和持续改进学术综述论文。ARISE采用模块化架构,由专门的大型语言模型Agent组成,每个Agent都镜像不同的学术角色,如主题扩展、引文管理、文献总结、手稿起草和基于同行评审的评估。ARISE的核心是一个Rubric引导的迭代改进循环,其中多个评审Agent使用结构化的、行为锚定的Rubric独立评估手稿草稿,并通过综合反馈系统地增强内容。

🔬 方法详解

问题定义:当前学术文献爆炸式增长,人工撰写高质量综述耗时费力。现有的自动综述生成系统在质量、格式和迭代改进方面存在不足,无法满足学术写作的严格标准,例如缺乏细粒度的质量评估和反馈机制。

核心思路:ARISE的核心思想是模拟人类学术写作流程,将综述论文的生成和改进过程分解为多个Agent协作完成的模块化任务。通过引入Rubric(评分标准)引导的迭代循环,实现对论文质量的持续评估和改进,从而提高生成综述的质量和学术严谨性。

技术框架:ARISE采用模块化架构,包含以下主要Agent: 1. Topic Expansion Agent:负责扩展综述的主题范围。 2. Citation Curation Agent:负责管理和筛选相关文献。 3. Literature Summarization Agent:负责总结文献内容。 4. Manuscript Drafting Agent:负责起草综述论文。 5. Reviewer Agents:多个评审Agent,使用Rubric独立评估手稿,提供反馈。 这些Agent在一个迭代循环中协同工作,Manuscript Drafting Agent根据Reviewer Agents的反馈不断改进论文。

关键创新:ARISE的关键创新在于引入了Rubric引导的迭代改进循环。Rubric是一种结构化的评分标准,用于细粒度地评估论文的各个方面(如全面性、准确性、格式等)。多个Reviewer Agents使用Rubric独立评估手稿,并提供详细的反馈。Manuscript Drafting Agent根据这些反馈进行改进,从而实现论文质量的持续提升。这种迭代改进机制模仿了人类学术写作中的同行评审过程。

关键设计:Rubric的设计是关键。论文中使用的Rubric包含多个维度,每个维度都有详细的描述和评分标准。Reviewer Agents使用这些标准对论文进行评分,并提供具体的改进建议。此外,论文还使用了特定的提示工程(Prompt Engineering)技术来指导各个Agent的行为,确保它们能够有效地完成各自的任务。具体参数设置和损失函数等细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ARISE在各项指标上均优于现有自动综述生成系统。具体而言,ARISE的平均Rubric对齐质量得分达到92.48,显著高于其他基线方法。在全面性、准确性、格式和学术严谨性等方面,ARISE也表现出明显的优势。这些结果表明,ARISE能够有效地生成高质量的学术综述。

🎯 应用场景

ARISE具有广泛的应用前景,可用于辅助研究人员快速生成高质量的学术综述,节省时间和精力。此外,该系统还可以用于教育领域,帮助学生学习学术写作规范和技巧。未来,ARISE有望应用于更广泛的知识生成和管理领域,例如自动生成行业报告、市场分析等。

📄 摘要(原文)

The rapid expansion of scholarly literature presents significant challenges in synthesizing comprehensive, high-quality academic surveys. Recent advancements in agentic systems offer considerable promise for automating tasks that traditionally require human expertise, including literature review, synthesis, and iterative refinement. However, existing automated survey-generation solutions often suffer from inadequate quality control, poor formatting, and limited adaptability to iterative feedback, which are core elements intrinsic to scholarly writing. To address these limitations, we introduce ARISE, an Agentic Rubric-guided Iterative Survey Engine designed for automated generation and continuous refinement of academic survey papers. ARISE employs a modular architecture composed of specialized large language model agents, each mirroring distinct scholarly roles such as topic expansion, citation curation, literature summarization, manuscript drafting, and peer-review-based evaluation. Central to ARISE is a rubric-guided iterative refinement loop in which multiple reviewer agents independently assess manuscript drafts using a structured, behaviorally anchored rubric, systematically enhancing the content through synthesized feedback. Evaluating ARISE against state-of-the-art automated systems and recent human-written surveys, our experimental results demonstrate superior performance, achieving an average rubric-aligned quality score of 92.48. ARISE consistently surpasses baseline methods across metrics of comprehensiveness, accuracy, formatting, and overall scholarly rigor. All code, evaluation rubrics, and generated outputs are provided openly at https://github.com/ziwang11112/ARISE