OpenScholar: Synthesizing Scientific Literature with Retrieval-augmented LMs

作者: Akari Asai, Jacqueline He, Rulin Shao, Weijia Shi, Amanpreet Singh, Joseph Chee Chang, Kyle Lo, Luca Soldaini, Sergey Feldman, Mike D'arcy, David Wadden, Matt Latzke, Minyang Tian, Pan Ji, Shengyan Liu, Hao Tong, Bohao Wu, Yanyu Xiong, Luke Zettlemoyer, Graham Neubig, Dan Weld, Doug Downey, Wen-tau Yih, Pang Wei Koh, Hannaneh Hajishirzi

分类: cs.CL, cs.AI, cs.DL, cs.IR, cs.LG

发布日期: 2024-11-21

💡 一句话要点

OpenScholar：利用检索增强的语言模型合成科学文献

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 科学文献检索 检索增强语言模型 文献综述 问答系统 大型语言模型

📋 核心要点

现有方法难以有效综合海量科学文献，阻碍了科研进展，需要更强大的工具辅助研究人员。
OpenScholar通过检索相关文献段落，并利用大型语言模型合成带有引用的答案，提升了文献综述的效率和准确性。
实验表明，OpenScholar在文献搜索和答案生成方面优于GPT-4o等模型，且引用准确性与人类专家相当。

📝 摘要（中文）

科学进步依赖于研究人员综合日益增长的文献的能力。大型语言模型（LMs）能否协助科学家完成这项任务？我们介绍了OpenScholar，一种专门的检索增强型LM，它通过识别来自4500万篇开放获取论文的相关段落并合成带有引用的回复来回答科学查询。为了评估OpenScholar，我们开发了ScholarQABench，这是第一个大规模多领域文献搜索基准，包含计算机科学、物理学、神经科学和生物医学领域的2,967个专家编写的查询和208个长篇答案。在ScholarQABench上，OpenScholar-8B在正确性方面优于GPT-4o 5%和PaperQA2 7%，尽管它是一个更小的开放模型。虽然GPT4o有78%到90%的时间会产生幻觉引用，但OpenScholar实现了与人类专家相当的引用准确性。OpenScholar的数据存储、检索器和自我反馈推理循环也改进了现成的LM：例如，OpenScholar-GPT4o将GPT-4o的正确性提高了12%。在人工评估中，专家更喜欢OpenScholar-8B和OpenScholar-GPT4o的回复，分别有51%和70%的时间超过专家编写的回复，而GPT4o的这一比例为32%。我们开源了所有的代码、模型、数据存储、数据和一个公共演示。

🔬 方法详解

问题定义：当前科研人员面临着海量科学文献的挑战，难以快速准确地找到所需信息并进行有效综合。现有方法，包括传统搜索引擎和大型语言模型，在处理科学文献时存在不足，例如检索结果相关性低、答案缺乏引用支持、容易产生幻觉引用等。

核心思路：OpenScholar的核心思路是利用检索增强的语言模型，将信息检索和文本生成相结合。首先，通过高效的检索器从大规模科学文献库中找到与查询相关的段落；然后，利用大型语言模型对检索到的段落进行理解和综合，生成带有引用的答案。这种方法可以有效提高答案的准确性和可靠性。

技术框架：OpenScholar的技术框架主要包括以下几个模块：1) 数据存储：构建包含4500万篇开放获取论文的数据存储。2) 检索器：使用高效的检索器（具体检索器类型未知）从数据存储中检索相关段落。3) 语言模型：使用大型语言模型（如OpenScholar-8B、GPT-4o）对检索到的段落进行理解和综合，生成答案。4) 自我反馈推理循环：利用自我反馈机制进一步提升答案的质量。

关键创新：OpenScholar的关键创新在于其将检索增强与语言模型相结合，并针对科学文献的特点进行了优化。与传统的语言模型相比，OpenScholar能够提供更准确、更可靠的答案，并支持引用。此外，OpenScholar的自我反馈推理循环也是一个重要的创新点，可以进一步提升答案的质量。

关键设计：论文中提到OpenScholar-8B是一个较小的开放模型，但具体参数设置、损失函数、网络结构等技术细节未知。论文强调了数据存储、检索器和自我反馈推理循环的重要性，但没有提供具体的实现细节。OpenScholar-GPT4o的实现方式也未知，推测可能是将OpenScholar的检索结果作为GPT-4o的输入。

🖼️ 关键图片

📊 实验亮点

OpenScholar-8B在ScholarQABench上，正确性方面优于GPT-4o 5%，优于PaperQA2 7%，且模型规模更小。OpenScholar的引用准确性与人类专家相当，显著优于GPT-4o（GPT-4o幻觉引用率高达78%-90%）。OpenScholar-GPT4o将GPT-4o的正确性提高了12%。在人工评估中，专家更喜欢OpenScholar-8B和OpenScholar-GPT4o的回复，分别有51%和70%的时间超过专家编写的回复，而GPT4o的这一比例为32%。

🎯 应用场景

OpenScholar可应用于科研文献综述、科研问题解答、辅助科研决策等领域。它可以帮助科研人员快速找到相关文献，提高文献综述的效率和质量，从而加速科研进展。此外，OpenScholar还可以作为科研教育工具，帮助学生学习和理解科学知识。

📄 摘要（原文）

Scientific progress depends on researchers' ability to synthesize the growing body of literature. Can large language models (LMs) assist scientists in this task? We introduce OpenScholar, a specialized retrieval-augmented LM that answers scientific queries by identifying relevant passages from 45 million open-access papers and synthesizing citation-backed responses. To evaluate OpenScholar, we develop ScholarQABench, the first large-scale multi-domain benchmark for literature search, comprising 2,967 expert-written queries and 208 long-form answers across computer science, physics, neuroscience, and biomedicine. On ScholarQABench, OpenScholar-8B outperforms GPT-4o by 5% and PaperQA2 by 7% in correctness, despite being a smaller, open model. While GPT4o hallucinates citations 78 to 90% of the time, OpenScholar achieves citation accuracy on par with human experts. OpenScholar's datastore, retriever, and self-feedback inference loop also improves off-the-shelf LMs: for instance, OpenScholar-GPT4o improves GPT-4o's correctness by 12%. In human evaluations, experts preferred OpenScholar-8B and OpenScholar-GPT4o responses over expert-written ones 51% and 70% of the time, respectively, compared to GPT4o's 32%. We open-source all of our code, models, datastore, data and a public demo.

OpenScholar: Synthesizing Scientific Literature with Retrieval-augmented LMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理