PaperAsk: A Benchmark for Reliability Evaluation of LLMs in Paper Search and Reading
作者: Yutao Wu, Xiao Liu, Yunhao Feng, Jiale Ding, Xingjun Ma
分类: cs.IR, cs.AI, cs.CL
发布日期: 2025-10-25
💡 一句话要点
PaperAsk:用于评估LLM在论文搜索和阅读中可靠性的基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 可靠性评估 学术搜索 信息抽取 基准数据集
📋 核心要点
- 现有方法难以系统评估LLM在学术任务中的可靠性,尤其是在模拟真实用户场景下。
- PaperAsk基准通过四个关键研究任务评估LLM,揭示其在引文检索、内容提取等方面的不足。
- 实验发现LLM在多引用检索等任务中存在高失败率,并分析了失败原因,提出了轻量级可靠性分类器。
📝 摘要(中文)
大型语言模型(LLMs)越来越多地被用作研究助手,但它们在学术任务中的可靠性仍未得到充分评估。本文提出了PaperAsk,一个系统性评估LLMs在四个关键研究任务中表现的基准:引文检索、内容提取、论文发现和声明验证。我们评估了GPT-4o、GPT-5和Gemini-2.5-Flash在真实使用条件下的表现——通过用户无法感知搜索操作的网络界面。受控实验表明,LLMs存在持续的可靠性问题:多引用查询的引文检索失败率高达48-98%,特定章节的内容提取失败率高达72-91%,主题论文发现的F1分数低于0.32,遗漏了超过60%的相关文献。进一步的人工分析表明,这些失败归因于检索上下文的不可控扩展以及LLMs优先考虑语义相关文本而非任务指令的倾向。在基本任务中,LLMs表现出不同的失败行为:ChatGPT通常会选择不回应,而不是冒险出错,而Gemini则会生成流畅但捏造的答案。为了解决这些问题,我们开发了在PaperAsk数据上训练的轻量级可靠性分类器,以识别不可靠的输出。PaperAsk提供了一个可复现和诊断的框架,用于推进基于LLM的学术辅助系统的可靠性评估。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)在学术研究任务中可靠性评估不足的问题。现有方法缺乏系统性的基准,难以在真实用户场景下评估LLMs在引文检索、内容提取、论文发现和声明验证等任务中的表现。现有方法的痛点在于无法准确衡量LLMs在处理学术信息时的可靠程度,以及识别其潜在的错误和偏差。
核心思路:论文的核心思路是构建一个名为PaperAsk的基准数据集,该数据集包含四个关键的学术研究任务,并设计相应的评估指标。通过在模拟真实用户场景下对LLMs进行评估,揭示其在不同任务中的可靠性问题,并分析导致这些问题的根本原因。此外,论文还提出了轻量级的可靠性分类器,用于识别LLMs生成的不可靠输出。
技术框架:PaperAsk基准的整体框架包括以下几个主要模块:1) 数据收集模块:收集包含引文、论文内容、主题信息和声明验证信息的数据。2) 任务定义模块:定义四个关键的学术研究任务,包括引文检索、内容提取、论文发现和声明验证。3) 评估模块:设计相应的评估指标,用于衡量LLMs在不同任务中的表现。4) LLM评估模块:在模拟真实用户场景下,使用PaperAsk基准评估GPT-4o、GPT-5和Gemini-2.5-Flash等LLMs。5) 可靠性分类器模块:训练轻量级的可靠性分类器,用于识别LLMs生成的不可靠输出。
关键创新:论文最重要的技术创新点在于提出了PaperAsk基准,该基准能够系统性地评估LLMs在学术研究任务中的可靠性。与现有方法相比,PaperAsk更加关注真实用户场景,并提供了更加全面的评估指标。此外,论文还提出了轻量级的可靠性分类器,能够有效识别LLMs生成的不可靠输出。
关键设计:PaperAsk基准的关键设计包括:1) 任务选择:选择了四个关键的学术研究任务,这些任务能够全面评估LLMs在处理学术信息时的能力。2) 数据收集:收集了高质量的学术数据,保证了评估的准确性。3) 评估指标:设计了合理的评估指标,能够准确衡量LLMs在不同任务中的表现。4) 模拟真实用户场景:在评估过程中,模拟真实用户场景,例如通过网络界面进行搜索,保证了评估的真实性。5) 可靠性分类器:使用了轻量级的模型结构,并采用了合适的训练策略,保证了分类器的效率和准确性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM在多引用查询的引文检索中失败率高达48-98%,特定章节内容提取失败率高达72-91%,主题论文发现的F1分数低于0.32,遗漏超过60%的相关文献。ChatGPT倾向于不回应以避免错误,而Gemini则生成流畅但虚构的答案。通过PaperAsk数据训练的轻量级可靠性分类器能够有效识别不可靠输出。
🎯 应用场景
该研究成果可应用于开发更可靠的LLM学术助手,辅助研究人员进行文献检索、内容提取和知识发现。通过PaperAsk基准,可以系统性地评估和改进LLM在学术领域的应用,提升科研效率和质量。未来,该研究可扩展到其他专业领域,构建更广泛的LLM可靠性评估体系。
📄 摘要(原文)
Large Language Models (LLMs) increasingly serve as research assistants, yet their reliability in scholarly tasks remains under-evaluated. In this work, we introduce PaperAsk, a benchmark that systematically evaluates LLMs across four key research tasks: citation retrieval, content extraction, paper discovery, and claim verification. We evaluate GPT-4o, GPT-5, and Gemini-2.5-Flash under realistic usage conditions-via web interfaces where search operations are opaque to the user. Through controlled experiments, we find consistent reliability failures: citation retrieval fails in 48-98% of multi-reference queries, section-specific content extraction fails in 72-91% of cases, and topical paper discovery yields F1 scores below 0.32, missing over 60% of relevant literature. Further human analysis attributes these failures to the uncontrolled expansion of retrieved context and the tendency of LLMs to prioritize semantically relevant text over task instructions. Across basic tasks, the LLMs display distinct failure behaviors: ChatGPT often withholds responses rather than risk errors, whereas Gemini produces fluent but fabricated answers. To address these issues, we develop lightweight reliability classifiers trained on PaperAsk data to identify unreliable outputs. PaperAsk provides a reproducible and diagnostic framework for advancing the reliability evaluation of LLM-based scholarly assistance systems.