SciClaimEval: Cross-modal Claim Verification in Scientific Papers
作者: Xanh Ho, Yun-Ang Wu, Sunisth Kumar, Tian Cheng Xia, Florian Boudin, Andre Greiner-Petter, Akiko Aizawa
分类: cs.CL
发布日期: 2026-02-07 (更新: 2026-02-13)
备注: Accepted at LREC 2026; 12 pages; data is available at https://sciclaimeval.github.io/
💡 一句话要点
SciClaimEval:提出一个科学论文中跨模态声明验证的新数据集
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 声明验证 科学论文 跨模态学习 多模态融合 数据集 图表理解 自然语言处理
📋 核心要点
- 现有声明验证数据集缺乏真实性,通常依赖于修改声明或使用LLM生成矛盾,真实性不足。
- SciClaimEval通过修改论文中的图表证据来生成被反驳的声明,保证了声明和证据的真实性。
- 实验表明,现有模型在基于图表的声明验证方面表现不佳,与人类水平存在显著差距,验证了数据集的挑战性。
📝 摘要(中文)
本文提出了SciClaimEval,一个用于声明验证任务的全新科学数据集。与现有资源不同,SciClaimEval包含直接从已发表论文中提取的真实声明,包括被反驳的声明。为了创建被反驳的声明,本文引入了一种新颖的方法,该方法修改支持性证据(图表),而不是改变声明或依赖大型语言模型(LLM)来捏造矛盾。该数据集提供具有多样化表示的跨模态证据:图以图像形式提供,而表以多种格式提供,包括图像、LaTeX 源码、HTML 和 JSON。SciClaimEval 包含来自机器学习、自然语言处理和医学三个领域的 180 篇论文的 1,664 个带注释的样本,并通过专家注释进行验证。本文在数据集上对 11 个多模态基础模型(开源和专有)进行了基准测试。结果表明,基于图的验证对所有模型仍然特别具有挑战性,因为最佳系统与人类基线之间仍然存在显着的性能差距。
🔬 方法详解
问题定义:现有声明验证数据集通常依赖于人工修改声明或使用大型语言模型生成矛盾,缺乏真实性,难以有效评估模型在真实场景下的表现。此外,现有数据集可能缺乏多样化的跨模态证据,限制了模型对不同类型证据的理解和推理能力。
核心思路:SciClaimEval的核心思路是通过修改科学论文中支持声明的图表证据来生成被反驳的声明,从而保证声明和证据的真实性。这种方法避免了直接修改声明或使用LLM生成矛盾,确保了数据集的可靠性和代表性。同时,数据集提供多种模态的证据,包括图像、LaTeX源码、HTML和JSON等,以促进跨模态理解和推理。
技术框架:SciClaimEval的构建流程主要包括以下几个步骤:1) 从科学论文中提取声明和对应的支持性证据(图表);2) 设计算法修改图表证据,使其与原始声明相矛盾,从而生成被反驳的声明;3) 对生成的声明进行专家注释,验证其真实性和合理性;4) 将声明和对应的证据以多种格式(图像、LaTeX源码、HTML、JSON)存储,构建最终的数据集。
关键创新:SciClaimEval的关键创新在于其生成被反驳声明的方法。与现有方法不同,SciClaimEval不是直接修改声明或使用LLM生成矛盾,而是通过修改支持性证据(图表)来创建被反驳的声明。这种方法保证了声明和证据的真实性,避免了引入人工噪声或语义偏差。
关键设计:SciClaimEval的数据集包含来自机器学习、自然语言处理和医学三个领域的180篇论文的1,664个带注释的样本。图表证据以多种格式提供,包括图像、LaTeX源码、HTML和JSON,以支持不同的模型架构和训练策略。数据集还提供了专家注释,用于验证声明的真实性和合理性,确保数据集的质量。
🖼️ 关键图片
📊 实验亮点
在SciClaimEval数据集上,对11个多模态基础模型进行了基准测试。实验结果表明,现有模型在基于图表的声明验证方面表现不佳,最佳系统与人类基线之间存在显著的性能差距。这表明,现有模型在理解和推理科学图表方面仍然存在挑战,需要进一步的研究和改进。
🎯 应用场景
SciClaimEval可用于训练和评估多模态模型在科学文档理解和声明验证方面的能力。该数据集可以促进开发更可靠的科学信息检索系统,帮助研究人员快速识别和验证科学论文中的声明,从而提高科研效率和质量。此外,该数据集还可以应用于自动评估科学论文的质量和可信度。
📄 摘要(原文)
We present SciClaimEval, a new scientific dataset for the claim verification task. Unlike existing resources, SciClaimEval features authentic claims, including refuted ones, directly extracted from published papers. To create refuted claims, we introduce a novel approach that modifies the supporting evidence (figures and tables), rather than altering the claims or relying on large language models (LLMs) to fabricate contradictions. The dataset provides cross-modal evidence with diverse representations: figures are available as images, while tables are provided in multiple formats, including images, LaTeX source, HTML, and JSON. SciClaimEval contains 1,664 annotated samples from 180 papers across three domains, machine learning, natural language processing, and medicine, validated through expert annotation. We benchmark 11 multimodal foundation models, both open-source and proprietary, across the dataset. Results show that figure-based verification remains particularly challenging for all models, as a substantial performance gap remains between the best system and human baseline.