MCiteBench: A Multimodal Benchmark for Generating Text with Citations
作者: Caiyu Hu, Yikai Zhang, Tinghui Zhu, Yiwei Ye, Yanghua Xiao
分类: cs.CL, cs.IR
发布日期: 2025-03-04 (更新: 2025-05-20)
备注: https://caiyuhu.github.io/MCiteBench/
💡 一句话要点
提出MCiteBench,评估多模态大语言模型生成带引用文本的能力,解决幻觉问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 大语言模型 幻觉问题 引用生成 基准数据集
📋 核心要点
- 现有MLLM易产生幻觉,缺乏可验证性,而带引用的文本生成是潜在解决方案,但多模态场景下的研究不足。
- 论文提出MCiteBench基准,包含学术论文和评审回复等多模态数据,用于评估MLLM生成带引用文本的能力。
- 实验表明MLLM在多模态输入下难以可靠生成,存在模态偏见,且模型内部依赖不同来源生成引用。
📝 摘要(中文)
多模态大语言模型(MLLM)在整合多种模态方面取得了进展,但经常出现幻觉问题。一个有希望的缓解方案是生成带有引用的文本,为验证提供透明的链条。然而,现有的工作主要集中在为纯文本内容生成引用,而多模态场景的挑战在很大程度上未被探索。在本文中,我们介绍了MCiteBench,这是第一个旨在评估MLLM在多模态上下文中生成带有引用的文本能力的基准。我们的基准包括来自学术论文和评审-回复互动的数据,具有多样化的信息来源和多模态内容。实验结果表明,MLLM在处理多模态输入时,很难可靠地确定其输出的基础。进一步的分析揭示了系统的模态偏见,并揭示了模型在生成引用时如何在内部依赖不同的来源,从而深入了解模型行为,并为多模态引用任务指导未来的方向。
🔬 方法详解
问题定义:现有的大语言模型,尤其是多模态大语言模型,在生成文本时容易产生幻觉,即生成的内容与事实不符或者无法溯源。虽然可以通过生成引用来提高文本的可信度,但是现有的研究主要集中在纯文本的场景下,缺乏对多模态场景下带引用文本生成能力的评估和研究。因此,如何评估和提升多模态大语言模型在生成文本时,能够准确地引用相关信息来源,是一个亟待解决的问题。
核心思路:论文的核心思路是构建一个专门用于评估多模态大语言模型生成带引用文本能力的基准数据集,即MCiteBench。通过这个基准数据集,可以系统地评估模型在处理多模态输入时,能否准确地识别和引用相关的信息来源,从而降低幻觉的产生。
技术框架:MCiteBench基准数据集主要包含两部分数据:一部分是学术论文数据,另一部分是评审-回复互动数据。这些数据都包含文本和图像等多种模态的信息。评估过程主要关注模型在生成文本时,能否正确地引用相关的论文或者评审意见。通过分析模型的引用行为,可以深入了解模型在处理多模态信息时的偏见和依赖关系。
关键创新:该论文的关键创新在于构建了第一个专门用于评估多模态大语言模型生成带引用文本能力的基准数据集MCiteBench。这个基准数据集的构建,填补了多模态场景下带引用文本生成评估的空白,为后续的研究提供了有力的工具。
关键设计:MCiteBench的数据来源于学术论文和评审-回复互动,保证了数据的多样性和真实性。在评估指标方面,论文主要关注模型生成引用的准确性,即模型生成的引用是否指向了正确的信息来源。此外,论文还分析了模型在生成引用时,对不同模态信息的依赖程度,以及存在的模态偏见。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有的MLLM在MCiteBench上表现不佳,难以可靠地根据多模态输入生成带引用的文本。分析揭示了模型存在系统性的模态偏见,且在生成引用时对不同信息来源的依赖程度不同。这些发现为未来多模态引用任务的研究方向提供了指导。
🎯 应用场景
该研究成果可应用于提升多模态信息生成系统的可靠性和可信度,例如智能文档生成、多模态对话系统、科研辅助工具等。通过提高模型生成内容的可追溯性,减少幻觉,增强用户信任。
📄 摘要(原文)
Multimodal Large Language Models (MLLMs) have advanced in integrating diverse modalities but frequently suffer from hallucination. A promising solution to mitigate this issue is to generate text with citations, providing a transparent chain for verification. However, existing work primarily focuses on generating citations for text-only content, leaving the challenges of multimodal scenarios largely unexplored. In this paper, we introduce MCiteBench, the first benchmark designed to assess the ability of MLLMs to generate text with citations in multimodal contexts. Our benchmark comprises data derived from academic papers and review-rebuttal interactions, featuring diverse information sources and multimodal content. Experimental results reveal that MLLMs struggle to ground their outputs reliably when handling multimodal input. Further analysis uncovers a systematic modality bias and reveals how models internally rely on different sources when generating citations, offering insights into model behavior and guiding future directions for multimodal citation tasks.