Document-as-Image Representations Fall Short for Scientific Retrieval

📄 arXiv: 2604.18508v1 📥 PDF

作者: Ghazal Khalighinejad, Raghuveer Thirukovalluru, Alexander H. Oh, Bhuwan Dhingra

分类: cs.IR, cs.AI, cs.CL

发布日期: 2026-04-20


💡 一句话要点

揭示文档图像表征在科学文档检索中的局限性,并提出基于LaTeX源的新基准。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 科学文档检索 文档表征 多模态学习 LaTeX ArXivDoc 文本检索 图像检索

📋 核心要点

  1. 现有科学文档检索基准偏向于文档图像表征,忽略了文本结构化信息的价值。
  2. 提出ArXivDoc基准,利用LaTeX源文件构建,支持基于文本、表格、图表的细粒度查询。
  3. 实验表明,文本表征优于图像表征,即使是图表相关的查询,文本也能提供有效信息。

📝 摘要(中文)

许多最新的文档嵌入模型在文档图像表征上进行训练,将渲染后的页面作为图像嵌入,而不是底层的源文件。同时,现有的科学文档检索基准,如ArXivQA和ViDoRe,将文档视为页面的图像,隐含地偏向于这种表征。本文认为,这种范式不适合于富含文本的多模态科学文档,其中关键证据分布在结构化来源中,包括文本、表格和图表。为了研究这种情况,我们引入了ArXivDoc,这是一个从科学论文的底层LaTeX源构建的新基准。与PDF或基于图像的表征不同,LaTeX可以直接访问结构化元素(例如,章节、表格、图表、公式),从而能够构建基于特定证据类型的受控查询。我们系统地比较了文本、图像和多模态表征在单向量和多向量检索模型中的表现。结果表明:(1)文档图像表征始终不是最优的,尤其是在文档长度增加时;(2)基于文本的表征最有效,即使对于基于图表的查询,也能通过利用标题和周围上下文来实现;(3)交错的文本+图像表征优于文档图像方法,且不需要专门的训练。

🔬 方法详解

问题定义:现有科学文档检索方法,特别是基于文档图像表征的方法,在处理富含文本和结构化信息(如表格、图表)的科学文档时表现不佳。这些方法无法有效利用文档的底层结构信息,导致检索性能下降。现有基准也存在偏向性,不利于评估真正有效的文档表征方法。

核心思路:论文的核心思路是利用科学文档的LaTeX源文件,直接获取文档的结构化信息,从而构建更有效的文档表征。通过对比文本、图像和多模态表征,揭示文档图像表征的局限性,并验证基于文本的表征在科学文档检索中的优势。

技术框架:论文主要包含以下几个部分:1)构建新的基准数据集ArXivDoc,该数据集基于LaTeX源文件,包含结构化的文本、表格和图表信息。2)实现和评估不同的文档表征方法,包括文本表征、图像表征和多模态表征。3)设计实验,对比这些表征方法在单向量和多向量检索模型中的性能。4)分析实验结果,揭示文档图像表征的局限性,并验证基于文本的表征的有效性。

关键创新:论文的关键创新在于:1)提出了ArXivDoc基准数据集,该数据集能够更真实地反映科学文档的结构化特征,并支持更细粒度的查询。2)系统地对比了文本、图像和多模态表征在科学文档检索中的性能,揭示了文档图像表征的局限性。3)验证了基于文本的表征在科学文档检索中的优势,即使对于图表相关的查询,文本也能提供有效信息。

关键设计:ArXivDoc数据集的关键设计在于利用LaTeX源文件,直接获取文档的结构化信息,包括章节、表格、图表和公式等。实验中,文本表征方法主要利用文档的标题、摘要、章节标题和图表标题等信息。图像表征方法则将文档渲染成图像,然后使用图像嵌入模型进行表征。多模态表征方法则将文本和图像信息进行融合,例如,将文本嵌入和图像嵌入进行拼接或加权平均。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在ArXivDoc数据集上,基于文本的表征方法在科学文档检索中表现最佳,即使对于图表相关的查询,其性能也优于基于图像的表征方法。文档长度增加时,文档图像表征的性能显著下降。交错的文本+图像表征优于文档图像方法,且不需要专门的训练。

🎯 应用场景

该研究成果可应用于改进科学文献检索系统,提高检索准确率和效率。通过利用文档的结构化信息,可以更好地理解文档内容,从而为科研人员提供更精准的文献推荐和知识发现服务。此外,该研究也为多模态文档表征和检索提供了新的思路。

📄 摘要(原文)

Many recent document embedding models are trained on document-as-image representations, embedding rendered pages as images rather than the underlying source. Meanwhile, existing benchmarks for scientific document retrieval, such as ArXivQA and ViDoRe, treat documents as images of pages, implicitly favoring such representations. In this work, we argue that this paradigm is not well-suited for text-rich multimodal scientific documents, where critical evidence is distributed across structured sources, including text, tables, and figures. To study this setting, we introduce ArXivDoc, a new benchmark constructed from the underlying LaTeX sources of scientific papers. Unlike PDF or image-based representations, LaTeX provides direct access to structured elements (e.g., sections, tables, figures, equations), enabling controlled query construction grounded in specific evidence types. We systematically compare text-only, image-based, and multimodal representations across both single-vector and multi-vector retrieval models. Our results show that: (1) document-as-image representations are consistently suboptimal, especially as document length increases; (2) text-based representations are most effective, even for figure-based queries, by leveraging captions and surrounding context; and (3) interleaved text+image representations outperform document-as-image approaches without requiring specialized training.