MITRA: An AI Assistant for Knowledge Retrieval in Physics Collaborations

📄 arXiv: 2603.09800v1 📥 PDF

作者: Abhishikth Mallampalli, Sridhara Dasu

分类: cs.IR, cs.AI, cs.CL

发布日期: 2026-03-10

备注: Accepted at NeurIPS 2025 Machine Learning for the Physical Sciences workshop and Lepton Photon conference 2025 (Computing AI/ML track)


💡 一句话要点

MITRA:用于物理合作中知识检索的AI助手,解决信息爆炸难题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 知识检索 检索增强生成 大型语言模型 物理合作 光学字符识别

📋 核心要点

  1. 大型物理实验产生海量文档,研究人员难以高效检索所需知识,阻碍科研进展。
  2. MITRA利用RAG架构,结合Selenium、OCR和双层向量数据库,实现精准知识检索。
  3. MITRA原型在实际查询中优于关键词检索基线,为构建全面研究代理奠定基础。

📝 摘要(中文)

大型科学合作项目,如CERN的紧凑渺子线圈(CMS),产生了海量且不断增长的内部文档。对于新老研究人员而言,如何有效地浏览和利用这些复杂的信息构成了一项重大挑战,阻碍了知识共享并减缓了科学发现的步伐。为了解决这个问题,我们提出了MITRA的原型,这是一个基于检索增强生成(RAG)的系统,旨在回答关于物理分析的特定、上下文感知的问题。MITRA采用了一种新颖的自动化流程,使用Selenium从内部数据库中检索文档,并结合光学字符识别(OCR)和布局解析来实现高保真文本提取。至关重要的是,MITRA的整个框架,从嵌入模型到大型语言模型(LLM),都部署在本地,确保敏感的合作数据保持私密性。我们引入了一种双层向量数据库架构,该架构首先从摘要中识别相关的分析,然后再关注完整的文档,从而解决不同分析之间潜在的歧义。我们通过实际查询展示了该原型相对于标准基于关键词的基线的卓越检索性能,并讨论了未来开发用于大型实验合作的综合研究代理的方向。

🔬 方法详解

问题定义:大型物理合作项目(如CMS)产生海量内部文档,研究人员面临知识检索的挑战。现有方法,如关键词检索,难以满足对上下文敏感的复杂查询需求,且无法有效处理文档中的噪声和歧义。因此,需要一种能够理解查询意图并精准检索相关信息的系统。

核心思路:MITRA的核心思路是利用检索增强生成(RAG)框架,结合自动化文档检索、高精度文本提取和双层向量数据库,实现对物理分析文档的精准知识检索。通过RAG,系统能够首先检索相关文档,然后利用大型语言模型(LLM)生成答案,从而提高检索的准确性和效率。

技术框架:MITRA的技术框架主要包括以下几个模块:1) 文档检索模块:使用Selenium自动化地从内部数据库中检索文档。2) 文本提取模块:利用OCR和布局解析技术,从文档中提取高保真文本。3) 向量数据库模块:采用双层向量数据库架构,第一层基于摘要进行分析级别的检索,第二层基于全文进行文档级别的检索。4) LLM模块:使用本地部署的LLM,基于检索到的文档生成答案。整个流程保证了数据的私密性和安全性。

关键创新:MITRA的关键创新在于:1) 自动化文档检索流程:使用Selenium实现自动化文档检索,提高了效率。2) 高精度文本提取:结合OCR和布局解析,提高了文本提取的准确性。3) 双层向量数据库架构:通过摘要和全文两层检索,提高了检索的精度和效率,解决了不同分析之间的歧义问题。4) 本地部署的LLM:保证了敏感数据的安全性。

关键设计:MITRA的关键设计包括:1) Selenium配置:针对特定内部数据库的Selenium脚本,需要根据数据库的结构进行定制。2) OCR和布局解析参数:需要根据文档的格式和质量进行调整,以获得最佳的文本提取效果。3) 向量数据库的索引策略:需要根据文档的特点和查询的类型进行优化,以提高检索的效率和精度。4) LLM的选择和微调:需要选择适合物理领域知识的LLM,并使用内部文档进行微调,以提高答案的质量和准确性。

🖼️ 关键图片

fig_0
img_1

📊 实验亮点

MITRA原型在实际查询中表现出优于标准关键词检索基线的性能。双层向量数据库架构能够有效区分不同分析之间的潜在歧义,提高检索精度。整个系统部署在本地,保证了敏感数据的安全性。这些结果表明MITRA在解决大型科研合作项目中的知识检索问题方面具有潜力。

🎯 应用场景

MITRA可应用于大型科研合作项目中的知识管理与检索,加速科研人员获取所需信息的速度,提高科研效率。该系统也可扩展到其他领域,如医学、法律等,为专业人士提供高效的知识检索服务,促进知识共享和创新。

📄 摘要(原文)

Large-scale scientific collaborations, such as the Compact Muon Solenoid (CMS) at CERN, produce a vast and ever-growing corpus of internal documentation. Navigating this complex information landscape presents a significant challenge for both new and experienced researchers, hindering knowledge sharing and slowing down the pace of scientific discovery. To address this, we present a prototype of MITRA, a Retrieval-Augmented Generation (RAG) based system, designed to answer specific, context-aware questions about physics analyses. MITRA employs a novel, automated pipeline using Selenium for document retrieval from internal databases and Optical Character Recognition (OCR) with layout parsing for high-fidelity text extraction. Crucially, MITRA's entire framework, from the embedding model to the Large Language Model (LLM), is hosted on-premise, ensuring that sensitive collaboration data remains private. We introduce a two-tiered vector database architecture that first identifies the relevant analysis from abstracts before focusing on the full documentation, resolving potential ambiguities between different analyses. We demonstrate the prototype's superior retrieval performance against a standard keyword-based baseline on realistic queries and discuss future work towards developing a comprehensive research agent for large experimental collaborations.