Compass: Navigating Global Marine Lead Data Integration through Expert-Guided LLM Agent
作者: Yiming Liu, Bin Lu, Meng Jin, Ziyuan Sang, Shuo Jiang, Lei Zhou, Xinbing Wang, Chenghu Zhou, Jing Zhang
分类: cs.AI
发布日期: 2026-05-28
💡 一句话要点
Compass:通过专家指导的LLM Agent导航全球海洋铅数据集成
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 知识图谱 数据挖掘 海洋科学 铅同位素 信息抽取 专家系统
📋 核心要点
- 现有海洋铅数据分散在大量非结构化论文中,人工提取成本高,通用LLM缺乏领域知识,提取结果不准确。
- 提出Compass框架,利用专家知识构建知识树,指导LLM Agent进行科学数据提取,无需微调。
- Compass成功提取了3751条海洋铅记录,构建了迄今为止最大的综合数据库,准确率达到92%。
📝 摘要(中文)
海洋铅(Pb)及其同位素是研究海洋环流和人为污染的关键示踪剂,但原位观测成本高昂且稀疏。虽然存在大量的历史记录,但它们埋藏在学术论文的非结构化内容中,形成“数据孤岛”,无法进行全面分析。手动提取不可扩展,而通用大语言模型(LLM)缺乏必要的领域知识,导致幻觉和科学上无效的输出。为了解决这个问题,我们引入了一种专家指导的适应方法,使LLM能够在不进行微调的情况下执行严格的科学数据提取。我们通过Compass来实现这种方法,Compass是一个由海洋科学家共同设计的知识树增强的LLM Agent框架,它将复杂的任务分解为可验证的步骤,指导Agent的推理以确保科学有效性。通过在超过23万篇相关开放获取论文的语料库中部署Compass,我们成功提取了3751条先前未纳入的Pb记录。这项工作建立了迄今为止最大的综合海洋Pb数据库。除了标准指标外,Compass还通过多层验证展示了卓越的可靠性,通过专家手动验证,准确率达到92%。新集成的数据扩展了先前采样不足区域(如东海和南大洋)的覆盖范围,为未来的科学发现提供了丰富的数据基础。我们发布了一个交互式可视化平台,以促进开放科学访问。我们的工作表明,专家指导的Agent可以有效地弥合通用LLM和高风险科学领域之间的差距,从而实现地球科学中可扩展的数据发现。
🔬 方法详解
问题定义:论文旨在解决海洋铅(Pb)数据分散在大量非结构化科学文献中,难以有效利用的问题。现有的人工提取方法成本高昂且不可扩展,而通用的大语言模型(LLM)由于缺乏领域专业知识,在提取过程中容易产生幻觉,导致提取结果不准确,无法满足科学研究的需求。
核心思路:论文的核心思路是利用专家知识指导LLM Agent进行科学数据提取。通过与海洋科学家共同设计知识树,将复杂的提取任务分解为一系列可验证的步骤,从而引导LLM Agent的推理过程,确保提取结果的科学有效性。这种方法避免了对LLM进行微调,降低了成本,并提高了提取的准确性和可靠性。
技术框架:Compass框架主要包含以下几个模块:1) 文献检索模块:用于从大量的科学文献中筛选出与海洋铅数据相关的论文。2) 知识树构建模块:与海洋科学家合作,构建领域知识树,将复杂的提取任务分解为可验证的步骤。3) LLM Agent模块:利用LLM作为Agent,根据知识树的指导,逐步提取数据。4) 验证模块:对提取的数据进行多层验证,包括自动验证和专家手动验证,确保数据的准确性。5) 数据库构建模块:将提取的数据整合到统一的数据库中,并提供交互式可视化平台。
关键创新:论文的关键创新在于提出了一种专家指导的LLM Agent框架,用于科学数据提取。与传统的基于规则或机器学习的方法相比,该方法能够利用LLM的强大语言理解能力,从非结构化文本中提取信息,同时通过专家知识的指导,避免了LLM的幻觉问题,提高了提取的准确性和可靠性。与直接使用通用LLM相比,Compass框架通过知识树的引导,显著提升了LLM在特定科学领域的表现。
关键设计:知识树的设计是Compass框架的关键。知识树的每个节点代表一个具体的提取步骤,例如识别论文中的实验地点、测量方法、铅浓度等。每个节点都包含明确的指令和验证规则,用于指导LLM Agent的推理过程。此外,Compass框架还采用了多层验证机制,包括自动验证(例如检查数据类型和范围)和专家手动验证,以确保数据的准确性。具体参数设置和损失函数等技术细节未在摘要中明确提及,属于未知信息。
🖼️ 关键图片
📊 实验亮点
Compass成功从超过23万篇论文中提取了3751条海洋铅记录,构建了迄今为止最大的综合数据库。通过多层验证,Compass的准确率达到92%,显著优于直接使用通用LLM的方法。新集成的数据扩展了东海和南大洋等先前采样不足区域的覆盖范围。
🎯 应用场景
该研究成果可应用于地球科学领域的数据挖掘和知识发现,例如构建海洋化学、气候变化等领域的综合数据库。通过专家指导的LLM Agent,可以高效地从海量文献中提取关键信息,为科学研究提供数据支持,加速科学发现的进程。该方法具有通用性,可推广到其他科学领域。
📄 摘要(原文)
Marine lead (Pb) and its isotopes are critical tracers for ocean circulation and anthropogenic pollution, yet in-situ observations remain costly and sparse. While vast historical records exist, they lie buried within the unstructured content of academic papers, creating "data silos" inaccessible to comprehensive analysis. Manual extraction is unscalable, while general-purpose Large Language Models (LLMs) lack the necessary domain-specific knowledge, leading to hallucinations and scientifically invalid outputs. To address this, we introduce an expert-guided adaptation approach that enables LLMs to perform rigorous scientific data extraction without fine-tuning. We operationalize this approach through Compass, an LLM agent framework enhanced by a Knowledge Tree co-designed with marine scientists, which decomposes complex tasks into verifiable steps, guiding the agent's reasoning to ensure scientific validity. Deploying Compass across a corpus of over 230,000 relevant open-access papers, we successfully extract 3,751 previously unincorporated Pb records. This effort establishes the largest integrated marine Pb database to date. Beyond standard metrics, Compass demonstrates superior reliability through multi-layered validation, achieving 92% accuracy as confirmed through expert manual verification. The newly integrated data expand coverage in previously under-sampled regions such as the East China Sea and the Southern Ocean, providing an enriched data foundation for future scientific discoveries. We release an interactive visualization platform to facilitate open scientific access. Our work demonstrates that expert-guided agents can effectively bridge the gap between general-purpose LLMs and high-stakes scientific domains, enabling scalable data discovery in geosciences.