LithoBench: Benchmarking Large Multimodal Models for Remote-Sensing Lithology Interpretation

作者: Jun Wang, Fengpeng Li, Hang Dong, Tianjin Huang, Wei Han

分类: cs.CV, cs.AI

发布日期: 2026-05-08

💡 一句话要点

提出LithoBench，用于评估大模型在遥感岩性判释中的地质语义理解能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 遥感图像 岩性判释 多模态模型 地质语义理解 基准数据集

📋 核心要点

岩性判释依赖专家知识，现有方法难以有效利用多模态地质信息，实现可靠的自动化判释。
LithoBench通过构建多层次、专家标注的数据集，结合半自动构建流程，提供可靠的地质语义理解评估。
实验表明，现有大型视觉语言模型在地质语义理解方面存在局限，尤其在高阶解释、应用和推理任务上表现不佳。

📝 摘要（中文）

遥感岩性判释对地质调查、矿产勘查和区域地质填图至关重要。与一般的地物识别不同，岩性判释是一项知识密集型任务，需要专家从各种特征（例如，细微的视觉、光谱、纹理、地貌和上下文线索）推断岩石类型，这使得可靠的自动判释极具挑战性。地质知识引导的大型多模态模型提供了新的机会，但由于缺乏能够捕捉岩性注释、多层次地质语义和专家评估的基准，其评估仍然受到限制。因此，我们提出了LithoBench，一个多层次的基准，用于评估遥感岩性判释中的地质语义理解能力。LithoBench包含10,000个专家注释的判释实例，涵盖12个代表性岩性类别，包括4,000个多项选择题和6,000个开放式任务，组织成五个认知层次：识别和描述、比较分析、机理解释、实际应用和综合推理。我们进一步开发了一个专家在环、知识驱动的半自动构建流程，耦合了多个子过程（例如，结构化地质图像描述），以提高地质有效性和评估可靠性。对多个大型视觉语言模型的实验表明，它们在地质语义理解方面存在重大局限性，尤其是在高阶解释、应用和推理任务中。

🔬 方法详解

问题定义：现有遥感图像岩性判释方法，无法有效利用视觉、光谱、纹理、地貌等多模态信息进行推理，且缺乏高质量、多层次的地质知识标注数据集，难以对现有模型的地质语义理解能力进行有效评估。这些痛点限制了自动化岩性判释的可靠性和准确性。

核心思路：LithoBench的核心思路是构建一个多层次、专家标注的基准数据集，以评估大型多模态模型在遥感岩性判释任务中的地质语义理解能力。通过设计不同认知层次的任务，可以更全面地评估模型在识别、分析、解释和应用地质知识方面的能力。

技术框架：LithoBench的构建流程包含以下几个主要模块：1) 数据收集和预处理：收集涵盖12种代表性岩性的遥感图像数据。2) 专家标注：邀请地质专家进行标注，标注内容包括岩性类别、多项选择题和开放式问题。3) 半自动构建流程：开发一个专家在环、知识驱动的半自动构建流程，利用结构化地质图像描述等技术，提高标注的有效性和可靠性。4) 数据集划分：将数据集划分为训练集、验证集和测试集。

关键创新：LithoBench的关键创新在于其多层次的任务设计和专家在环的半自动构建流程。多层次的任务设计能够全面评估模型在地质语义理解方面的能力，而专家在环的半自动构建流程能够保证标注的质量和可靠性。此外，该基准数据集的构建方法也可以推广到其他地质相关的遥感图像解译任务中。

关键设计：LithoBench包含10,000个专家标注的判释实例，涵盖12个代表性岩性类别。任务被组织成五个认知层次：识别和描述、比较分析、机理解释、实际应用和综合推理。其中，4,000个是多项选择题，6,000个是开放式任务。半自动构建流程利用结构化地质图像描述，以提高地质有效性和评估可靠性。具体的地质图像描述方式和问题设计方法在论文中未详细展开，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有的大型视觉语言模型在LithoBench数据集上表现出显著的局限性，尤其是在需要高阶解释、应用和推理的任务上。这说明现有模型在地质语义理解方面仍有很大的提升空间，LithoBench可以作为未来研究的重要基准，推动相关领域的发展。具体的性能数据，模型对比基线以及提升幅度在摘要中没有体现。

🎯 应用场景

LithoBench可应用于地质调查、矿产勘查、区域地质填图等领域，帮助地质工作者更高效、准确地进行岩性判释。通过评估和改进大型多模态模型的地质语义理解能力，可以实现更智能化的遥感图像解译，从而降低勘探成本、提高资源利用率，并为地质灾害预警提供技术支持。

📄 摘要（原文）

Remote sensing lithology interpretation is fundamental to geological surveys, mineral exploration, and regional geological mapping. Unlike general land-cover recognition, lithology interpretation is a knowledge-intensive task that requires experts to infer rock types from various features, e.g., subtle visual, spectral, textural, geomorphological, and contextual cues, making reliable automated interpretation highly challenging. Geological knowledge-guided large multimodal models offer new opportunities, yet their evaluation remains constrained by the lack of benchmarks that capture lithological annotations, multi-level geological semantics, and expert-informed assessment. Here, we propose LithoBench, a multi-level benchmark for evaluating geological semantic understanding in remote sensing lithology interpretation. LithoBench contains 10,000 expert-annotated interpretation instances across 12 representative lithological categories, including 4,000 multiple-choice and 6,000 open-ended tasks organized into five cognitive levels: Identification and Description, Comparative Analysis, Mechanism Explanation, Practical Application, and Comprehensive Reasoning. We further develop an expert-in-the-loop, knowledge-grounded semi-automated construction pipeline, coupling multi sub-processes, e.g., structured geological image descriptions, to enhance geological validity and evaluation reliability. Experiments with multiple large vision-language models eveal substantial limitations in geological semantic understanding, particularly on higher-order explanation, application, and reasoning tasks.

LithoBench: Benchmarking Large Multimodal Models for Remote-Sensing Lithology Interpretation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理