AeroRAG: Structured Multimodal Retrieval-Augmented LLM for Fine-Grained Aerial Visual Reasoning

作者: Junxiao Xue, Quan Deng, Tingqi Hu, Meicong Si, Xinyi Yin, Yunyun Shi, Xuecheng Wu

分类: cs.CV

发布日期: 2026-04-20

💡 一句话要点

AeroRAG：面向精细化空中视觉推理的结构化多模态检索增强LLM

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 视觉问答 空中场景理解 检索增强生成 场景图

📋 核心要点

现有的多模态大语言模型在空中场景的视觉问答中表现不佳，因为它们难以处理小物体和物体间关系等结构化信息。
AeroRAG通过场景图将图像转换为结构化知识，并检索相关语义块构建提示，从而在感知和语言推理间建立明确的中间接口。
实验表明，AeroRAG在空中场景和关系推理方面显著优于现有模型，并在通用视觉推理任务中保持了竞争力。

📝 摘要（中文）

本文提出AeroRAG，一个场景图引导的多模态检索增强生成框架，用于解决空中场景下视觉问答的挑战。在空中场景中，关键信息通常由小物体、精确的数量、粗略的位置和物体间的关系承载，而传统的密集视觉token表示与这些结构化语义不匹配。AeroRAG首先将输入图像转换为结构化的视觉知识，包括物体类别、数量、空间位置和语义关系，然后检索与查询相关的语义块，为基于文本的大语言模型构建紧凑的提示。该方法引入了一个更明确的中间接口，位于感知和语言推理之间，而不是依赖于对密集视觉token的直接推理。在AUG空中数据集和通用领域VG-150基准上的实验表明，相对于六个强大的多模态LLM基线，该方法取得了持续的改进，尤其是在密集的空中场景和关系敏感的推理中。此外，在VQAv2上的评估验证了所提出的接口与标准视觉推理设置的兼容性。这些结果表明，结构化检索是面向部署和有根据的视觉推理系统的实用设计方向。

🔬 方法详解

问题定义：论文旨在解决多模态大语言模型（MLLMs）在空中场景下进行视觉问答时面临的挑战。现有的MLLMs通常依赖于密集的视觉token表示，难以有效捕捉空中场景中关键的小物体、精确数量、粗略位置以及物体间的关系等结构化语义信息。这种信息缺失导致模型在需要细粒度推理的任务中表现不佳。

核心思路：AeroRAG的核心思路是将输入图像转换为结构化的视觉知识表示，然后利用这些结构化信息进行检索增强，为大语言模型构建更有效的提示。通过显式地提取和利用场景中的结构化信息，弥合了感知和语言推理之间的差距，使得模型能够更好地理解和回答与空中场景相关的复杂问题。

技术框架：AeroRAG框架主要包含以下几个阶段：1) 场景图构建：将输入图像转换为结构化的视觉知识，包括物体类别、数量、空间位置和语义关系。这通常涉及目标检测、属性识别和关系预测等任务。2) 检索：根据用户提出的问题，从构建的场景图中检索相关的语义块。检索过程旨在找到与问题最相关的物体、属性和关系。3) 提示构建：利用检索到的语义块，为大语言模型构建紧凑的提示。提示包含问题和相关的结构化知识，引导模型进行推理和回答。4) 生成：使用大语言模型根据构建的提示生成答案。

关键创新：AeroRAG的关键创新在于引入了结构化的视觉知识表示作为感知和语言推理之间的中间接口。与直接使用密集的视觉token表示相比，结构化表示能够更有效地捕捉场景中的关键信息，并为大语言模型提供更明确的上下文。此外，检索增强机制能够根据问题动态地选择相关的知识，进一步提高了模型的推理能力。

关键设计：在场景图构建阶段，可能使用预训练的目标检测模型（如Faster R-CNN或YOLO）来检测图像中的物体，并使用属性识别模型来识别物体的属性。关系预测可以使用图神经网络等方法来建模物体之间的关系。检索过程可以使用基于语义相似度的检索方法，例如使用预训练的词向量或句子嵌入来计算问题和语义块之间的相似度。提示构建可以使用不同的模板，将问题和检索到的知识组合成自然语言形式的提示。损失函数的设计取决于具体的任务和模型，可能包括交叉熵损失、对比损失等。

🖼️ 关键图片

📊 实验亮点

实验结果表明，AeroRAG在AUG空中数据集和VG-150数据集上均取得了显著的性能提升。在AUG数据集上，AeroRAG相对于六个强大的多模态LLM基线取得了持续的改进，尤其是在密集的空中场景和关系敏感的推理中。此外，在VQAv2数据集上的评估验证了该框架与标准视觉推理设置的兼容性。这些结果表明，结构化检索是面向部署和有根据的视觉推理系统的实用设计方向。

🎯 应用场景

AeroRAG具有广泛的应用前景，包括无人机巡检、智能交通管理、遥感图像分析、灾害救援等领域。通过提供更准确和可靠的视觉问答能力，该框架可以帮助用户更好地理解和利用空中图像数据，从而提高决策效率和安全性。未来，该技术有望应用于更复杂的空中场景分析和理解任务。

📄 摘要（原文）

Despite recent progress in multimodal large language models (MLLMs), reliable visual question answering in aerial scenes remains challenging. In such scenes, task-critical evidence is often carried by small objects, explicit quantities, coarse locations, and inter-object relations, whereas conventional dense visual-token representations are not well aligned with these structured semantics. To address this interface mismatch, we propose AeroRAG, a scene-graph-guided multimodal retrieval-augmented generation framework for visual question answering. The framework first converts an input image into structured visual knowledge, including object categories, quantities, spatial locations, and semantic relations, and then retrieves query-relevant semantic chunks to construct compact prompts for a text-based large language model. Rather than relying on direct reasoning over dense visual tokens, our method introduces a more explicit intermediate interface between perception and language reasoning. Experiments on the AUG aerial dataset and the general-domain VG-150 benchmark show consistent improvements over six strong MLLM baselines, with the largest gains observed in dense aerial scenes and relation-sensitive reasoning. We further evaluate the framework on VQAv2 to verify that the proposed interface remains compatible with standard visual reasoning settings. These results suggest that structured retrieval is a practical design direction for deployment-oriented and grounded visual reasoning systems.

AeroRAG: Structured Multimodal Retrieval-Augmented LLM for Fine-Grained Aerial Visual Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理