Do Agents Need Semantic Metadata? A Comparative Study in Agentic Data Retrieval

作者: Shiyu Chen, Tarfah Alrashed, Alon Halevy, Natasha Noy

分类: cs.IR, cs.AI

发布日期: 2026-05-27

💡 一句话要点

对比实验揭示：在Agent数据检索中，语义元数据对保证数据质量至关重要

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Agent数据检索 语义元数据 大型语言模型 FAIR原则 数据质量评估

📋 核心要点

大型语言模型兴起，引发了对语义元数据在Agent数据检索中必要性的质疑，现有方法依赖LLM直接从非结构化网络检索数据。
论文提出对比实验，分别评估基于语义元数据的Agent和直接从网络检索的Agent，使用LLM作为裁判，根据FAIR原则评估检索结果。
实验表明，语义Agent在检索可操作数据方面表现更优，精度更高，而基线Agent容易检索到无用信息，结构化生态系统至关重要。

📝 摘要（中文）

在自主Agent时代，机器可操作数据对于数据驱动的工作流程至关重要。十多年来，像schema.org这样的语义元数据一直是机器可操作数据“FAIR原则”（可查找、可访问、可互操作和可重用）的基础，并支持了像Google Dataset Search这样的发现工具。然而，能够浏览非结构化网络的大型语言模型（LLM）的兴起提出了一个根本问题：语义元数据对于Agent数据发现是否仍然必要，或者Agent是否可以直接从网络上可靠地检索可操作的数据？我们对两种不同的环境中的Agent数据检索进行了比较分析：一个搜索数十亿开放网络文档的基线Agent，以及一个利用包含9000万个数据集的schema.org语料库的语义Agent。我们部署了一个“LLM-as-a-judge”评估流程，直接映射到FAIR原则，以评估检索数据的语义相关性、数据可访问性和计算效用。结果显示出明显的差异。语义Agent擅长检索可操作的数据，在元数据丰富的注册表中实现了高44.9%的精度，在具有机器可读下载的页面中实现了高46.6%的精度。相反，基线Agent经常遭受“最后一英里效用”失败，检索到大量散文页面（20.1%的结果）和门户网站登录页面（8.5%），而不是实际的数据页面。虽然基线Agent通过回答多40%的问题实现了更高的覆盖率，但语义Agent提供了更高的准确性，在检索符合FAIR原则的数据集方面实现了高65.7%的总体精度。我们得出结论，虽然非结构化检索支持广泛的探索性任务，但结构化生态系统仍然是可靠的、面向执行的自主工作流程不可或缺的基础。

🔬 方法详解

问题定义：论文旨在研究在Agent数据检索任务中，是否仍然需要语义元数据，或者大型语言模型（LLM）是否能够直接从非结构化网络中可靠地检索可操作的数据。现有方法主要依赖LLM直接从网络上搜索，但缺乏对数据质量和可操作性的保证，容易检索到大量无用信息，导致“最后一英里效用”失败。

核心思路：论文的核心思路是通过对比实验，评估基于语义元数据的Agent和直接从网络检索的Agent在数据检索任务中的表现。通过设计合理的评估指标，量化分析两种方法在数据质量、可访问性和计算效用方面的差异，从而验证语义元数据在Agent数据检索中的价值。

技术框架：论文构建了两个Agent系统：基线Agent和语义Agent。基线Agent直接搜索开放网络文档，而语义Agent利用包含schema.org元数据的9000万数据集语料库。论文设计了一个“LLM-as-a-judge”评估流程，该流程将FAIR原则映射到评估指标，使用LLM来评估检索到的数据的语义相关性、数据可访问性和计算效用。

关键创新：论文的关键创新在于对比实验的设计和“LLM-as-a-judge”评估流程的引入。通过对比实验，量化分析了语义元数据在Agent数据检索中的作用。使用LLM作为裁判，能够更有效地评估检索结果的质量和可操作性，避免了传统人工评估的局限性。

关键设计：论文的关键设计包括：1) 构建了包含schema.org元数据的9000万数据集语料库；2) 设计了与FAIR原则对应的评估指标，包括语义相关性、数据可访问性和计算效用；3) 使用GPT-4等大型语言模型作为裁判，评估检索结果的质量。具体参数设置和损失函数等细节未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，语义Agent在检索可操作数据方面表现更优，在元数据丰富的注册表中实现了高44.9%的精度，在具有机器可读下载的页面中实现了高46.6%的精度。基线Agent虽然覆盖率更高，但容易检索到大量无用信息。语义Agent在检索符合FAIR原则的数据集方面实现了高65.7%的总体精度。

🎯 应用场景

该研究成果可应用于构建更可靠、高效的自主Agent数据检索系统。在科学研究、数据分析、商业决策等领域，可以利用语义元数据提高Agent检索数据的准确性和可用性，减少人工干预，加速数据驱动的工作流程。未来，可以进一步研究如何将语义元数据与LLM更好地结合，构建更智能的数据检索Agent。

📄 摘要（原文）

In the era of autonomous agents, machine-actionable data is critical for data-driven workflows. For more than a decade, semantic metadata like schema.org has anchored the FAIR principles (Findable, Accessible, Interoperable, and Reusable) for machine-actionable data and enabled discovery tools like Google Dataset Search. However, the rise of Large Language Models (LLMs) capable of navigating the unstructured web raises a fundamental question: Is semantic metadata still necessary for agentic data discovery, or can agents reliably retrieve actionable data directly from the web? We present a comparative analysis of agentic data retrieval across two distinct environments: a Baseline Agent searching billions of open-web documents, and a Semantic Agent leveraging a corpus of 90 million datasets using schema.org. We deploy an "LLM-as-a-judge" evaluation pipeline, mapped directly to the FAIR principles, to assess the semantic relevance, data accessibility, and computational utility of the retrieved data. Our results reveal a clear divergence. The Semantic Agent excels at retrieving actionable data, achieving a 44.9% higher precision for metadata-rich registries and a 46.6% higher precision for pages with machine-readable downloads among its returned results. Conversely, the Baseline Agent frequently suffers "Last-Mile Utility" failures, retrieving prose-heavy pages (20.1% of results) and portal landing pages (8.5%) rather than actual data pages. While the Baseline Agent achieves higher coverage by answering 40% more questions, the Semantic Agent delivers greater accuracy, achieving 65.7% higher overall precision in retrieving FAIR-compliant datasets. We conclude that while unstructured retrieval supports broad exploratory tasks, structured ecosystems remain the indispensable foundation for reliable, execution-oriented autonomous workflows.

Do Agents Need Semantic Metadata? A Comparative Study in Agentic Data Retrieval

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理