Do Agents Need Semantic Metadata? A Comparative Study in Agentic Data Retrieval
作者: Shiyu Chen, Tarfah Alrashed, Alon Halevy, Natasha Noy
分类: cs.IR, cs.AI
发布日期: 2026-05-27
💡 一句话要点
对比实验揭示:在Agent数据检索中,语义元数据对保证数据质量至关重要
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Agent数据检索 语义元数据 大型语言模型 FAIR原则 数据质量评估
📋 核心要点
- 大型语言模型兴起,引发了对语义元数据在Agent数据检索中必要性的质疑,现有方法依赖LLM直接从非结构化网络检索数据。
- 论文提出对比实验,分别评估基于语义元数据的Agent和直接从网络检索的Agent,使用LLM作为裁判,根据FAIR原则评估检索结果。
- 实验表明,语义Agent在检索可操作数据方面表现更优,精度更高,而基线Agent容易检索到无用信息,结构化生态系统至关重要。
📝 摘要(中文)
在自主Agent时代,机器可操作数据对于数据驱动的工作流程至关重要。十多年来,像schema.org这样的语义元数据一直是机器可操作数据“FAIR原则”(可查找、可访问、可互操作和可重用)的基础,并支持了像Google Dataset Search这样的发现工具。然而,能够浏览非结构化网络的大型语言模型(LLM)的兴起提出了一个根本问题:语义元数据对于Agent数据发现是否仍然必要,或者Agent是否可以直接从网络上可靠地检索可操作的数据?我们对两种不同的环境中的Agent数据检索进行了比较分析:一个搜索数十亿开放网络文档的基线Agent,以及一个利用包含9000万个数据集的schema.org语料库的语义Agent。我们部署了一个“LLM-as-a-judge”评估流程,直接映射到FAIR原则,以评估检索数据的语义相关性、数据可访问性和计算效用。结果显示出明显的差异。语义Agent擅长检索可操作的数据,在元数据丰富的注册表中实现了高44.9%的精度,在具有机器可读下载的页面中实现了高46.6%的精度。相反,基线Agent经常遭受“最后一英里效用”失败,检索到大量散文页面(20.1%的结果)和门户网站登录页面(8.5%),而不是实际的数据页面。虽然基线Agent通过回答多40%的问题实现了更高的覆盖率,但语义Agent提供了更高的准确性,在检索符合FAIR原则的数据集方面实现了高65.7%的总体精度。我们得出结论,虽然非结构化检索支持广泛的探索性任务,但结构化生态系统仍然是可靠的、面向执行的自主工作流程不可或缺的基础。
🔬 方法详解
问题定义:论文旨在研究在Agent数据检索任务中,是否仍然需要语义元数据,或者大型语言模型(LLM)是否能够直接从非结构化网络中可靠地检索可操作的数据。现有方法主要依赖LLM直接从网络上搜索,但缺乏对数据质量和可操作性的保证,容易检索到大量无用信息,导致“最后一英里效用”失败。
核心思路:论文的核心思路是通过对比实验,评估基于语义元数据的Agent和直接从网络检索的Agent在数据检索任务中的表现。通过设计合理的评估指标,量化分析两种方法在数据质量、可访问性和计算效用方面的差异,从而验证语义元数据在Agent数据检索中的价值。
技术框架:论文构建了两个Agent系统:基线Agent和语义Agent。基线Agent直接搜索开放网络文档,而语义Agent利用包含schema.org元数据的9000万数据集语料库。论文设计了一个“LLM-as-a-judge”评估流程,该流程将FAIR原则映射到评估指标,使用LLM来评估检索到的数据的语义相关性、数据可访问性和计算效用。
关键创新:论文的关键创新在于对比实验的设计和“LLM-as-a-judge”评估流程的引入。通过对比实验,量化分析了语义元数据在Agent数据检索中的作用。使用LLM作为裁判,能够更有效地评估检索结果的质量和可操作性,避免了传统人工评估的局限性。
关键设计:论文的关键设计包括:1) 构建了包含schema.org元数据的9000万数据集语料库;2) 设计了与FAIR原则对应的评估指标,包括语义相关性、数据可访问性和计算效用;3) 使用GPT-4等大型语言模型作为裁判,评估检索结果的质量。具体参数设置和损失函数等细节未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,语义Agent在检索可操作数据方面表现更优,在元数据丰富的注册表中实现了高44.9%的精度,在具有机器可读下载的页面中实现了高46.6%的精度。基线Agent虽然覆盖率更高,但容易检索到大量无用信息。语义Agent在检索符合FAIR原则的数据集方面实现了高65.7%的总体精度。
🎯 应用场景
该研究成果可应用于构建更可靠、高效的自主Agent数据检索系统。在科学研究、数据分析、商业决策等领域,可以利用语义元数据提高Agent检索数据的准确性和可用性,减少人工干预,加速数据驱动的工作流程。未来,可以进一步研究如何将语义元数据与LLM更好地结合,构建更智能的数据检索Agent。
📄 摘要(原文)
In the era of autonomous agents, machine-actionable data is critical for data-driven workflows. For more than a decade, semantic metadata like schema.org has anchored the FAIR principles (Findable, Accessible, Interoperable, and Reusable) for machine-actionable data and enabled discovery tools like Google Dataset Search. However, the rise of Large Language Models (LLMs) capable of navigating the unstructured web raises a fundamental question: Is semantic metadata still necessary for agentic data discovery, or can agents reliably retrieve actionable data directly from the web? We present a comparative analysis of agentic data retrieval across two distinct environments: a Baseline Agent searching billions of open-web documents, and a Semantic Agent leveraging a corpus of 90 million datasets using schema.org. We deploy an "LLM-as-a-judge" evaluation pipeline, mapped directly to the FAIR principles, to assess the semantic relevance, data accessibility, and computational utility of the retrieved data. Our results reveal a clear divergence. The Semantic Agent excels at retrieving actionable data, achieving a 44.9% higher precision for metadata-rich registries and a 46.6% higher precision for pages with machine-readable downloads among its returned results. Conversely, the Baseline Agent frequently suffers "Last-Mile Utility" failures, retrieving prose-heavy pages (20.1% of results) and portal landing pages (8.5%) rather than actual data pages. While the Baseline Agent achieves higher coverage by answering 40% more questions, the Semantic Agent delivers greater accuracy, achieving 65.7% higher overall precision in retrieving FAIR-compliant datasets. We conclude that while unstructured retrieval supports broad exploratory tasks, structured ecosystems remain the indispensable foundation for reliable, execution-oriented autonomous workflows.