AutoVerifier: An Agentic Automated Verification Framework Using Large Language Models

📄 arXiv: 2604.02617 📥 PDF

作者: Yuntao Du, Minh Dinh, Kaiyuan Zhang, Ninghui Li

分类: cs.AI, cs.CR, cs.IR, cs.LG, cs.SI

发布日期: 2026-04-06


💡 一句话要点

AutoVerifier:利用大语言模型自动验证科技情报的Agent框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 科技情报分析 自动验证 知识图谱 Agent框架

📋 核心要点

  1. 现有科技情报分析方法难以深入验证复杂技术主张,尤其是在快速增长的文献中,存在方法有效性验证的差距。
  2. AutoVerifier利用大语言模型构建Agent框架,将技术断言分解为结构化三元组,构建知识图谱,实现多层次的结构化推理和验证。
  3. 实验表明,AutoVerifier能够自动识别量子计算论文中的过度声明和指标不一致,追踪跨源矛盾,并发现潜在的利益冲突。

📝 摘要(中文)

科学技术情报(S&TI)分析需要验证快速增长文献中复杂的科技主张,而现有方法无法弥合表面准确性和更深层次方法有效性之间的验证差距。我们提出了AutoVerifier,一个基于LLM的Agent框架,可以自动端到端地验证技术主张,而无需领域专业知识。AutoVerifier将每个技术断言分解为(主体、谓词、客体)形式的结构化声明三元组,构建知识图谱,从而实现跨六个逐步丰富层的结构化推理:语料库构建和摄取、实体和声明提取、文档内验证、跨源验证、外部信号佐证和最终假设矩阵生成。我们展示了AutoVerifier在有争议的量子计算声明上的应用,该框架由没有量子专业知识的分析师操作,自动识别了目标论文中的过度声明和指标不一致,追踪了跨源矛盾,发现了未公开的商业利益冲突,并生成了最终评估。这些结果表明,结构化的LLM验证可以可靠地评估新兴技术的有效性和成熟度,将原始技术文档转化为可追溯的、有证据支持的情报评估。

🔬 方法详解

问题定义:当前科技情报分析面临的挑战是,如何高效、准确地验证海量文献中复杂的技术主张。现有方法往往停留在表面准确性层面,难以深入评估方法论的有效性,并且需要领域专家参与,成本高昂。

核心思路:AutoVerifier的核心思路是利用大语言模型(LLM)的强大自然语言处理能力,构建一个自动化的Agent框架,将复杂的验证任务分解为多个可管理的子任务,并通过结构化的知识表示和推理,实现端到端的验证流程。该方法旨在降低对领域专业知识的依赖,提高验证效率和可靠性。

技术框架:AutoVerifier框架包含六个主要阶段:1) 语料库构建和摄取:收集和整理相关文献;2) 实体和声明提取:从文献中提取关键实体和技术声明,并将其表示为(主体、谓词、客体)三元组;3) 文档内验证:验证同一文档内声明的一致性和逻辑性;4) 跨源验证:比较不同来源的声明,发现矛盾和冲突;5) 外部信号佐证:利用外部知识库和信息源,验证声明的可靠性;6) 最终假设矩阵生成:综合所有验证结果,生成最终的评估报告。

关键创新:AutoVerifier的关键创新在于其结构化的验证流程和基于知识图谱的推理方法。通过将技术声明表示为结构化的三元组,并构建知识图谱,AutoVerifier能够进行更深入、更全面的验证,而不仅仅是停留在文本层面的匹配。此外,该框架还利用LLM的上下文理解能力,自动发现潜在的利益冲突和过度声明。

关键设计:AutoVerifier使用LLM进行实体和声明提取,并采用特定的提示工程(prompt engineering)来指导LLM的输出。知识图谱的构建和推理过程依赖于预定义的本体(ontology)和推理规则。最终假设矩阵的生成则基于加权的证据评估,权重可以根据不同的验证阶段和信息源进行调整。具体的参数设置和损失函数等技术细节在论文中可能未详细描述,属于未知信息。

📊 实验亮点

AutoVerifier在量子计算案例研究中表现出色,无需量子计算专业知识的分析师即可操作该框架,自动识别目标论文中的过度声明和指标不一致,追踪跨源矛盾,并发现未公开的商业利益冲突。这些结果证明了AutoVerifier在评估新兴技术有效性和成熟度方面的潜力。

🎯 应用场景

AutoVerifier可应用于科技情报分析、学术研究诚信评估、技术风险评估等领域。它能够帮助分析师快速、准确地验证技术主张,发现潜在的风险和问题,并为决策提供可靠的依据。该研究有望推动科技情报分析的自动化和智能化,提高分析效率和质量。

📄 摘要(原文)

Scientific and Technical Intelligence (S&TI) analysis requires verifying complex technical claims across rapidly growing literature, where existing approaches fail to bridge the verification gap between surface-level accuracy and deeper methodological validity. We present AutoVerifier, an LLM-based agentic framework that automates end-to-end verification of technical claims without requiring domain expertise. AutoVerifier decomposes every technical assertion into structured claim triples of the form (Subject, Predicate, Object), constructing knowledge graphs that enable structured reasoning across six progressively enriching layers: corpus construction and ingestion, entity and claim extraction, intra-document verification, cross-source verification, external signal corroboration, and final hypothesis matrix generation. We demonstrate AutoVerifier on a contested quantum computing claim, where the framework, operated by analysts with no quantum expertise, automatically identified overclaims and metric inconsistencies within the target paper, traced cross-source contradictions, uncovered undisclosed commercial conflicts of interest, and produced a final assessment. These results show that structured LLM verification can reliably evaluate the validity and maturity of emerging technologies, turning raw technical documents into traceable, evidence-backed intelligence assessments.