Towards Knowledgeable Deep Research: Framework and Benchmark

📄 arXiv: 2604.07720v1 📥 PDF

作者: Wenxuan Liu, Zixuan Li, Bai Long, Chunmao Zhang, Fenghui Zhang, Zhuo Chen, Wei Li, Yuxin Zuo, Fei Wang, Bingbing Xu, Xuhui Jiang, Jin Zhang, Xiaolong Jin, Jiafeng Guo, Tat-Seng Chua, Xueqi Cheng

分类: cs.AI

发布日期: 2026-04-09


💡 一句话要点

提出混合知识分析框架HKA,解决深度研究中结构化与非结构化知识融合问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 深度研究 知识图谱 多模态学习 结构化知识 自然语言生成

📋 核心要点

  1. 现有深度研究主要关注非结构化网络内容,缺乏对结构化知识的有效利用,限制了深度分析能力。
  2. 提出混合知识分析框架HKA,通过多智能体架构融合结构化和非结构化知识,生成多模态报告。
  3. 构建KDR-Bench基准测试,包含9个领域和41个专家级问题,实验表明HKA在多个指标上优于现有方法。

📝 摘要(中文)

本文提出了知识型深度研究(KDR)任务,该任务要求LLM智能体自主执行多步骤信息检索、处理和推理,以生成包含结构化和非结构化知识的综合报告。与现有主要关注非结构化网络内容的研究不同,KDR任务利用结构化知识提供坚实的数据基础,促进定量计算,并进行深入分析。为此,本文提出了混合知识分析框架(HKA),这是一种多智能体架构,可以对两种知识进行推理,并将文本、图形和表格集成到连贯的多模态报告中。其关键设计是结构化知识分析器,它利用编码和视觉语言模型来生成图形、表格和相应的见解。为了支持系统评估,本文构建了KDR-Bench,它涵盖9个领域,包含41个专家级问题,并包含大量结构化知识资源(例如,1,252个表格)。此外,本文还注释了每个问题的主要结论和关键点,并提出了三类评估指标,包括通用指标、知识中心指标和视觉增强指标。实验结果表明,HKA在通用指标和知识中心指标上始终优于大多数现有DR智能体,甚至在视觉增强指标上超过了Gemini DR智能体,突出了其在深度、结构感知知识分析方面的有效性。希望这项工作可以为DR智能体中的结构化知识分析奠定新的基础,并促进未来的多模态DR研究。

🔬 方法详解

问题定义:现有深度研究(DR)智能体主要依赖非结构化网络内容,忽略了结构化知识(如表格、图表)的利用,导致无法进行深入的定量分析和推理。因此,需要一种能够有效融合结构化和非结构化知识的DR方法,以生成更全面、深入的报告。

核心思路:本文的核心思路是设计一个多智能体框架,该框架能够同时处理结构化和非结构化知识,并将其整合到统一的报告中。通过引入专门的结构化知识分析器,利用编码和视觉语言模型,提取结构化知识中的信息,并将其转化为易于理解的图形、表格和见解。

技术框架:HKA框架包含多个智能体,其中最关键的是结构化知识分析器。该分析器首先对结构化数据进行编码,然后利用视觉语言模型生成相应的图形和表格,并提取关键见解。其他智能体负责处理非结构化文本信息,并将所有信息整合到最终的报告中。整个流程包括信息检索、知识提取、推理和报告生成等多个阶段。

关键创新:HKA的关键创新在于其结构化知识分析器的设计,它能够自动从结构化数据中提取信息,并将其转化为可视化的形式,从而方便用户理解和利用。此外,HKA的多智能体架构也使得它可以同时处理多种类型的知识,并将其整合到统一的报告中。

关键设计:结构化知识分析器使用编码模型(例如,基于Transformer的模型)对结构化数据进行编码,然后使用视觉语言模型(例如,BLIP、LayoutLM)生成相应的图形和表格。损失函数的设计旨在最大化生成图形和表格的质量,并确保提取的见解与原始数据一致。此外,HKA还使用了多种提示工程技术,以提高智能体的推理能力和报告生成质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,HKA在KDR-Bench基准测试中取得了显著的性能提升。在通用指标和知识中心指标上,HKA优于大多数现有DR智能体。更重要的是,在视觉增强指标上,HKA甚至超过了Gemini DR智能体,证明了其在结构化知识分析方面的有效性。例如,在某些任务上,HKA的性能提升超过10%。

🎯 应用场景

该研究成果可应用于金融分析、市场调研、科学研究等领域,帮助用户快速理解和利用海量数据,生成高质量的分析报告。未来,该方法有望进一步扩展到更多领域,例如智能医疗、智能制造等,为各行业提供更强大的数据分析能力。

📄 摘要(原文)

Deep Research (DR) requires LLM agents to autonomously perform multi-step information seeking, processing, and reasoning to generate comprehensive reports. In contrast to existing studies that mainly focus on unstructured web content, a more challenging DR task should additionally utilize structured knowledge to provide a solid data foundation, facilitate quantitative computation, and lead to in-depth analyses. In this paper, we refer to this novel task as Knowledgeable Deep Research (KDR), which requires DR agents to generate reports with both structured and unstructured knowledge. Furthermore, we propose the Hybrid Knowledge Analysis framework (HKA), a multi-agent architecture that reasons over both kinds of knowledge and integrates the texts, figures, and tables into coherent multimodal reports. The key design is the Structured Knowledge Analyzer, which utilizes both coding and vision-language models to produce figures, tables, and corresponding insights. To support systematic evaluation, we construct KDR-Bench, which covers 9 domains, includes 41 expert-level questions, and incorporates a large number of structured knowledge resources (e.g., 1,252 tables). We further annotate the main conclusions and key points for each question and propose three categories of evaluation metrics including general-purpose, knowledge-centric, and vision-enhanced ones. Experimental results demonstrate that HKA consistently outperforms most existing DR agents on general-purpose and knowledge-centric metrics, and even surpasses the Gemini DR agent on vision-enhanced metrics, highlighting its effectiveness in deep, structure-aware knowledge analysis. Finally, we hope this work can serve as a new foundation for structured knowledge analysis in DR agents and facilitate future multimodal DR studies.