Towards Knowledgeable Deep Research: Framework and Benchmark
作者: Wenxuan Liu, Zixuan Li, Long Bai, Chunmao Zhang, Fenghui Zhang, Zhuo Chen, Wei Li, Yuxin Zuo, Fei Wang, Bingbing Xu, Xuhui Jiang, Jin Zhang, Xiaolong Jin, Jiafeng Guo, Tat-Seng Chua, Xueqi Cheng
分类: cs.AI
发布日期: 2026-04-09 (更新: 2026-04-10)
💡 一句话要点
提出混合知识分析框架HKA,解决深度研究中结构化与非结构化知识融合问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 深度研究 知识图谱 多模态学习 结构化知识 LLM智能体
📋 核心要点
- 现有深度研究主要关注非结构化网络内容,忽略了结构化知识在数据基础、定量计算和深入分析中的重要作用。
- 提出混合知识分析框架(HKA),利用多智能体架构对结构化和非结构化知识进行推理,生成多模态报告。
- 构建KDR-Bench数据集,包含9个领域、41个专家级问题和大量结构化知识,并设计了三类评估指标。
📝 摘要(中文)
深度研究(DR)要求LLM智能体自主执行多步骤的信息检索、处理和推理,以生成全面的报告。与主要关注非结构化网络内容的现有研究不同,更具挑战性的DR任务应额外利用结构化知识,以提供坚实的数据基础,促进定量计算,并进行深入分析。本文将这种新任务称为知识型深度研究(KDR),它要求DR智能体生成包含结构化和非结构化知识的报告。此外,我们提出了混合知识分析框架(HKA),这是一种多智能体架构,可以对两种知识进行推理,并将文本、图形和表格集成到连贯的多模态报告中。关键设计是结构化知识分析器,它利用编码和视觉语言模型来生成图形、表格和相应的见解。为了支持系统评估,我们构建了KDR-Bench,它涵盖9个领域,包括41个专家级问题,并包含大量结构化知识资源(例如,1,252个表格)。我们进一步注释了每个问题的主要结论和关键点,并提出了三类评估指标,包括通用指标、以知识为中心的指标和视觉增强指标。实验结果表明,HKA在通用指标和以知识为中心的指标上始终优于大多数现有DR智能体,甚至在视觉增强指标上超过了Gemini DR智能体,突出了其在深度、结构感知知识分析方面的有效性。最后,我们希望这项工作可以作为DR智能体中结构化知识分析的新基础,并促进未来的多模态DR研究。
🔬 方法详解
问题定义:论文旨在解决深度研究(DR)任务中,现有方法对结构化知识利用不足的问题。现有DR方法主要依赖非结构化文本数据,无法有效利用表格、图表等结构化知识进行深入分析和推理,导致报告质量受限。
核心思路:论文的核心思路是构建一个能够同时处理结构化和非结构化知识的混合知识分析框架(HKA)。该框架通过多智能体协作,将文本、图表等信息整合到统一的报告中,从而实现更全面的知识分析和推理。
技术框架:HKA框架包含多个智能体,其中最关键的是结构化知识分析器。该分析器利用编码模型和视觉语言模型,从结构化数据中提取信息,生成图表和表格,并提供相应的见解。整个流程包括信息检索、知识提取、报告生成等多个阶段,各个智能体协同完成这些任务。
关键创新:论文的关键创新在于提出了结构化知识分析器,它能够自动从结构化数据中生成图表和表格,并提取关键信息。这使得DR智能体能够更好地利用结构化知识,从而提高报告的质量和深度。与现有方法相比,HKA能够更有效地整合结构化和非结构化知识。
关键设计:结构化知识分析器使用了编码模型(例如,用于处理表格数据的模型)和视觉语言模型(例如,用于理解图表内容的模型)。具体的参数设置和网络结构取决于所使用的具体模型。损失函数的设计需要同时考虑文本生成、图表生成和信息提取的准确性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,HKA框架在通用指标和以知识为中心的指标上均优于现有DR智能体,甚至在视觉增强指标上超越了Gemini DR智能体。这证明了HKA在深度、结构感知知识分析方面的有效性,尤其是在利用结构化知识生成图表和表格方面表现出色。
🎯 应用场景
该研究成果可应用于金融分析、市场调研、科学研究等领域,帮助研究人员和决策者更有效地利用结构化和非结构化数据,生成更全面、深入的分析报告。未来可扩展到更多领域,例如医疗诊断、智能客服等。
📄 摘要(原文)
Deep Research (DR) requires LLM agents to autonomously perform multi-step information seeking, processing, and reasoning to generate comprehensive reports. In contrast to existing studies that mainly focus on unstructured web content, a more challenging DR task should additionally utilize structured knowledge to provide a solid data foundation, facilitate quantitative computation, and lead to in-depth analyses. In this paper, we refer to this novel task as Knowledgeable Deep Research (KDR), which requires DR agents to generate reports with both structured and unstructured knowledge. Furthermore, we propose the Hybrid Knowledge Analysis framework (HKA), a multi-agent architecture that reasons over both kinds of knowledge and integrates the texts, figures, and tables into coherent multimodal reports. The key design is the Structured Knowledge Analyzer, which utilizes both coding and vision-language models to produce figures, tables, and corresponding insights. To support systematic evaluation, we construct KDR-Bench, which covers 9 domains, includes 41 expert-level questions, and incorporates a large number of structured knowledge resources (e.g., 1,252 tables). We further annotate the main conclusions and key points for each question and propose three categories of evaluation metrics including general-purpose, knowledge-centric, and vision-enhanced ones. Experimental results demonstrate that HKA consistently outperforms most existing DR agents on general-purpose and knowledge-centric metrics, and even surpasses the Gemini DR agent on vision-enhanced metrics, highlighting its effectiveness in deep, structure-aware knowledge analysis. Finally, we hope this work can serve as a new foundation for structured knowledge analysis in DR agents and facilitate future multimodal DR studies.