Anagent For Enhancing Scientific Table & Figure Analysis

📄 arXiv: 2602.10081v1 📥 PDF

作者: Xuehang Guo, Zhiyong Lu, Tom Hope, Qingyun Wang

分类: cs.CL, cs.AI

发布日期: 2026-02-10

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出Anagent以解决科学表格与图形分析的复杂性问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 科学数据分析 多代理系统 任务分解 信息检索 质量评估 强化学习 微调策略

📋 核心要点

  1. 现有人工智能系统在科学表格与图形分析中难以稳定地解读复杂的多模态知识,面临结构异构和上下文要求长等挑战。
  2. 论文提出Anagent,一个多代理框架,通过任务分解、信息检索、信息综合和质量评估四个专门代理来提升分析能力。
  3. 实验结果表明,Anagent在多个子领域中显著提高了分析性能,尤其是在微调设置下,性能提升幅度达到42.12%。

📝 摘要(中文)

在科学研究中,分析需要准确解读复杂的多模态知识,整合来自不同来源的证据,并基于领域特定知识进行推理。然而,现有的人工智能系统在这些能力上表现不稳定。科学表格和图形的复杂性和多样性,加上异构结构和长上下文要求,给科学表格与图形分析带来了根本性障碍。为量化这些挑战,我们引入了AnaBench,这是一个包含63178个实例的大规模基准,系统地按七个复杂性维度进行分类。为应对这些挑战,我们提出了Anagent,一个多代理框架,通过四个专门的代理来增强科学表格与图形分析:Planner将任务分解为可操作的子任务,Expert通过针对性工具执行检索任务特定信息,Solver综合信息生成连贯分析,Critic通过五维质量评估进行迭代优化。全面评估显示,Anagent在170个子领域中实现了显著提升,训练无关设置下提高了13.43%,而微调后提升了42.12%。

🔬 方法详解

问题定义:本论文旨在解决科学表格与图形分析中的复杂性问题,现有方法在处理多模态知识和长上下文时表现不佳,导致分析结果不准确。

核心思路:Anagent通过引入四个专门的代理来分工合作,分别负责任务分解、信息检索、信息综合和质量评估,从而提高分析的准确性和效率。

技术框架:Anagent的整体架构包括四个主要模块:Planner、Expert、Solver和Critic。Planner负责将复杂任务分解为小的可操作子任务,Expert则通过执行特定工具来获取相关信息,Solver综合这些信息生成分析结果,Critic则对结果进行质量评估和迭代优化。

关键创新:Anagent的最大创新在于其多代理协作机制,通过明确的角色分工和任务协作,克服了传统单一模型在复杂分析中的局限性。

关键设计:在训练过程中,Anagent采用了监督微调和专门的强化学习策略,以优化各个代理的能力,同时确保它们之间的有效协作。

📊 实验亮点

Anagent在170个子领域的评估中表现出色,训练无关设置下性能提升达到13.43%,而在微调后更是提升了42.12%。这些结果表明,任务导向推理和上下文感知问题解决能力对高质量分析至关重要。

🎯 应用场景

该研究的潜在应用领域包括科学研究、数据分析和信息检索等,能够为科研人员提供更高效的工具来分析复杂的科学数据,提升研究质量和效率。未来,Anagent可能在自动化科学发现和智能决策支持系统中发挥重要作用。

📄 摘要(原文)

In scientific research, analysis requires accurately interpreting complex multimodal knowledge, integrating evidence from different sources, and drawing inferences grounded in domain-specific knowledge. However, current artificial intelligence (AI) systems struggle to consistently demonstrate such capabilities. The complexity and variability of scientific tables and figures, combined with heterogeneous structures and long-context requirements, pose fundamental obstacles to scientific table \& figure analysis. To quantify these challenges, we introduce AnaBench, a large-scale benchmark featuring $63,178$ instances from nine scientific domains, systematically categorized along seven complexity dimensions. To tackle these challenges, we propose Anagent, a multi-agent framework for enhanced scientific table \& figure analysis through four specialized agents: Planner decomposes tasks into actionable subtasks, Expert retrieves task-specific information through targeted tool execution, Solver synthesizes information to generate coherent analysis, and Critic performs iterative refinement through five-dimensional quality assessment. We further develop modular training strategies that leverage supervised finetuning and specialized reinforcement learning to optimize individual capabilities while maintaining effective collaboration. Comprehensive evaluation across 170 subdomains demonstrates that Anagent achieves substantial improvements, up to $\uparrow 13.43\%$ in training-free settings and $\uparrow 42.12\%$ with finetuning, while revealing that task-oriented reasoning and context-aware problem-solving are essential for high-quality scientific table \& figure analysis. Our project page: https://xhguo7.github.io/Anagent/.