TRACER: Verifiable Generative Provenance for Multimodal Tool-Using Agents

📄 arXiv: 2605.09934v1 📥 PDF

作者: Bihui Yu, Caijun Jia, Jing Chi, Xiaohan Liu, Yining Wang, He Bai, Yuchen Liu, Jingxuan Wei, Junnan Zhu

分类: cs.CL

发布日期: 2026-05-11


💡 一句话要点

提出TRACER框架:通过生成式溯源机制解决多模态工具代理的证据缺失问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大模型 工具学习 可解释AI 溯源机制 强化学习 视觉推理

📋 核心要点

  1. 现有工具代理仅提供执行轨迹,缺乏结论与工具观测间的细粒度依赖结构,导致推理过程难以验证与优化。
  2. TRACER框架在生成答案的同时同步构建结构化溯源记录,通过引用、压缩、推理三种语义关系建立证据链。
  3. 实验显示TRACER在TRACE-Bench上大幅提升准确率,并显著降低了测试集的工具调用频率,实现了更高效的推理。

📝 摘要(中文)

多模态大语言模型通过调用外部工具处理视觉任务,但现有代理通常仅输出执行轨迹和最终答案,缺乏对生成结论的细粒度证据支持,即存在“溯源鸿沟”。该鸿沟导致工具使用难以验证与优化。本文提出TRACER框架,在生成答案的同时构建结构化溯源记录,明确支持工具轮次、证据单元及语义关系(引用、压缩、推理)。TRACER通过模式检查、对齐、真实性验证及关系合理性评估,将溯源转化为可追溯性约束与强化学习的局部信用分配。此外,作者构建了TRACE-Bench基准。实验表明,TRACER在Qwen3-VL-8B上实现78.23%的答案准确率,显著优于现有基线,并有效减少了冗余工具调用,证明了可靠的多模态推理依赖于对观测结果的溯源感知。

🔬 方法详解

问题定义:论文旨在解决多模态工具代理中的“溯源鸿沟”问题。现有模型在调用工具后,无法明确指出生成结论的具体证据来源,导致模型推理过程中的有用证据、冗余探索与错误推理混杂,难以进行有效的验证与性能优化。

核心思路:TRACER的核心思想是将溯源过程与文本生成过程深度耦合。模型不再是事后添加引用,而是在生成每个句子时,同步生成包含支持工具轮次、证据单元及语义关系(引用、压缩、推理)的结构化记录,从而确保推理过程的透明度与可验证性。

技术框架:TRACER包含三个主要阶段:首先是生成阶段,模型同步输出答案与溯源记录;其次是验证阶段,通过模式检查、工具轮次对齐、源真实性校验及关系合理性评估来过滤噪声;最后是优化阶段,将验证后的溯源信息转化为可追溯性约束,并为强化学习提供局部信用分配信号。

关键创新:最重要的创新在于定义了包含“引用、压缩、推理”的语义关系空间,将非结构化的工具输出转化为可计算的溯源图谱,并将其作为约束条件引入训练流程,实现了从“结果导向”到“证据导向”的推理范式转变。

关键设计:关键设计包括TRACE-Bench基准的构建,用于评估句子级溯源重构能力;以及将溯源信息转化为局部信用分配(Local Credit),这使得模型能够通过强化学习更精准地学习哪些工具调用对最终结论有贡献,从而减少冗余调用。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在TRACE-Bench基准测试中,TRACER在Qwen3-VL-8B模型上达到了78.23%的答案准确率和95.72%的摘要准确率,较最强闭源基线提升了23.80个百分点。同时,该方法将测试集工具调用次数从4949次大幅降低至3486次,证明了溯源感知能显著提升推理效率与准确性。

🎯 应用场景

该研究适用于需要高可信度与可解释性的多模态任务,如医疗影像诊断、法律文档分析、复杂科学数据检索等。通过引入溯源机制,系统不仅能提供答案,还能展示证据链,极大提升了AI在工业级应用中的可靠性与审计能力,并能有效降低高昂的工具调用成本。

📄 摘要(原文)

Multimodal large language models increasingly solve vision-centric tasks by calling external tools for visual inspection, OCR, retrieval, calculation, and multi-step reasoning. Current tool-using agents usually expose the executed tool trajectory and the final answer, but they rarely specify which tool observation supports each generated claim. We call this missing claim-level dependency structure the provenance gap. The gap makes tool use hard to verify and hard to optimize, because useful evidence, redundant exploration, and unsupported reasoning are mixed in the same trajectory. We introduce TRACER, a framework for verifiable generative provenance in multimodal tool-using agents. Instead of adding citations after generation, TRACER generates each answer sentence together with a structured provenance record that identifies the supporting tool turn, evidence unit, and semantic support relation. Its relation space contains Quotation, Compression, and Inference, covering direct reuse, faithful condensation, and grounded derivation. TRACER verifies each record through schema checking, tool-turn alignment, source authenticity, and relation rationality, and then converts verified provenance into traceability constraints and provenance-derived local credit for reinforcement learning. We further construct TRACE-Bench, a benchmark for sentence-level provenance reconstruction from coarse multimodal tool trajectories. On TRACE-Bench, simply adding tools often introduces noise. With Qwen3-VL-8B, TRACER reaches 78.23% answer accuracy and 95.72% summary accuracy, outperforming the strongest closed-source tool-augmented baseline by 23.80 percentage points. Compared with tool-only supervised fine-tuning, it also reduces total test-set tool calls from 4949 to 3486. These results show that reliable multimodal tool reasoning depends on provenance-aware use of observations, not on more tool calls alone.