Tree-of-Evidence: Efficient "System 2" Search for Faithful Multimodal Grounding

📄 arXiv: 2604.07692v1 📥 PDF

作者: Micky C. Nnamdi, Benoit L. Marteau, Yishan Zhong, J. Ben Tamo, May D. Wang

分类: cs.LG

发布日期: 2026-04-09

期刊: ACL 2026 Findings


💡 一句话要点

提出Tree-of-Evidence算法,用于提升多模态大模型的决策可解释性与忠实度

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 可解释性AI 证据推理 临床预测 波束搜索

📋 核心要点

  1. 现有LMM的可解释性方法(如注意力机制)难以忠实反映模型在异构模态融合时的决策过程。
  2. Tree-of-Evidence (ToE) 算法将可解释性问题转化为离散优化问题,通过搜索关键证据单元来解释模型预测。
  3. 实验表明,ToE在保持预测性能的同时,能够生成可审计的证据链,并优于其他可解释性方法。

📝 摘要(中文)

大型多模态模型(LMMs)在医疗等高风险领域表现出色,但其推理过程仍然不透明。现有的可解释性方法,如注意力机制或事后显著性分析,通常无法忠实地表示模型的决策过程,尤其是在整合时间序列和文本等异构模态时。我们引入了Tree-of-Evidence (ToE),这是一种推理时搜索算法,将可解释性构建为一个离散优化问题。ToE不依赖于软注意力权重,而是采用轻量级的证据瓶颈来评估粗粒度的数据组或单元(例如,生命体征窗口、报告语句),并执行波束搜索以识别重现模型预测所需的紧凑证据集。我们在涵盖三个数据集和两个领域的六项任务中评估了ToE:MIMIC-IV上的四项临床预测任务、eICU上的跨中心验证以及LEMMA-RCA上的非临床故障检测。ToE生成可审计的证据追踪,同时保持预测性能,在所有设置中,仅使用五个证据单元即可保留超过0.98的完整模型AUROC。在稀疏证据预算下,ToE比其他方法实现了更高的决策一致性和更低的概率保真度误差。定性分析表明,ToE调整了其搜索策略:它通常仅使用生命体征即可解决简单的案例,而在生理信号不明确时有选择地结合文本。因此,ToE提供了一种实用的机制,通过揭示支持每个预测的离散证据单元来审计多模态模型。

🔬 方法详解

问题定义:大型多模态模型在医疗等领域应用广泛,但其决策过程如同黑盒,缺乏透明度和可解释性。现有的可解释性方法,如注意力机制,无法准确反映模型如何整合不同模态的信息进行决策,尤其是在处理时间序列和文本等异构数据时,容易产生误导性的解释,影响模型的可信度和应用安全性。

核心思路:Tree-of-Evidence (ToE) 的核心思路是将可解释性问题转化为一个离散优化问题,即从所有可能的证据单元(例如,时间序列窗口、文本句子)中选择一个最小的子集,使得基于该子集的模型预测结果与原始模型的预测结果尽可能一致。通过这种方式,ToE 能够揭示模型决策的关键证据,提供更清晰、更忠实的解释。

技术框架:ToE 的整体框架包括以下几个主要步骤:1) 证据单元划分:将输入数据划分为离散的证据单元,例如,将时间序列数据划分为时间窗口,将文本数据划分为句子。2) 证据瓶颈:使用轻量级的证据瓶颈(Evidence Bottleneck)对每个证据单元进行评分,评估其对模型预测的重要性。3) 波束搜索:使用波束搜索算法,从所有可能的证据单元组合中搜索最优的证据子集,使得基于该子集的模型预测结果与原始模型的预测结果尽可能一致。4) 证据追踪:生成可审计的证据追踪,记录模型决策的关键证据单元。

关键创新:ToE 的关键创新在于其将可解释性问题转化为离散优化问题,并使用波束搜索算法来寻找最优的证据子集。与传统的基于注意力机制的可解释性方法不同,ToE 不依赖于软注意力权重,而是直接选择对模型预测影响最大的证据单元,从而提供更清晰、更忠实的解释。此外,ToE 使用轻量级的证据瓶颈,降低了计算复杂度,使其能够应用于大规模多模态模型。

关键设计:ToE 的关键设计包括:1) 证据瓶颈的设计:证据瓶颈可以使用简单的线性层或卷积层来实现,其目标是学习每个证据单元的评分,评分越高表示该证据单元对模型预测越重要。2) 波束搜索的参数设置:波束搜索的宽度(beam size)和深度(depth)需要根据具体的任务和数据集进行调整,以在计算复杂度和搜索效果之间取得平衡。3) 损失函数的设计:损失函数用于衡量基于证据子集的模型预测结果与原始模型的预测结果之间的差异,可以使用交叉熵损失或均方误差损失等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ToE在多个数据集和任务上都取得了优异的性能。在MIMIC-IV数据集上,ToE仅使用5个证据单元即可保留超过0.98的完整模型AUROC。在稀疏证据预算下,ToE比其他方法实现了更高的决策一致性和更低的概率保真度误差。定性分析表明,ToE能够根据不同的输入数据调整搜索策略,选择最相关的证据单元。

🎯 应用场景

Tree-of-Evidence算法可应用于医疗、金融、自动驾驶等多个领域,提升多模态模型的透明度和可信度。在医疗领域,医生可以利用ToE来理解AI模型诊断结果的关键依据,辅助临床决策。在金融领域,ToE可以帮助分析师理解模型预测股票走势的原因,降低投资风险。在自动驾驶领域,ToE可以解释模型做出驾驶决策的依据,提高驾驶安全性。

📄 摘要(原文)

Large Multimodal Models (LMMs) achieve state-of-the-art performance in high-stakes domains like healthcare, yet their reasoning remains opaque. Current interpretability methods, such as attention mechanisms or post-hoc saliency, often fail to faithfully represent the model's decision-making process, particularly when integrating heterogeneous modalities like time-series and text. We introduce Tree-of-Evidence (ToE), an inference-time search algorithm that frames interpretability as a discrete optimization problem. Rather than relying on soft attention weights, ToE employs lightweight Evidence Bottlenecks that score coarse groups or units of data (e.g., vital-sign windows, report sentences) and performs a beam search to identify the compact evidence set required to reproduce the model's prediction. We evaluate ToE across six tasks spanning three datasets and two domains: four clinical prediction tasks on MIMIC-IV, cross-center validation on eICU, and non-clinical fault detection on LEMMA-RCA. ToE produces auditable evidence traces while maintaining predictive performance, retaining over 0.98 of full-model AUROC with as few as five evidence units across all settings. Under sparse evidence budgets, ToE achieves higher decision agreement and lower probability fidelity error than other approaches. Qualitative analyses show that ToE adapts its search strategy: it often resolves straightforward cases using only vitals, while selectively incorporating text when physiological signals are ambiguous. ToE therefore provides a practical mechanism for auditing multimodal models by revealing which discrete evidence units support each prediction.