Photon: Speedup Volume Understanding with Efficient Multimodal Large Language Models
作者: Chengyu Fang, Heng Guo, Zheng Jiang, Chunming He, Xiu Li, Minfeng Xu
分类: cs.CV, cs.AI
发布日期: 2026-03-26
备注: Accepted by ICLR 2026
💡 一句话要点
Photon:利用高效多模态大语言模型加速三维医学影像理解
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 三维医学影像 多模态大语言模型 视觉问答 token调度 梯度恢复
📋 核心要点
- 现有3D医学影像的视觉问答方法计算成本高昂,且破坏了体积连续性,易忽略细微病灶。
- Photon通过指令条件下的token调度和代理梯度传播,自适应减少token数量,降低计算成本。
- 实验表明,Photon在多种医学视觉问答任务上,实现了更优的准确率,同时降低了资源消耗。
📝 摘要(中文)
多模态大语言模型在临床视觉问答任务中展现出潜力,但扩展到三维成像面临高昂的计算成本。现有方法通常依赖于二维切片或固定长度的token压缩,破坏了体积连续性并掩盖了细微的病灶。我们提出了Photon,一个使用变长token序列表示三维医学体积的框架。Photon引入了指令条件下的token调度和代理梯度传播,以在训练和推理过程中自适应地减少token数量,从而降低计算成本,同时减轻冗余token引起的注意力稀释。它结合了具有梯度恢复的自定义反向传播规则,以实现离散token丢弃情况下的可微优化。为了稳定token压缩并确保视觉证据的可靠使用,Photon进一步应用了正则化目标,以减轻仅语言偏见并提高可靠性。在各种医学视觉问答任务上的实验表明,Photon在降低资源使用和加速训练与推理的同时,实现了最先进的准确性。
🔬 方法详解
问题定义:论文旨在解决三维医学影像视觉问答任务中,现有方法计算成本高昂的问题。现有方法如基于2D切片或固定长度token压缩,破坏了三维体积的连续性,并且容易忽略细微的病灶,导致诊断准确率下降。
核心思路:论文的核心思路是使用变长token序列来表示三维医学体积,并自适应地减少token数量,从而降低计算成本,同时保留关键的体积信息。通过指令条件下的token调度,模型可以根据任务需求动态调整token数量,避免冗余计算。
技术框架:Photon框架主要包含以下几个模块:1) 三维医学影像的token化表示;2) 指令条件下的token调度模块,用于自适应地选择重要的token;3) 多模态大语言模型,用于处理视觉和文本信息,并生成答案;4) 梯度恢复模块,用于解决离散token丢弃带来的梯度消失问题。整体流程是:输入三维医学影像和问题,经过token化和token调度后,输入到多模态大语言模型中,最终生成答案。
关键创新:Photon的关键创新在于:1) 提出了指令条件下的token调度机制,可以根据任务需求自适应地减少token数量;2) 引入了代理梯度传播和梯度恢复机制,解决了离散token丢弃带来的梯度消失问题,使得模型可以进行端到端的训练;3) 设计了正则化目标,减轻了仅语言偏见,提高了模型对视觉证据的依赖性。
关键设计:在token调度模块中,使用了可学习的调度策略,根据指令和视觉特征动态调整token的保留概率。在梯度恢复模块中,设计了一种自定义的反向传播规则,通过梯度估计和恢复,使得模型可以有效地学习。此外,还使用了对比学习等正则化方法,鼓励模型学习更鲁棒的视觉表示。
🖼️ 关键图片
📊 实验亮点
Photon在多种医学视觉问答任务上取得了state-of-the-art的性能,同时显著降低了计算资源的使用。具体来说,Photon在保持甚至提升准确率的同时,能够减少训练和推理时间,并且降低GPU内存消耗。实验结果表明,Photon能够有效地平衡计算成本和性能,为三维医学影像分析提供了一种高效的解决方案。
🎯 应用场景
Photon框架可应用于多种医学影像分析任务,例如疾病诊断、病灶检测、治疗方案制定等。通过降低计算成本和提高诊断准确率,Photon有望加速临床决策过程,并提升医疗服务的质量和效率。未来,该技术还可以扩展到其他三维数据分析领域,例如遥感影像分析、工业检测等。
📄 摘要(原文)
Multimodal large language models are promising for clinical visual question answering tasks, but scaling to 3D imaging is hindered by high computational costs. Prior methods often rely on 2D slices or fixed-length token compression, disrupting volumetric continuity and obscuring subtle findings. We present Photon, a framework that represents 3D medical volumes with token sequences of variable length. Photon introduces instruction-conditioned token scheduling and surrogate gradient propagation to adaptively reduce tokens during both training and inference, which lowers computational cost while mitigating the attention dilution caused by redundant tokens. It incorporates a custom backpropagation rule with gradient restoration to enable differentiable optimization despite discrete token drop. To stabilize token compression and ensure reliable use of visual evidence, Photon further applies regularization objectives that mitigate language-only bias and improve reliability. Experiments on diverse medical visual question answering tasks show that Photon achieves state-of-the-art accuracy while reducing resource usage and accelerating both training and inference.