ForensicZip: More Tokens are Better but Not Necessary in Forensic Vision-Language Models

作者: Yingxin Lai, Zitong Yu, Jun Wang, Linlin Shen, Yong Xu, Xiaochun Cao

分类: cs.CV

发布日期: 2026-03-12

💡 一句话要点

提出ForensicZip以解决高分辨率图像取证中的计算成本问题

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大型语言模型 视觉令牌修剪 取证驱动 深伪检测 高频先验 最优运输问题 计算效率 图像处理

📋 核心要点

现有的视觉令牌修剪方法主要基于语义，导致重要的操控痕迹被忽视，计算成本高。
本文提出ForensicZip，从取证驱动的角度重新构建令牌压缩，解决了现有方法的不足。
在深伪和AIGC基准测试中，ForensicZip在10%令牌保留率下实现了2.97倍的速度提升和超过90%的FLOPs减少。

📝 摘要（中文）

多模态大型语言模型（MLLMs）通过生成文本推理来实现可解释的多媒体取证。然而，处理密集的视觉序列会导致高计算成本，尤其是在高分辨率图像和视频中。现有的视觉令牌修剪方法主要基于语义，保留显著物体而丢弃背景区域，导致重要的操控痕迹被忽视。为了解决这一问题，本文提出了ForensicZip，一个无训练的框架，从取证驱动的角度重新构建令牌压缩。ForensicZip将时间令牌演变建模为带有松弛虚拟节点的出生-死亡最优运输问题，量化指示瞬态生成伪影的物理不连续性。实验表明，在10%的令牌保留率下，ForensicZip实现了2.97倍的加速和超过90%的FLOPs减少，同时保持了最先进的检测性能。

🔬 方法详解

问题定义：本文旨在解决高分辨率图像和视频处理中的计算成本问题。现有方法在视觉令牌修剪时，主要关注语义，导致重要的操控痕迹（如高频异常和时间抖动）被忽视。

核心思路：ForensicZip通过将令牌压缩视为取证驱动的问题，重新定义了视觉信息的处理方式。它通过建模时间令牌的演变，关注物理不连续性，从而更有效地识别操控痕迹。

技术框架：ForensicZip的整体架构包括两个主要模块：首先是基于出生-死亡最优运输问题的令牌演变建模，其次是结合运输基础的新颖性与高频先验的取证评分。

关键创新：ForensicZip的创新在于其无训练的框架和取证驱动的令牌压缩方法，与现有的语义驱动方法本质上不同，能够更好地捕捉操控痕迹。

关键设计：在设计中，ForensicZip引入了松弛虚拟节点以量化物理不连续性，并通过高频先验来增强取证评分的准确性，确保在高压缩比下仍能有效分离取证证据与语义内容。

🖼️ 关键图片

📊 实验亮点

ForensicZip在深伪和AIGC基准测试中表现出色，在10%的令牌保留率下实现了2.97倍的速度提升和超过90%的FLOPs减少，且保持了最先进的检测性能。这一结果表明，ForensicZip在处理高分辨率图像和视频时具有显著的效率优势。

🎯 应用场景

该研究在多媒体取证领域具有广泛的应用潜力，尤其是在深伪检测和生成内容的真实性验证中。ForensicZip的高效性和准确性能够帮助执法机构和内容审核平台快速识别和处理伪造内容，提升社会安全性。未来，该方法还可以扩展到其他需要高效视觉信息处理的领域，如视频监控和智能安防。

📄 摘要（原文）

Multimodal Large Language Models (MLLMs) enable interpretable multimedia forensics by generating textual rationales for forgery detection. However, processing dense visual sequences incurs high computational costs, particularly for high-resolution images and videos. Visual token pruning is a practical acceleration strategy, yet existing methods are largely semantic-driven, retaining salient objects while discarding background regions where manipulation traces such as high-frequency anomalies and temporal jitters often reside. To address this issue, we introduce ForensicZip, a training-free framework that reformulates token compression from a forgery-driven perspective. ForensicZip models temporal token evolution as a Birth-Death Optimal Transport problem with a slack dummy node, quantifying physical discontinuities indicating transient generative artifacts. The forensic scoring further integrates transport-based novelty with high-frequency priors to separate forensic evidence from semantic content under large-ratio compression. Experiments on deepfake and AIGC benchmarks show that at 10\% token retention, ForensicZip achieves $2.97\times$ speedup and over 90\% FLOPs reduction while maintaining state-of-the-art detection performance.

ForensicZip: More Tokens are Better but Not Necessary in Forensic Vision-Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理