EgoPrune: Efficient Token Pruning for Egomotion Video Reasoning in Embodied Agent

📄 arXiv: 2507.15428v1 📥 PDF

作者: Jiaao Li, Kaiyuan Li, Chen Gao, Yong Li, Xinlei Chen

分类: cs.CV, cs.AI

发布日期: 2025-07-21


💡 一句话要点

EgoPrune:面向具身智能Egomotion视频推理的高效Token剪枝方法

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Egomotion视频 Token剪枝 具身智能 视频推理 透视变换

📋 核心要点

  1. 现有token剪枝方法难以有效利用Egomotion视频的时空连续性和运动约束。
  2. EgoPrune通过关键帧选择、透视感知冗余过滤和MMR选择器实现高效token剪枝。
  3. 实验表明EgoPrune显著降低了计算成本,并在边缘设备上实现了高效推理。

📝 摘要(中文)

Egomotion视频是第一人称视角的记录,由于智能体的移动,视角会持续变化。由于它们是具身AI智能体的主要视觉输入,因此提高egomotion视频推理的效率对于实际部署至关重要。视觉-语言模型的最新进展实现了强大的多模态推理能力,但其计算成本对于冗长的视频输入仍然过高。现有的token剪枝方法通常为第三人称视频设计,无法利用egomotion设置中固有的时空连续性和运动约束。为了解决这个问题,我们提出EgoPrune,一种为egomotion视频推理量身定制的免训练token剪枝方法。EgoPrune包含三个组成部分:一个从EmbodiedR改编而来的关键帧选择器,用于时间上高效的采样;透视感知冗余过滤(PARF),它使用透视变换对齐视觉token并删除冗余token;以及一个基于最大边缘相关性(MMR)的token选择器,它共同考虑视觉-文本相关性和帧内多样性。在两个egomotion视频基准上的实验表明,EgoPrune在各种剪枝率下始终优于先前的免训练方法,同时显著降低了FLOPs、内存使用和延迟。此外,我们将EgoPrune部署在配备Jetson Orin NX 16GB边缘设备的具身智能体上,证明了其在实际应用中的效率和适用于设备上egomotion视频推理。

🔬 方法详解

问题定义:现有token剪枝方法主要针对第三人称视角视频设计,忽略了Egomotion视频特有的时空连续性和运动约束,导致在Egomotion视频推理任务中效率低下。这些方法无法有效去除冗余token,造成计算资源的浪费,限制了在资源受限设备上的部署。

核心思路:EgoPrune的核心思路是利用Egomotion视频的透视变换关系,对齐相邻帧的视觉token,从而识别并去除冗余信息。同时,结合关键帧选择和最大边缘相关性(MMR)策略,保证token选择的时效性和多样性,最终实现高效的token剪枝。这样设计能够在保证推理性能的同时,显著降低计算复杂度。

技术框架:EgoPrune包含三个主要模块:1) 关键帧选择器:从EmbodiedR改编,用于高效地选择具有代表性的关键帧,减少后续处理的视频帧数量。2) 透视感知冗余过滤(PARF):利用透视变换对齐相邻帧的视觉token,计算token之间的相似度,并去除冗余token。3) 基于MMR的token选择器:综合考虑视觉-文本相关性和帧内多样性,选择最具代表性的token子集。整个流程首先进行关键帧采样,然后对选定的帧进行PARF过滤,最后使用MMR选择器进行token选择。

关键创新:EgoPrune的关键创新在于透视感知冗余过滤(PARF)模块。PARF利用Egomotion视频的透视变换关系,将不同帧的视觉token对齐到同一视角下,从而能够更准确地识别和去除冗余信息。与传统的token剪枝方法相比,PARF能够更好地利用Egomotion视频的特性,实现更高效的token剪枝。

关键设计:PARF模块的关键设计在于透视变换矩阵的估计和相似度度量。论文采用了一种基于特征匹配的方法来估计相邻帧之间的透视变换矩阵。相似度度量采用余弦相似度,并设置阈值来判断token是否冗余。MMR选择器中,视觉-文本相关性通过计算视觉token和文本token之间的交叉注意力得分来衡量,帧内多样性通过计算token之间的距离来衡量。最终的MMR得分是视觉-文本相关性和帧内多样性的加权和。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,EgoPrune在两个Egomotion视频基准测试中,在各种剪枝率下均优于现有的免训练token剪枝方法。具体而言,EgoPrune在保持相似性能的同时,显著降低了FLOPs、内存使用和延迟。此外,EgoPrune成功部署在Jetson Orin NX 16GB边缘设备上,验证了其在实际应用中的效率和可行性。

🎯 应用场景

EgoPrune适用于各种需要高效Egomotion视频推理的具身智能应用,例如机器人导航、场景理解、物体识别和人机交互。该方法可以部署在资源受限的边缘设备上,实现实时的Egomotion视频处理,为智能体提供更快速、更准确的环境感知能力,从而提升智能体的自主性和适应性。未来,EgoPrune可以进一步扩展到其他类型的视频推理任务中。

📄 摘要(原文)

Egomotion videos are first-person recordings where the view changes continuously due to the agent's movement. As they serve as the primary visual input for embodied AI agents, making egomotion video reasoning more efficient is therefore essential for real-world deployment. Recent advances in vision-language models have enabled strong multimodal reasoning capabilities, but their computational cost remains prohibitive for long, redundant video inputs. Existing token pruning methods, typically designed for third-person videos, fail to leverage the spatiotemporal continuity and motion constraints inherent in egomotion settings. To address this, we propose EgoPrune, a training-free token pruning method tailored for egomotion video reasoning. EgoPrune comprises three components: a keyframe selector adapted from EmbodiedR for temporally efficient sampling; Perspective-Aware Redundancy Filtering (PARF), which aligns visual tokens using perspective transformations and removes redundant tokens; and a Maximal Marginal Relevance (MMR)-based token selector that jointly considers visual-text relevance and intra-frame diversity. Experiments on two egomotion video benchmarks show that EgoPrune consistently outperforms prior training-free methods across various pruning ratios while significantly reducing FLOPs, memory usage, and latency. Moreover, we deploy EgoPrune on an embodied agent equipped with a Jetson Orin NX 16GB edge device, demonstrating its real-world efficiency and suitability for on-device egomotion video reasoning.