Video-STAR: Reinforcing Open-Vocabulary Action Recognition with Tools
作者: Zhenlong Yuan, Xiangyan Qu, Chengxuan Qian, Rui Chen, Jing Tang, Lei Sun, Xiangxiang Chu, Dapeng Zhang, Yiwei Wang, Yujun Cai, Shuo Li
分类: cs.CV
发布日期: 2025-10-09
💡 一句话要点
Video-STAR:利用工具增强的强化学习进行开放词汇动作识别
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 开放词汇动作识别 多模态学习 强化学习 子动作分解 工具增强
📋 核心要点
- 现有开放词汇动作识别方法难以区分语义相似的动作,且易受文本先验知识影响,产生跨模态幻觉。
- Video-STAR将动作分解为可区分的子动作,并利用工具增强的强化学习动态调用领域工具,实现细粒度匹配和类别推理。
- 实验结果表明,Video-STAR在多个数据集上取得了SOTA性能,有效区分细粒度动作并减少跨模态幻觉。
📝 摘要(中文)
多模态大型语言模型(MLLM)在连接视觉和文本推理方面表现出卓越的潜力,但它们对以文本为中心的先验知识的依赖,常常限制了它们在开放词汇场景中区分语义相似动作的能力。为了解决这个问题,我们提出了Video-STAR,一个将上下文子动作分解与工具增强的强化学习相结合的框架,用于开放词汇动作识别(OVAR)。与先前将动作视为单一实体的方法不同,我们的方法创新性地将动作分解为可区分的子动作以进行细粒度匹配,同时动态地调用特定领域的工具进行跨模态交错,从而实现特定类别的推理能力并减少跨模态幻觉。此外,通过设计一个分层奖励,平衡工具使用效率、子动作相关性和推理中的结构连贯性,我们的方法自主地利用外部工具来优先考虑子动作模式,而无需显式监督,从而从以文本为中心的推理过渡到视觉基础的推理。在HMDB-51、UCF-101、SSv2、Kinetics-400和Kinetics-600数据集上的大量评估表明,我们的方法具有最先进的性能,在区分细粒度动作和处理跨模态幻觉方面优于现有方法,验证了我们卓越的鲁棒性和泛化性。
🔬 方法详解
问题定义:论文旨在解决开放词汇动作识别(OVAR)中,多模态大型语言模型(MLLM)难以区分语义相似动作,且容易受到文本先验知识影响,产生跨模态幻觉的问题。现有方法通常将动作视为一个整体,忽略了动作内部的细粒度结构信息,并且过度依赖文本信息,导致视觉信息利用不足。
核心思路:论文的核心思路是将动作分解为更具区分性的子动作(sub-motions),并利用工具增强的强化学习(Tool-augmented Reinforcement Learning)动态地调用外部工具,从而实现细粒度的跨模态推理。通过子动作分解,模型可以关注动作的局部细节,从而更好地区分相似动作。通过工具增强,模型可以利用外部知识来辅助推理,减少对文本先验知识的依赖。
技术框架:Video-STAR框架主要包含以下几个模块:1) 子动作分解模块:将输入的视频分解为一系列子动作。具体如何分解,论文中未详细说明,可能是通过预训练模型或人工标注的方式。2) 工具增强模块:根据当前的状态(例如,已经识别的子动作),动态地选择合适的外部工具。工具的具体类型未知,可能包括动作属性查询、场景信息检索等。3) 强化学习模块:利用强化学习算法训练一个策略网络,该策略网络负责选择合适的子动作和工具,并根据环境的反馈(奖励)不断优化策略。4) 动作识别模块:根据最终的子动作序列和工具调用结果,预测动作的类别。
关键创新:论文的关键创新在于:1) 提出了一种基于子动作分解的动作表示方法,能够更好地捕捉动作的细粒度信息。2) 引入了工具增强的强化学习,使得模型能够动态地利用外部知识来辅助推理,从而减少对文本先验知识的依赖。3) 设计了一种分层奖励函数,能够平衡工具使用效率、子动作相关性和推理的结构连贯性。
关键设计:论文中关于子动作分解模块和工具增强模块的具体实现细节描述较少,例如,如何进行子动作分解,有哪些类型的工具,如何选择合适的工具等。奖励函数的设计是关键,需要平衡多个目标,包括工具使用效率、子动作相关性和推理的结构连贯性。具体的网络结构和参数设置未知。
📊 实验亮点
Video-STAR在HMDB-51、UCF-101、SSv2、Kinetics-400和Kinetics-600等多个数据集上取得了state-of-the-art的性能,尤其在区分细粒度动作和处理跨模态幻觉方面表现突出,验证了其鲁棒性和泛化能力。具体的性能提升数据未知。
🎯 应用场景
该研究成果可应用于智能监控、视频内容分析、人机交互等领域。例如,在智能监控中,可以利用该技术更准确地识别异常行为;在视频内容分析中,可以自动识别视频中的动作,从而实现视频内容的自动标注和检索;在人机交互中,可以识别用户的动作,从而实现更自然的人机交互。
📄 摘要(原文)
Multimodal large language models (MLLMs) have demonstrated remarkable potential in bridging visual and textual reasoning, yet their reliance on text-centric priors often limits their ability to disentangle semantically similar actions in open-vocabulary scenarios. To address this, we propose Video-STAR, a framework that harmonizes contextual sub-motion decomposition with tool-augmented reinforcement learning for open-vocabulary action recognition (OVAR). Unlike prior methods that treat actions as monolithic entities, our approach innovatively decomposes actions into discriminative sub-motions for fine-grained matching while dynamically invoking domain-specific tools for cross-modal interleaving, thereby enabling category-specific reasoning capacity and reducing cross-modal hallucination. Moreover, by designing a hierarchical reward that balances tool-usage efficiency, sub-motion relevance, and structural coherence in reasoning, our method autonomously leverages external tools to prioritize sub-motion patterns without explicit supervision, transmitting from text-centric reasoning to visually grounded inference. Extensive evaluations on HMDB-51, UCF-101, SSv2, Kinetics-400, and Kinetics-600 datasets demonstrate our state-of-the-art performance, outperforming existing methods in distinguishing fine-grained actions and handling cross-modal hallucination, validating our excellent robustness and generalization.