EARL: Towards a Unified Analysis-Guided Reinforcement Learning Framework for Egocentric Interaction Reasoning and Pixel Grounding
作者: Yuejiao Su, Xinshen Zhang, Zhen Ye, Lei Yao, Lap-Pui Chau, Yi Wang
分类: cs.CV, cs.RO
发布日期: 2026-05-14
备注: Accepted at ICML 2026. Project page: https://github.com/yuggiehk/EARL
💡 一句话要点
提出EARL框架,用于增强以自我为中心的交互推理和像素级定位
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 以自我为中心视觉 交互推理 像素级定位 强化学习 多模态学习
📋 核心要点
- 现有的多模态大语言模型在以自我为中心的视角下,难以准确理解人与环境的交互,尤其是在交互推理和像素级定位方面。
- EARL框架通过显式地将粗粒度的交互语义传递到面向查询的回答和定位,从而弥合了语义理解和像素定位之间的差距。
- 实验表明,EARL在像素级定位任务上显著优于现有的强化学习方法,并且具有良好的泛化能力,能够适应未见过的场景。
📝 摘要(中文)
本文提出EARL,一个以自我中心视角分析引导的强化学习框架,旨在提升交互推理和像素级定位的准确性。现有的大型多模态语言模型(MLLMs)在理解人与环境的交互方面存在困难。EARL采用两阶段解析框架,包括粗粒度解释和细粒度响应。第一阶段整体解释以自我为中心的交互,并生成结构化的文本描述。第二阶段根据用户查询生成文本答案和像素级掩码。为了连接这两个阶段,我们提取全局交互描述符作为语义先验,并通过新颖的分析引导特征合成器(AFS)进行面向查询的推理。为了优化异构输出,包括文本答案、边界框和定位掩码,我们设计了一个多方面的奖励函数,并使用GRPO训练响应阶段。在Ego-IRGBench上的实验表明,EARL在像素级定位方面实现了65.48%的cIoU,比以前基于RL的方法提高了8.37%,并且在EgoHOS上的OOD定位结果表明了对未见过的以自我为中心的定位场景的强大可迁移性。
🔬 方法详解
问题定义:论文旨在解决以自我为中心的视觉场景下,现有模型在理解人与环境交互,特别是进行精确的交互推理和像素级定位方面的不足。现有方法难以将高层语义信息与低层像素信息有效结合,导致定位精度不高。
核心思路:论文的核心思路是利用强化学习框架,通过显式地建模交互语义,并将其作为先验知识指导像素级定位。通过两阶段的解析框架,首先进行粗粒度的交互理解,然后根据用户查询进行细粒度的响应,从而实现更准确的定位。
技术框架:EARL框架包含两个主要阶段:粗粒度交互解释阶段和细粒度响应阶段。第一阶段对以自我为中心的交互进行整体解释,生成结构化的文本描述。第二阶段根据用户查询,生成文本答案和像素级掩码。框架的关键模块包括分析引导特征合成器(AFS),用于融合全局交互描述符和查询信息。
关键创新:该论文的关键创新在于提出了分析引导特征合成器(AFS),它能够有效地将全局交互描述符作为语义先验,融入到面向查询的推理过程中。此外,使用强化学习方法优化异构输出(文本、边界框、掩码)也是一个创新点。
关键设计:为了优化异构输出,论文设计了一个多方面的奖励函数,综合考虑了文本答案的准确性、边界框的IoU和像素级掩码的cIoU。响应阶段的训练使用了GRPO算法。具体网络结构和参数设置在论文中有详细描述(未知)。
🖼️ 关键图片
📊 实验亮点
EARL在Ego-IRGBench数据集上取得了显著的性能提升,像素级定位的cIoU达到了65.48%,相比之前的强化学习方法提高了8.37%。此外,在EgoHOS数据集上的OOD实验表明,EARL具有良好的泛化能力,能够适应未见过的以自我为中心的定位场景。
🎯 应用场景
该研究成果可应用于辅助机器人、具身智能体等领域,例如帮助机器人理解人类的意图并进行精确的操作。通过提升以自我为中心的交互理解能力,可以使机器人更好地与人类协作,完成各种任务,例如家庭服务、医疗辅助等。未来,该技术有望应用于智能家居、虚拟现实等领域。
📄 摘要(原文)
Understanding human--environment interactions from egocentric vision is essential for assistive robotics and embodied intelligent agents, yet existing multimodal large language models (MLLMs) still struggle with accurate interaction reasoning and fine-grained pixel grounding. To this end, this paper introduces EARL, an Egocentric Analysis-guided Reinforcement Learning framework that explicitly transfers coarse interaction semantics to query-oriented answering and grounding. Specifically, EARL adopts a two-stage parsing framework including coarse-grained interpretation and fine-grained response. The first stage holistically interprets egocentric interactions and generates a structured textual description. The second stage produces the textual answer and pixel-level mask in response to the user query. To bridge the two stages, we extract a global interaction descriptor as a semantic prior, which is integrated via a novel Analysis-guided Feature Synthesizer (AFS) for query-oriented reasoning. To optimize heterogeneous outputs, including textual answers, bounding boxes, and grounding masks, we design a multi-faceted reward function and train the response stage with GRPO. Experiments on Ego-IRGBench show that EARL achieves 65.48% cIoU for pixel grounding, outperforming previous RL-based methods by 8.37%, while OOD grounding results on EgoHOS indicate strong transferability to unseen egocentric grounding scenarios.