Towards Omnidirectional Reasoning with 360-R1: A Dataset, Benchmark, and GRPO-based Method
作者: Xinshen Zhang, Zhen Ye, Xu Zheng
分类: cs.CV
发布日期: 2025-05-20
💡 一句话要点
提出OmniVQA数据集与360-R1方法,提升全景视觉问答能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 全景视觉问答 多模态大语言模型 强化学习 群体相对策略优化 OmniVQA数据集 360度图像 视觉推理
📋 核心要点
- 现有MLLM在全景图像理解和推理方面存在不足,尤其是在物体定位、特征提取和抑制幻觉方面面临挑战。
- 论文提出OmniVQA数据集和360-R1方法,利用规则的强化学习优化,提升模型在全景视觉问答任务中的性能。
- 实验结果表明,提出的360-R1方法在OmniVQA数据集上取得了显著的性能提升,验证了其有效性。
📝 摘要(中文)
本文针对多模态大语言模型(MLLM)在理解和推理全景图像方面的不足,提出了OmniVQA数据集,这是首个用于全景视觉问答的数据集和基准。通过对现有MLLM的评估,揭示了其在全景环境中物体定位、特征提取和抑制幻觉方面的局限性。为了解决这些问题,本文基于Qwen2.5-VL-Instruct,提出了一种基于规则的强化学习方法360-R1。具体来说,通过修改群体相对策略优化(GRPO),提出了三个新的奖励函数:推理过程相似性奖励、答案语义准确性奖励和结构化格式合规性奖励。在OmniVQA上的实验结果表明,该方法在全景空间中具有优越性,性能提升了6%。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型(MLLMs)在全景视觉问答(Omnidirectional Visual Question Answering, OmniVQA)任务中的不足。现有方法在处理360°全景图像时,面临物体定位不准确、特征提取不充分以及容易产生幻觉等问题,导致无法有效理解和推理全景场景。
核心思路:论文的核心思路是利用强化学习,通过设计合适的奖励函数来引导模型学习更有效的推理策略,从而提升其在全景视觉问答任务中的性能。具体来说,通过修改群体相对策略优化(GRPO),并结合针对全景图像特点设计的奖励函数,使模型能够更好地理解全景场景并生成准确的答案。
技术框架:360-R1方法基于Qwen2.5-VL-Instruct模型,并对其进行改进。整体框架包括以下几个主要步骤:1) 使用Qwen2.5-VL-Instruct模型作为基础模型;2) 利用OmniVQA数据集进行训练;3) 在训练过程中,使用修改后的GRPO算法,结合三个新的奖励函数来优化模型的策略;4) 最终得到一个能够有效处理全景视觉问答任务的模型。
关键创新:论文的关键创新在于提出了三个新的奖励函数,分别是:推理过程相似性奖励(鼓励模型生成与人类推理过程相似的推理路径)、答案语义准确性奖励(鼓励模型生成语义上准确的答案)和结构化格式合规性奖励(鼓励模型生成符合预定义格式的答案)。这些奖励函数的设计充分考虑了全景视觉问答任务的特点,能够有效地引导模型学习。
关键设计:论文中,推理过程相似性奖励通过计算模型生成的推理路径与人工标注的推理路径之间的相似度来衡量。答案语义准确性奖励通过计算模型生成的答案与正确答案之间的语义相似度来衡量。结构化格式合规性奖励通过检查模型生成的答案是否符合预定义的格式来衡量。这些奖励函数的具体计算方式和权重设置是影响模型性能的关键因素。
🖼️ 关键图片
📊 实验亮点
实验结果表明,提出的360-R1方法在OmniVQA数据集上取得了显著的性能提升,相比于基线模型,性能提升了6%。这表明该方法能够有效地提升模型在全景视觉问答任务中的性能,验证了其有效性。此外,消融实验也验证了各个奖励函数的有效性。
🎯 应用场景
该研究成果可应用于增强现实、虚拟现实、机器人导航、智能监控等领域。例如,在增强现实中,可以利用全景视觉问答技术帮助用户更好地理解周围环境;在机器人导航中,可以帮助机器人更好地感知和理解周围环境,从而实现更智能的导航;在智能监控中,可以帮助监控系统更好地分析和理解监控画面,从而提高监控效率。
📄 摘要(原文)
Omnidirectional images (ODIs), with their 360° field of view, provide unparalleled spatial awareness for immersive applications like augmented reality and embodied AI. However, the capability of existing multi-modal large language models (MLLMs) to comprehend and reason about such panoramic scenes remains underexplored. This paper addresses this gap by introducing OmniVQA, the first dataset and conducting the first benchmark for omnidirectional visual question answering. Our evaluation of state-of-the-art MLLMs reveals significant limitations in handling omnidirectional visual question answering, highlighting persistent challenges in object localization, feature extraction, and hallucination suppression within panoramic contexts. These results underscore the disconnect between current MLLM capabilities and the demands of omnidirectional visual understanding, which calls for dedicated architectural or training innovations tailored to 360° imagery. Building on the OmniVQA dataset and benchmark, we further introduce a rule-based reinforcement learning method, 360-R1, based on Qwen2.5-VL-Instruct. Concretely, we modify the group relative policy optimization (GRPO) by proposing three novel reward functions: (1) reasoning process similarity reward, (2) answer semantic accuracy reward, and (3) structured format compliance reward. Extensive experiments on our OmniVQA demonstrate the superiority of our proposed method in omnidirectional space (+6% improvement).