Compile Scene Graphs with Reinforcement Learning

📄 arXiv: 2504.13617v4 📥 PDF

作者: Zuyao Chen, Jinlin Wu, Zhen Lei, Marc Pollefeys, Chang Wen Chen

分类: cs.CV

发布日期: 2025-04-18 (更新: 2025-05-26)

🔗 代码/项目: GITHUB


💡 一句话要点

提出R1-SGG,利用强化学习编译场景图,显著提升多模态大语言模型在场景图生成任务上的性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 场景图生成 多模态大语言模型 强化学习 视觉表示 端到端学习

📋 核心要点

  1. 现有方法难以让大语言模型直接生成结构化的视觉表示,如场景图,需要模型准确生成对象和关系三元组。
  2. R1-SGG通过监督微调和强化学习相结合的方式,提升多模态大语言模型端到端生成场景图的能力。
  3. 实验表明,R1-SGG在VG150和PSG数据集上显著降低了失败率,并在召回率指标上超越了现有模型。

📝 摘要(中文)

本文提出了一种名为R1-SGG的多模态大语言模型(M-LLM),用于端到端地提取结构化的视觉表示,例如场景图。该模型首先通过在场景图数据集上进行监督微调(SFT)进行训练,然后使用强化学习进行优化,以增强其生成场景图的能力。SFT遵循传统的提示-响应范式,而强化学习则需要设计有效的奖励信号。为此,我们设计了一组以图为中心的奖励,包括三种基于召回率的变体——Hard Recall、Hard Recall+Relax和Soft Recall,它们在对象和关系级别评估预测和ground truth之间的语义和空间对齐。格式一致性奖励进一步确保输出遵循预期的结构模式。在VG150和PSG基准上的大量实验表明,R1-SGG显著降低了失败率,并在Recall和mean Recall方面取得了强大的性能,超过了传统的SGG模型和现有的多模态语言模型。

🔬 方法详解

问题定义:现有方法难以让大型语言模型(LLM)直接生成结构化的视觉表示,例如场景图。传统的场景图生成方法通常依赖于复杂的pipeline,需要单独训练目标检测器和关系分类器。而利用LLM进行端到端场景图生成,需要模型能够准确地预测一系列对象和关系三元组,这与LLM逐token生成文本的方式不同,是一个挑战。

核心思路:本文的核心思路是利用强化学习(RL)来优化多模态LLM(M-LLM)生成场景图的能力。通过设计合适的奖励函数,引导模型生成更准确、更完整的场景图。首先使用监督微调(SFT)使模型具备初步的场景图生成能力,然后通过RL进一步提升其性能。

技术框架:R1-SGG的整体框架包括两个主要阶段:监督微调(SFT)和强化学习(RL)。在SFT阶段,使用场景图数据集对M-LLM进行微调,使其学习如何根据图像生成场景图。在RL阶段,使用设计的图中心奖励函数来优化模型,使其生成更准确的场景图。奖励函数包括Hard Recall、Hard Recall+Relax、Soft Recall和格式一致性奖励。

关键创新:R1-SGG的关键创新在于使用强化学习来优化M-LLM生成场景图的能力,并设计了一组有效的图中心奖励函数。这些奖励函数能够有效地评估预测场景图与ground truth之间的语义和空间对齐程度,并引导模型生成更准确的场景图。与传统的场景图生成方法相比,R1-SGG能够实现端到端的场景图生成,无需单独训练目标检测器和关系分类器。

关键设计:奖励函数的设计是R1-SGG的关键。Hard Recall奖励只考虑完全匹配的对象和关系三元组,Hard Recall+Relax奖励允许一定程度的语义相似性,Soft Recall奖励则考虑预测和ground truth之间的部分匹配。格式一致性奖励确保输出的场景图符合预期的结构模式。这些奖励函数的权重需要根据实验结果进行调整,以达到最佳性能。

🖼️ 关键图片

fig_0
img_1
img_2

📊 实验亮点

R1-SGG在VG150和PSG数据集上取得了显著的性能提升。例如,在VG150数据集上,R1-SGG的Recall@50和mean Recall@50指标均超过了现有的SOTA模型。与传统的场景图生成模型相比,R1-SGG能够显著降低失败率,并生成更准确、更完整的场景图。实验结果表明,强化学习能够有效地提升M-LLM在场景图生成任务上的性能。

🎯 应用场景

R1-SGG在机器人导航、图像检索、视觉问答等领域具有广泛的应用前景。它可以帮助机器人理解周围环境,从而更好地进行导航和交互。在图像检索中,场景图可以作为一种有效的图像表示,提高检索的准确性。在视觉问答中,场景图可以帮助模型更好地理解图像内容,从而更准确地回答问题。未来,该研究可以扩展到视频场景图生成,为视频理解提供更丰富的结构化信息。

📄 摘要(原文)

Next-token prediction is the fundamental principle for training large language models (LLMs), and reinforcement learning (RL) further enhances their reasoning performance. As an effective way to model language, image, video, and other modalities, the use of LLMs for end-to-end extraction of structured visual representations, such as scene graphs, remains underexplored. It requires the model to accurately produce a set of objects and relationship triplets, rather than generating text token by token. To achieve this, we introduce R1-SGG, a multimodal LLM (M-LLM) initially trained via supervised fine-tuning (SFT) on the scene graph dataset and subsequently refined using reinforcement learning to enhance its ability to generate scene graphs in an end-to-end manner. The SFT follows a conventional prompt-response paradigm, while RL requires the design of effective reward signals. We design a set of graph-centric rewards, including three recall-based variants -- Hard Recall, Hard Recall+Relax, and Soft Recall -- which evaluate semantic and spatial alignment between predictions and ground truth at the object and relation levels. A format consistency reward further ensures that outputs follow the expected structural schema. Extensive experiments on the VG150 and PSG benchmarks show that R1-SGG substantially reduces failure rates and achieves strong performance in Recall and mean Recall, surpassing traditional SGG models and existing multimodal language models. Our code is available at https://github.com/gpt4vision/R1-SGG