Multi-modal Reasoning with LLMs for Visual Semantic Arithmetic

📄 arXiv: 2604.19567v1 📥 PDF

作者: Chuou Xu, Liya Ji, Qifeng Chen

分类: cs.AI

发布日期: 2026-04-21


💡 一句话要点

提出SAri-RFT,增强LVLM在视觉语义算术任务中的推理能力,应用于机器人领域。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语义算术 强化学习 视觉语言模型 关系推理 跨模态学习

📋 核心要点

  1. 现有方法在视觉语义算术任务中存在模态差距,缺乏系统的评估,难以有效提取图像中的概念关系。
  2. 提出SAri-RFT方法,利用可验证函数和组相对策略优化,对视觉语言模型进行强化微调,提升跨模态关系推理能力。
  3. 在IRPD和Visual7W-Telling数据集上的实验表明,该方法取得了state-of-the-art的结果,验证了其有效性。

📝 摘要(中文)

本文研究了大型语言模型(LLM)在视觉语义算术方面的推理能力,即从图像中推断关系。虽然强化学习(RL)后训练对提升LLM在代码和数学方面的推理能力至关重要,但其在视觉语义算术方面的潜力尚未充分挖掘。本文提出了两个新的任务:两项减法和三项运算,并构建了图像-关系-对数据集(IRPD)用于基准测试。此外,本文提出了语义算术强化微调(SAri-RFT),它使用可验证函数和组相对策略优化(GRPO)对大型视觉语言模型(LVLM)进行后训练。实验结果表明,该方法在IRPD和真实世界的Visual7W-Telling数据集上取得了最先进的结果。通过使LVLM具备强大的跨模态关系推理能力,这项工作提升了家用机器人在感知中进行符号推理的能力,从而增强了复杂环境中的决策、工具适应性和人机交互。

🔬 方法详解

问题定义:论文旨在解决视觉语义算术问题,即如何让大型视觉语言模型(LVLM)能够像人类一样,从图像中推断出语义关系,并进行类比推理。现有方法主要通过向量算术后解码图像特征,存在模态差距,并且缺乏系统的评估。

核心思路:论文的核心思路是利用强化学习(RL)对LVLM进行后训练,使其能够更好地理解和推理图像中的语义关系。通过设计合适的奖励函数和策略优化方法,引导模型学习正确的推理路径,从而提高其在视觉语义算术任务中的性能。

技术框架:整体框架包括以下几个主要模块:1)图像编码器:用于提取图像的视觉特征。2)语言模型:用于生成文本描述和进行推理。3)强化学习模块:包括奖励函数设计和策略优化算法。具体流程是:首先,图像编码器提取图像特征,然后将特征输入到语言模型中,生成初始的文本描述。接着,强化学习模块根据生成的文本描述和真实答案之间的差异,计算奖励值,并利用策略优化算法更新语言模型的参数。

关键创新:论文的关键创新在于提出了语义算术强化微调(SAri-RFT)方法,该方法结合了可验证函数和组相对策略优化(GRPO)。可验证函数用于确保生成的答案的正确性,而GRPO则用于提高策略的探索能力和稳定性。

关键设计:在奖励函数设计方面,论文采用了基于正确率的奖励函数,即如果生成的答案与真实答案一致,则给予正奖励,否则给予负奖励。在策略优化方面,论文采用了PPO算法,并结合了GRPO,以提高策略的稳定性和探索能力。此外,论文还设计了图像-关系-对数据集(IRPD),用于评估模型在视觉语义算术任务中的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的SAri-RFT方法在IRPD数据集上取得了state-of-the-art的结果,显著优于现有的方法。此外,该方法在真实世界的Visual7W-Telling数据集上也表现出良好的性能,验证了其在实际应用中的潜力。具体性能数据在论文补充材料中提供。

🎯 应用场景

该研究成果可应用于服务机器人和家用机器人领域,使其能够在非结构化环境中理解物体、动作和代理之间的语义关系。例如,在厨房环境中,机器人可以识别出“面粉”和“蛋糕”之间的“由...制成”的关系,从而实现工具替代、任务泛化和改进的语义推理,最终提升人机交互的自然性和效率。

📄 摘要(原文)

Reinforcement learning (RL) as post-training is crucial for enhancing the reasoning ability of large language models (LLMs) in coding and math. However, their capacity for visual semantic arithmetic, inferring relationships from images, remains underexplored. The classic text analogy "king"-"man"+"woman" = "queen" illustrates relational reasoning, yet replacing text with images of "king" and "man" significantly reduces performance because it requires commonsense knowledge and the extraction of concise concepts from irrelevant visual details. This capability is important for service and domestic robotics in unstructured environments, where robots must infer semantic relationships among objects, agents, and actions. In a kitchen, recognizing from images that "powder" and "cake" are related by "is made of" grounds symbolic relations in perception, enabling tool substitution, task generalization, and improved semantic reasoning. Prior work approaches semantic arithmetic by decoding image features after vector arithmetic, but suffers from modality gaps and lacks systematic evaluation. In this paper, we formulate two novel tasks, two-term subtraction and three-term operations, and construct the Image-Relation-Pair Dataset (IRPD) for benchmarking. We further propose Semantic Arithmetic Reinforcement Fine-Tuning (SAri-RFT), which post-trains large vision-language models (LVLMs) using a verifiable function and Group Relative Policy Optimization (GRPO). Our method achieves state-of-the-art results on IRPD and the real-world Visual7W-Telling dataset. By equipping LVLMs with robust cross-modal relational reasoning, this work advances domestic robots' ability to ground symbolic reasoning in perception, enhancing decision-making, tool adaptability, and human-robot interaction in complex environments. Datasets and source code are provided in the supplementary material.