SocialGPT: Prompting LLMs for Social Relation Reasoning via Greedy Segment Optimization

📄 arXiv: 2410.21411v1 📥 PDF

作者: Wanhua Li, Zibin Meng, Jiawei Zhou, Donglai Wei, Chuang Gan, Hanspeter Pfister

分类: cs.CV

发布日期: 2024-10-28

备注: Accepted by NeurIPS 2024. Project page: https://mengzibin.github.io/SocialGPT.github.io/

🔗 代码/项目: GITHUB


💡 一句话要点

提出SocialGPT,利用LLM进行社会关系推理,并优化Prompt。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 社会关系推理 大型语言模型 视觉基础模型 Prompt优化 零样本学习

📋 核心要点

  1. 现有社会关系推理方法依赖端到端训练,泛化性和可解释性不足。
  2. SocialGPT结合视觉基础模型和大型语言模型,将图像信息转化为文本进行推理。
  3. 提出贪婪分段Prompt优化(GSPO)方法,显著提升了LLM推理的性能。

📝 摘要(中文)

社会关系推理旨在从图像中识别朋友、配偶和同事等关系类别。现有方法通常采用端到端训练专用网络的方式,但泛化性和可解释性有限。为了解决这些问题,我们首先提出了一个简单而精巧的框架SocialGPT,它结合了视觉基础模型(VFMs)的感知能力和大型语言模型(LLMs)的推理能力,为社会关系识别提供了一个强大的基线。具体来说,我们指示VFMs将图像内容转换为文本形式的社会故事,然后利用LLMs进行基于文本的推理。SocialGPT引入了系统的设计原则,分别调整VFMs和LLMs,并弥合它们之间的差距。无需额外的模型训练,它在两个数据库上实现了具有竞争力的零样本结果,同时提供可解释的答案,因为LLMs可以为决策生成基于语言的解释。由于推理阶段LLMs的手动prompt设计过程繁琐,因此需要一种自动prompt优化方法。由于我们本质上将视觉分类任务转换为LLMs的生成任务,因此自动prompt优化面临着独特的长prompt优化问题。为了解决这个问题,我们进一步提出了贪婪分段Prompt优化(GSPO),它通过利用分段级别的梯度信息来执行贪婪搜索。实验结果表明,GSPO显著提高了性能,并且我们的方法还可以推广到不同的图像风格。

🔬 方法详解

问题定义:论文旨在解决社会关系推理问题,即从图像中识别人物之间的关系(例如,朋友、配偶、同事等)。现有方法主要依赖于端到端训练的深度学习模型,这些模型通常需要大量的标注数据,并且泛化能力和可解释性较差。手动设计Prompt繁琐,且长Prompt优化存在挑战。

核心思路:论文的核心思路是将视觉信息转化为文本描述,然后利用大型语言模型(LLMs)强大的推理能力进行社会关系推理。通过结合视觉基础模型(VFMs)和LLMs,可以充分利用VFMs的感知能力和LLMs的推理能力,从而实现更准确、更可解释的社会关系识别。同时,提出了贪婪分段Prompt优化(GSPO)方法,自动优化LLM的Prompt。

技术框架:SocialGPT框架主要包含两个阶段:1) 视觉信息提取阶段:使用VFMs将图像内容转换为文本形式的社会故事。这一步旨在将视觉信息转化为LLMs可以理解的文本信息。2) 文本推理阶段:使用LLMs对文本形式的社会故事进行推理,从而识别人物之间的关系。GSPO方法用于优化LLMs的Prompt,提高推理的准确性。

关键创新:论文的关键创新在于:1) 提出了一个结合VFMs和LLMs的社会关系推理框架,无需额外的模型训练即可实现具有竞争力的零样本结果。2) 提出了贪婪分段Prompt优化(GSPO)方法,解决了长Prompt优化问题,显著提高了LLM推理的性能。3) 框架具有良好的可解释性,LLMs可以为决策生成基于语言的解释。

关键设计:GSPO方法的核心思想是将Prompt分成多个段,然后利用梯度信息对每个段进行贪婪搜索,从而找到最优的Prompt组合。具体来说,GSPO首先将Prompt分成若干个段,然后计算每个段的梯度,并根据梯度信息选择最优的段。这个过程迭代进行,直到找到最优的Prompt组合。论文中没有明确给出具体的参数设置、损失函数或网络结构等技术细节,这些可能依赖于所使用的VFMs和LLMs的具体实现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SocialGPT在两个数据库上实现了具有竞争力的零样本结果,无需额外的模型训练。提出的GSPO方法显著提高了性能,并且该方法可以推广到不同的图像风格。实验结果表明,GSPO能够有效地优化LLMs的Prompt,从而提高社会关系推理的准确性。

🎯 应用场景

该研究成果可应用于社交媒体分析、安全监控、人机交互等领域。例如,可以利用该技术自动识别社交媒体图像中的人物关系,从而更好地理解社交网络结构。在安全监控领域,可以用于识别潜在的犯罪团伙。在人机交互领域,可以帮助机器人更好地理解人类的社交行为。

📄 摘要(原文)

Social relation reasoning aims to identify relation categories such as friends, spouses, and colleagues from images. While current methods adopt the paradigm of training a dedicated network end-to-end using labeled image data, they are limited in terms of generalizability and interpretability. To address these issues, we first present a simple yet well-crafted framework named {\name}, which combines the perception capability of Vision Foundation Models (VFMs) and the reasoning capability of Large Language Models (LLMs) within a modular framework, providing a strong baseline for social relation recognition. Specifically, we instruct VFMs to translate image content into a textual social story, and then utilize LLMs for text-based reasoning. {\name} introduces systematic design principles to adapt VFMs and LLMs separately and bridge their gaps. Without additional model training, it achieves competitive zero-shot results on two databases while offering interpretable answers, as LLMs can generate language-based explanations for the decisions. The manual prompt design process for LLMs at the reasoning phase is tedious and an automated prompt optimization method is desired. As we essentially convert a visual classification task into a generative task of LLMs, automatic prompt optimization encounters a unique long prompt optimization issue. To address this issue, we further propose the Greedy Segment Prompt Optimization (GSPO), which performs a greedy search by utilizing gradient information at the segment level. Experimental results show that GSPO significantly improves performance, and our method also generalizes to different image styles. The code is available at https://github.com/Mengzibin/SocialGPT.