RONA: Pragmatically Diverse Image Captioning with Coherence Relations

📄 arXiv: 2503.10997v2 📥 PDF

作者: Aashish Anantha Ramakrishnan, Aadarsh Anantha Ramakrishnan, Dongwon Lee

分类: cs.CL, cs.AI, cs.CV

发布日期: 2025-03-14 (更新: 2025-06-09)

备注: Accepted in the NAACL Fourth Workshop on Intelligent and Interactive Writing Assistants (In2Writing), Albuquerque, New Mexico, May 2025, https://in2writing.glitch.me

🔗 代码/项目: GITHUB


💡 一句话要点

提出RONA,利用连贯关系提升多模态大语言模型生成图像描述的多样性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像描述生成 多模态大语言模型 连贯关系 语用多样性 提示学习 视觉理解 自然语言生成

📋 核心要点

  1. 现有图像描述方法侧重于句法和语义变体,忽略了人类描述中重要的语用信息。
  2. RONA利用连贯关系作为可控轴,通过提示多模态大语言模型生成具有语用多样性的图像描述。
  3. 实验表明,RONA在多个领域生成了更具多样性且与ground-truth对齐的图像描述。

📝 摘要(中文)

写作助手(例如Grammarly、Microsoft Copilot)通常通过句法和语义变体来描述图像组成部分,从而生成多样化的图像描述。然而,人工撰写的描述更倾向于使用语用线索,在视觉描述的同时传达中心信息。为了增强描述的多样性,探索结合视觉内容传达这些信息的替代方法至关重要。我们提出了RONA,一种新颖的提示策略,用于多模态大语言模型(MLLM),它利用连贯关系作为语用变体的可控轴。我们证明,与跨多个领域的MLLM基线相比,RONA生成的描述具有更好的整体多样性和与ground-truth的对齐性。我们的代码可在https://github.com/aashish2000/RONA 获取。

🔬 方法详解

问题定义:现有的图像描述生成方法主要关注图像内容的句法和语义层面的描述,缺乏对语用信息的有效利用。这导致生成的描述多样性不足,难以捕捉人类描述中蕴含的意图和上下文关系。因此,如何提升图像描述的语用多样性是一个重要的研究问题。

核心思路:RONA的核心思路是利用连贯关系(Coherence Relations)作为一种可控的语用信息轴,通过特定的提示策略引导多模态大语言模型(MLLM)生成具有不同语用侧重点的图像描述。连贯关系描述了文本片段之间的逻辑关系,例如因果、对比、解释等,可以用来控制描述的侧重点和表达方式。

技术框架:RONA的技术框架主要包括以下几个步骤:1) 定义一系列连贯关系类型,例如原因、结果、背景、对比等。2) 设计相应的提示模板,将连贯关系类型融入到提示语中,例如“描述这张图片,并强调[连贯关系类型]”。3) 将提示语输入到多模态大语言模型中,生成图像描述。4) 评估生成描述的多样性和与ground-truth的对齐性。

关键创新:RONA的关键创新在于将连贯关系引入到图像描述生成任务中,并将其作为一种可控的语用信息轴。这使得模型能够生成具有不同语用侧重点的图像描述,从而显著提升了描述的多样性。与传统的句法和语义变体方法相比,RONA更加关注描述的意图和上下文关系,更接近人类的描述方式。

关键设计:RONA的关键设计包括:1) 连贯关系类型的选择:论文选择了一组常用的连贯关系类型,例如原因、结果、背景、对比等。2) 提示模板的设计:提示模板需要能够清晰地表达连贯关系类型,并引导模型生成相应的描述。3) 多模态大语言模型的选择:论文选择了一个具有强大视觉理解和文本生成能力的MLLM作为基础模型。具体的参数设置、损失函数和网络结构等细节取决于所选择的MLLM。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RONA在多个领域生成了比基线模型更具多样性和与ground-truth对齐的图像描述。具体来说,RONA在多样性指标上取得了显著提升,例如在BLEU-4和ROUGE-L等指标上均优于基线模型。同时,RONA生成的描述也更符合人类的描述习惯,能够更好地传达图像的意图和上下文关系。

🎯 应用场景

RONA具有广泛的应用前景,例如可以应用于智能相册、社交媒体、搜索引擎等领域。它可以帮助用户更快速、更准确地理解图像内容,并生成更具个性化和多样性的描述。此外,RONA还可以用于辅助残疾人士理解图像信息,提升他们的生活质量。未来,RONA有望成为一种重要的图像理解和生成工具。

📄 摘要(原文)

Writing Assistants (e.g., Grammarly, Microsoft Copilot) traditionally generate diverse image captions by employing syntactic and semantic variations to describe image components. However, human-written captions prioritize conveying a central message alongside visual descriptions using pragmatic cues. To enhance caption diversity, it is essential to explore alternative ways of communicating these messages in conjunction with visual content. We propose RONA, a novel prompting strategy for Multi-modal Large Language Models (MLLM) that leverages Coherence Relations as a controllable axis for pragmatic variations. We demonstrate that RONA generates captions with better overall diversity and ground-truth alignment, compared to MLLM baselines across multiple domains. Our code is available at: https://github.com/aashish2000/RONA