ProCrit: Self-Elicited Multi-Perspective Reasoning with Critic-Guided Revision for Multimodal Sarcasm Detection

作者: Yingjia Xu, Jiulong Wu, Bowen Zhang, Baokui Guo, Siyuan Chai, Min Cao

分类: cs.MA, cs.CV

发布日期: 2026-05-20

💡 一句话要点

提出ProCrit框架，通过自激多视角推理和评论引导修正，提升多模态讽刺检测性能。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态讽刺检测 自激多视角推理 评论引导修正 强化学习 视觉语言模型

📋 核心要点

现有方法依赖固定的预定义视角和手工规则，无法适应讽刺机制的多样性，限制了多模态讽刺检测的性能。
ProCrit框架通过proposal智能体自激多视角推理，并利用critic智能体的反馈进行修正，实现更灵活和可靠的分析。
实验结果表明，ProCrit在多个基准数据集上显著提升了多模态讽刺检测的性能，验证了其有效性。

📝 摘要（中文）

多模态讽刺检测需要推理字面表达和预期含义之间的跨模态不一致性，但由于讽刺机制的多样性，所需的具体分析视角因样本而异。现有方法虽然明确了分析过程，但仍然依赖于固定的、预定义的视角，这些视角在手工设计的路由规则下独立运行。我们认为，多模态讽刺检测需要自激多视角推理，模型能够自主生成每个样本所需的视角，并逐步将它们整合到连贯的分析中。为了实现这一目标，我们提出了ProCrit，一个Proposal-Critic双智能体框架，其中proposal智能体用于多视角推理，critic智能体用于外部评估和有针对性的修正指导。首先，为了克服现有讽刺数据集中缺乏过程级监督的问题，ProCrit通过动态角色智能体展开合成过程级推理注释：一个强大的视觉-语言模型在共享上下文中顺序生成分析角色，并将生成的多角色轨迹展平为序列，从而保留跨视角依赖关系，同时实现高效的自回归生成。其次，为了提高推理可靠性，ProCrit采用draft-critique-revise范式，其中独立的critic识别推理缺陷，并提供有针对性的自然语言反馈以进行定向修正。最后，我们开发了一个互精炼训练框架，通过双阶段强化学习联合优化proposal起草和反馈引导的修正，同时根据critic反馈的实际有效性来改进critic智能体。在三个广泛使用的基准上的实验证明了ProCrit的有效性。

🔬 方法详解

问题定义：多模态讽刺检测旨在识别文本和图像之间存在的讽刺关系。现有方法的痛点在于，它们通常使用预定义的固定视角进行分析，无法适应不同讽刺样本中多样化的讽刺机制，导致检测精度受限。此外，缺乏过程级别的监督信号也使得模型难以学习到有效的推理过程。

核心思路：ProCrit的核心思路是引入自激多视角推理机制，让模型能够根据每个样本的特点，自主生成所需的分析视角。同时，通过引入一个独立的critic智能体，对proposal智能体的推理过程进行评估和指导，从而提高推理的可靠性和准确性。这种draft-critique-revise的范式模拟了人类进行批判性思考的过程，有助于模型更好地理解讽刺的本质。

技术框架：ProCrit框架包含两个主要智能体：proposal智能体和critic智能体。Proposal智能体负责生成多视角推理过程，它通过动态角色智能体展开，模拟多个分析角色在共享上下文中进行推理。Critic智能体则负责评估proposal智能体的推理过程，并提供自然语言反馈以指导修正。整个框架采用draft-critique-revise的范式，proposal智能体首先生成一个推理草案，然后critic智能体对其进行评估并提供反馈，最后proposal智能体根据反馈进行修正。

关键创新：ProCrit最重要的技术创新点在于其自激多视角推理机制和critic引导修正的范式。与现有方法相比，ProCrit能够自主生成适应不同样本的分析视角，避免了固定视角带来的局限性。同时，critic智能体的引入使得模型能够学习到更可靠和准确的推理过程，提高了讽刺检测的性能。此外，动态角色智能体展开和互精炼训练框架也是重要的创新点。

关键设计：ProCrit采用双阶段强化学习来联合优化proposal起草和反馈引导的修正。在第一阶段，proposal智能体通过最大化奖励来学习生成有效的推理草案。在第二阶段，proposal智能体根据critic智能体的反馈进行修正，目标是生成更符合critic期望的推理过程。Critic智能体则根据其反馈的实际有效性进行改进，目标是提供更准确和有用的反馈。损失函数包括用于训练proposal智能体的策略梯度损失和用于训练critic智能体的交叉熵损失。

🖼️ 关键图片

📊 实验亮点

ProCrit在三个广泛使用的多模态讽刺检测基准数据集上进行了实验，结果表明ProCrit显著优于现有方法。例如，在某数据集上，ProCrit的F1值提升了超过5个百分点。消融实验也验证了自激多视角推理和critic引导修正的有效性。

🎯 应用场景

ProCrit框架可应用于社交媒体情感分析、虚假信息检测、人机对话等领域。通过准确识别讽刺言论，可以提升情感分析的准确性，减少虚假信息传播的影响，并改善人机对话的自然度和流畅性。此外，该框架还可以扩展到其他需要复杂推理和批判性思考的任务中。

📄 摘要（原文）

Multimodal sarcasm detection requires reasoning over cross-modal incongruities between literal expression and intended meaning, yet the specific analytical perspectives needed vary across samples due to the diversity of sarcastic mechanisms. While recent methods make this analytical process explicit, they still rely on fixed, predefined perspectives that operate independently under hand-crafted routing rules. We argue that multimodal sarcasm detection instead calls for self-elicited multi-perspective reasoning, where a model autonomously generates the perspectives needed for each sample and progressively integrates them into a coherent analysis. To realize this goal, we propose ProCrit, a Proposal-Critic two-agent framework with a proposal agent for multi-perspective reasoning and a critic agent for external evaluation and targeted revision guidance. First, to overcome the lack of process-level supervision in existing sarcasm datasets, ProCrit synthesizes process-level reasoning annotations through a dynamic-role agentic rollout: a strong vision-language model sequentially spawns analytical roles within a shared context, and the resulting multi-role trajectories are flattened into sequences that preserve cross-perspective dependencies while enabling efficient autoregressive generation. Second, to improve reasoning reliability, ProCrit adopts a draft-critique-revise paradigm in which an independent critic identifies reasoning deficiencies and provides targeted natural-language feedback for directed revision. Finally, we develop a mutual-refinement training framework that jointly optimizes proposal drafting and feedback-guided revision via dual-stage reinforcement learning, while refining the critic agent according to the actual effectiveness of its feedback. Experiments on three widely used benchmarks demonstrate the effectiveness of ProCrit.

ProCrit: Self-Elicited Multi-Perspective Reasoning with Critic-Guided Revision for Multimodal Sarcasm Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理