Beyond Final Answers: CRYSTAL Benchmark for Transparent Multimodal Reasoning Evaluation

作者: Wayner Barrios, SouYoung Jin

分类: cs.AI, cs.CV, cs.IR, cs.MM

发布日期: 2026-03-13

💡 一句话要点

提出CRYSTAL基准，用于评估多模态推理的可解释性和中间步骤正确性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态推理 可解释性 基准测试 中间步骤 因果过程奖励

📋 核心要点

现有方法在评估多模态推理时，往往只关注最终答案的准确性，忽略了中间推理步骤的正确性和可解释性。
CRYSTAL基准通过要求模型生成可验证的中间步骤，并使用Match F1和Ordered Match F1指标来评估推理过程的质量。
CPR-Curriculum训练策略通过结合答案正确性和步骤对齐，并在训练中逐步增加难度，显著提高了模型的推理能力。

📝 摘要（中文）

本文提出了CRYSTAL（Clear Reasoning via Yielded Steps, Traceability and Logic）基准，它包含6372个实例，通过可验证的中间步骤评估多模态推理。同时提出了两个互补的指标：Match F1，通过语义相似性匹配对步骤级别的精确率和召回率进行评分；Ordered Match F1，进一步惩罚无序的推理链。参考答案通过Delphi方法构建，其中四个独立的MLLM生成轨迹，通过语义聚类聚合，并通过人工质量门验证。对20个MLLM的评估，包括基准构建中未使用的商业前沿系统，揭示了准确性无法察觉的系统性失败：普遍存在的选择性提取（精确率远高于召回率），非单调缩放权衡，以及无序推理，没有竞争模型能在正确顺序中保留超过60%的匹配步骤。除了评估，还提出了因果过程奖励（CPR），一种将答案正确性与步骤级别对齐相结合的乘法奖励，以及CPR-Curriculum，它在训练期间逐步增加推理难度。CPR-Curriculum通过GRPO实现了+32%的Match F1，而加性奖励策略失败，从而在没有手动步骤注释的情况下改进了推理。

🔬 方法详解

问题定义：现有的多模态推理评估方法主要关注最终答案的准确性，而忽略了模型推理过程的透明性和可解释性。这种评估方式无法有效诊断模型的推理缺陷，例如选择性提取、非单调缩放和无序推理等问题。因此，需要一种新的基准和评估指标，能够深入评估模型在多模态推理过程中每一步的正确性，并鼓励模型生成清晰、可追溯的推理路径。

核心思路：CRYSTAL基准的核心思路是通过引入可验证的中间步骤来评估多模态推理。它要求模型不仅给出最终答案，还要生成一系列中间步骤，这些步骤能够清晰地展示模型的推理过程。通过比较模型生成的步骤与参考步骤之间的语义相似性和顺序，可以更全面地评估模型的推理能力。此外，CPR-Curriculum训练策略通过将答案正确性和步骤对齐相结合，并逐步增加训练难度，从而提高模型的推理能力。

技术框架：CRYSTAL基准的构建流程包括以下几个主要阶段：1) 使用多个MLLM生成候选推理轨迹；2) 通过语义聚类对候选轨迹进行聚合；3) 通过人工质量门对聚合后的轨迹进行验证，生成最终的参考答案。评估过程使用Match F1和Ordered Match F1两个指标，前者评估步骤级别的精确率和召回率，后者进一步惩罚无序的推理链。CPR-Curriculum训练策略则通过将答案正确性和步骤对齐相结合，并逐步增加训练难度，来提高模型的推理能力。

关键创新：CRYSTAL基准的关键创新在于引入了可验证的中间步骤，从而能够更全面地评估多模态推理过程。Match F1和Ordered Match F1指标能够有效衡量模型生成的步骤与参考步骤之间的语义相似性和顺序。CPR-Curriculum训练策略通过将答案正确性和步骤对齐相结合，并逐步增加训练难度，从而显著提高了模型的推理能力。

关键设计：CRYSTAL基准使用了Delphi方法来构建参考答案，通过多个MLLM生成候选轨迹，并通过语义聚类和人工验证来提高参考答案的质量。Match F1指标使用语义相似性匹配来评估步骤级别的精确率和召回率，Ordered Match F1指标则进一步惩罚无序的推理链。CPR-Curriculum训练策略使用乘法奖励来结合答案正确性和步骤对齐，并逐步增加训练难度，以提高模型的推理能力。具体而言，CPR奖励的计算公式为：CPR = Answer Correctness * Step Alignment，其中Step Alignment通过计算模型生成的步骤与参考步骤之间的相似度得到。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有的MLLM在CRYSTAL基准上表现出普遍存在的选择性提取、非单调缩放和无序推理等问题。CPR-Curriculum训练策略通过GRPO实现了+32%的Match F1，显著提高了模型的推理能力，而加性奖励策略则失败。这表明CPR-Curriculum能够有效改进推理过程，无需手动步骤注释。

🎯 应用场景

CRYSTAL基准可用于评估和改进各种多模态推理系统，例如视觉问答、图像描述和机器人导航等。通过提供更细粒度的评估指标和更有效的训练策略，CRYSTAL可以帮助研究人员开发出更可靠、更可解释的多模态人工智能系统。该研究的成果有助于提升AI系统的透明度和可信度，促进其在医疗、教育和金融等领域的应用。

📄 摘要（原文）

We introduce CRYSTAL (__C__lear __R__easoning via __Y__ielded __S__teps, __T__raceability and __L__ogic), a diagnostic benchmark with 6,372 instances that evaluates multimodal reasoning through verifiable intermediate steps. We propose two complementary metrics: Match F1, which scores step-level precision and recall via semantic similarity matching, and Ordered Match F1, which further penalizes disordered reasoning chains. References are constructed through a Delphi-inspired pipeline where four independent MLLMs generate trajectories, aggregated via semantic clustering and validated through human quality gates. Evaluation of 20 MLLMs, including commercial frontier systems not used during benchmark construction, reveals systematic failures invisible to accuracy: universal cherry-picking (precision far exceeds recall), non-monotonic scaling trade-offs, and disordered reasoning where no competitive model preserves more than 60% of matched steps in correct order. Beyond evaluation, we propose the Causal Process Reward (CPR), a multiplicative reward that couples answer correctness with step-level alignment, and CPR-Curriculum, which progressively increases reasoning difficulty during training. CPR-Curriculum achieves +32% Match F1 via GRPO where additive reward strategies fail, improving reasoning without manual step annotation.

Beyond Final Answers: CRYSTAL Benchmark for Transparent Multimodal Reasoning Evaluation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理