E-comIQ-ZH: A Human-Aligned Dataset and Benchmark for Fine-Grained Evaluation of E-commerce Posters with Chain-of-Thought

作者: Meiqi Sun, Mingyu Li, Junxiong Zhu

分类: cs.CV

发布日期: 2026-02-25

备注: 21pages, 19figures, accepted by CVPR 2026

🔗 代码/项目: GITHUB

💡 一句话要点

提出E-comIQ-ZH框架，用于细粒度评估中文电商海报质量，解决现有方法忽略文本伪影问题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 电商海报评估 中文文本伪影 思维链推理 质量评估 生成式AI 自动化基准 E-comIQ-ZH

📋 核心要点

现有方法在评估电商海报时，侧重通用美学或低级失真，忽略了电商设计的功能性标准，尤其对中文文本伪影识别不足。
提出E-comIQ-ZH框架，包含数据集E-comIQ-18k和评估模型E-comIQ-M，利用思维链（CoT）推理，更贴合人类专家判断。
实验结果表明，E-comIQ-M模型更符合专家标准，并支持对中文电商海报进行可扩展的自动评估，为后续研究提供基准。

📝 摘要（中文）

生成式AI被广泛应用于商业海报的创作。然而，生成技术的快速发展已经超过了自动质量评估的速度。现有的模型侧重于通用美学或低级失真，缺乏电商设计所需的功能性标准。对于中文内容来说，情况尤其具有挑战性，因为复杂的字符经常产生细微但关键的文本伪影，而现有方法往往忽略这些伪影。为了解决这个问题，我们提出了E-comIQ-ZH，一个用于评估中文电商海报的框架。我们构建了首个E-comIQ-18k数据集，该数据集具有多维度评分和专家校准的思维链（CoT）推理。基于此数据集，我们训练了E-comIQ-M，一个专门的评估模型，与人类专家的判断相一致。我们的框架支持E-comIQ-Bench，这是首个用于生成中文电商海报的自动化和可扩展的基准。大量的实验表明，我们的E-comIQ-M更符合专家标准，并能够对电商海报进行可扩展的自动评估。所有数据集、模型和评估工具都将发布，以支持该领域未来的研究。代码将在https://github.com/4mm7/E-comIQ-ZH上提供。

🔬 方法详解

问题定义：论文旨在解决现有方法在评估中文电商海报质量时，无法有效识别和评估文本伪影以及缺乏电商设计功能性标准的问题。现有方法主要关注通用美学和低级失真，忽略了电商海报的特殊要求，导致评估结果与人类专家判断存在偏差。

核心思路：论文的核心思路是构建一个包含多维度评分和专家校准思维链（CoT）推理的数据集，并在此基础上训练一个专门的评估模型，使其能够更好地理解和评估中文电商海报的质量。通过引入CoT，模型可以模拟人类专家的思考过程，从而更准确地识别文本伪影和评估设计的功能性。

技术框架：E-comIQ-ZH框架主要包含三个部分：E-comIQ-18k数据集、E-comIQ-M评估模型和E-comIQ-Bench基准。首先，构建包含多维度评分和专家CoT推理的E-comIQ-18k数据集。然后，使用该数据集训练E-comIQ-M评估模型，使其能够对中文电商海报进行质量评估。最后，利用E-comIQ-Bench基准，对不同的生成模型进行评估和比较。

关键创新：论文的关键创新在于构建了首个包含专家校准CoT推理的中文电商海报数据集E-comIQ-18k，并在此基础上训练了专门的评估模型E-comIQ-M。与现有方法相比，E-comIQ-M能够更好地理解和评估中文电商海报的质量，更贴合人类专家的判断。此外，E-comIQ-Bench为中文电商海报生成提供了一个自动化和可扩展的评估基准。

关键设计：E-comIQ-18k数据集包含多维度评分，例如美观度、信息传达、文本质量等。专家CoT推理用于解释评分的原因，并提供更详细的评估信息。E-comIQ-M模型的具体网络结构和损失函数等技术细节在论文中未详细说明，属于未知信息。数据集的构建和CoT的引入是关键的设计选择。

🖼️ 关键图片

📊 实验亮点

实验结果表明，E-comIQ-M模型在评估中文电商海报质量方面更符合专家标准，能够更准确地识别文本伪影和评估设计的功能性。具体性能数据和对比基线在摘要中未提及，属于未知信息。该研究为中文电商海报生成提供了一个自动化和可扩展的评估基准。

🎯 应用场景

该研究成果可应用于电商平台的海报自动审核、设计优化和生成模型评估。通过自动评估海报质量，可以提高海报的吸引力和转化率，提升用户体验。此外，该研究还可以促进生成式AI在电商领域的应用，推动电商海报设计的自动化和智能化。

📄 摘要（原文）

Generative AI is widely used to create commercial posters. However, rapid advances in generation have outpaced automated quality assessment. Existing models emphasize generic esthetics or low level distortions and lack the functional criteria required for e-commerce design. It is especially challenging for Chinese content, where complex characters often produce subtle but critical textual artifacts that are overlooked by existing methods. To address this, we introduce E-comIQ-ZH, a framework for evaluating Chinese e-commerce posters. We build the first dataset E-comIQ-18k to feature multi dimensional scores and expert calibrated Chain of Thought (CoT) rationales. Using this dataset, we train E-comIQ-M, a specialized evaluation model that aligns with human expert judgment. Our framework enables E-comIQ-Bench, the first automated and scalable benchmark for the generation of Chinese e-commerce posters. Extensive experiments show our E-comIQ-M aligns more closely with expert standards and enables scalable automated assessment of e-commerce posters. All datasets, models, and evaluation tools will be released to support future research in this area.Code will be available at https://github.com/4mm7/E-comIQ-ZH.

E-comIQ-ZH: A Human-Aligned Dataset and Benchmark for Fine-Grained Evaluation of E-commerce Posters with Chain-of-Thought

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理