Meta-CoT: Enhancing Granularity and Generalization in Image Editing

作者: Shiyi Zhang, Yiji Cheng, Tiankai Hang, Zijin Yin, Runze He, Yu Xu, Wenxun Dai, Yunlong Lin, Chunyu Wang, Qinglin Lu, Yansong Tang

分类: cs.CV, cs.AI, cs.LG, cs.MM

发布日期: 2026-04-27

备注: Accepted by CVPR2026, Project Page: https://shiyi-zh0408.github.io/projectpages/Meta-CoT/

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

Meta-CoT：通过细粒度和泛化能力增强图像编辑

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 图像编辑 思维链 元学习 泛化能力 细粒度理解

📋 核心要点

现有图像编辑模型在细粒度理解和泛化能力上存在不足，难以应对复杂和未知的编辑任务。
Meta-CoT通过两级分解编辑操作，将编辑意图表示为(任务、目标、理解能力)三元组，并分解为五个元任务，增强模型理解和泛化。
实验表明，Meta-CoT在多个编辑任务上取得了显著提升，并在未见过的编辑任务上表现出良好的泛化能力，提升幅度达到15.8%。

📝 摘要（中文）

统一的多模态理解/生成模型通过将细粒度的理解融入到思维链（CoT）过程中，在图像编辑方面表现出改进的性能。然而，一个关键问题仍未得到充分探索：哪种形式的CoT和训练策略能够共同增强理解的粒度和泛化能力？为了解决这个问题，我们提出了Meta-CoT，这是一种对任何单图像编辑操作执行两级分解的范例，它具有两个关键属性：（1）可分解性。我们观察到，任何编辑意图都可以表示为一个三元组——（任务、目标、所需的理解能力）。受此启发，Meta-CoT分解了编辑任务和目标，生成特定于任务的CoT，并在所有目标上遍历编辑操作。这种分解增强了模型对编辑操作的理解粒度，并指导它在训练期间学习三元组的每个元素，从而大大提高了编辑能力。（2）泛化性。在第二级分解中，我们将编辑任务进一步分解为五个基本元任务。我们发现，对这五个元任务以及三元组的其他两个元素进行训练，足以在各种未见过的编辑任务中实现强大的泛化能力。为了进一步使模型的编辑行为与其CoT推理保持一致，我们引入了CoT-Editing一致性奖励，该奖励鼓励在编辑过程中更准确有效地利用CoT信息。实验表明，我们的方法在21个编辑任务中实现了15.8%的总体改进，并且在仅在一小部分元任务上训练时，可以有效地推广到未见过的编辑任务。我们的代码、基准和模型已在https://shiyi-zh0408.github.io/projectpages/Meta-CoT/上发布。

🔬 方法详解

问题定义：现有图像编辑模型难以同时兼顾细粒度的理解能力和良好的泛化性能。它们通常难以理解复杂的编辑意图，并且在面对未见过的编辑任务时表现不佳。现有的思维链（CoT）方法虽然可以提升理解能力，但缺乏对编辑任务和目标的细致分解，导致泛化能力受限。

核心思路：Meta-CoT的核心思路是将图像编辑操作分解为更小的、可管理的单元，从而提高模型的理解粒度和泛化能力。通过将编辑意图表示为(任务、目标、理解能力)三元组，并进一步将任务分解为五个元任务，模型可以学习到更通用的编辑规则。同时，引入CoT-Editing一致性奖励，鼓励模型更好地利用CoT信息进行编辑。

技术框架：Meta-CoT的整体框架包含以下几个主要模块：1) 任务分解模块：将编辑任务分解为(任务、目标、理解能力)三元组，并将任务进一步分解为五个元任务。2) CoT生成模块：为每个任务生成相应的思维链（CoT），指导模型进行编辑。3) 编辑模块：根据CoT信息，对图像进行编辑。4) 一致性奖励模块：计算CoT-Editing一致性奖励，鼓励模型更好地利用CoT信息。整个流程是先分解任务，生成CoT，然后进行编辑，最后通过一致性奖励进行优化。

关键创新：Meta-CoT的关键创新在于两级分解策略和CoT-Editing一致性奖励。两级分解策略通过将编辑任务分解为更小的单元，提高了模型的理解粒度和泛化能力。CoT-Editing一致性奖励则鼓励模型更好地利用CoT信息，确保编辑结果与CoT推理保持一致。与现有方法相比，Meta-CoT能够更好地理解复杂的编辑意图，并在未见过的编辑任务上表现出更好的泛化能力。

关键设计：在任务分解方面，论文定义了五个元任务，分别是：添加、删除、修改、替换和风格迁移。CoT-Editing一致性奖励的设计目标是最大化编辑结果与CoT推理之间的相似度。具体实现方式未知，可能涉及到计算编辑前后图像特征的相似度，并与CoT信息进行对齐。具体的网络结构和参数设置在论文中可能有所描述，但摘要中未提及。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Meta-CoT在21个编辑任务中实现了15.8%的总体改进。更重要的是，Meta-CoT在未见过的编辑任务上表现出良好的泛化能力，这表明该方法具有很强的实用价值。这些结果证明了Meta-CoT在图像编辑领域的优越性。

🎯 应用场景

Meta-CoT在图像编辑领域具有广泛的应用前景，可用于照片修复、艺术创作、虚拟现实等领域。该方法可以帮助用户更轻松地实现复杂的编辑意图，并生成高质量的编辑结果。未来，Meta-CoT有望应用于视频编辑、三维模型编辑等更广泛的领域，并为创意产业带来新的可能性。

📄 摘要（原文）

Unified multi-modal understanding/generative models have shown improved image editing performance by incorporating fine-grained understanding into their Chain-of-Thought (CoT) process. However, a critical question remains underexplored: what forms of CoT and training strategy can jointly enhance both the understanding granularity and generalization? To address this, we propose Meta-CoT, a paradigm that performs a two-level decomposition of any single-image editing operation with two key properties: (1) Decomposability. We observe that any editing intention can be represented as a triplet - (task, target, required understanding ability). Inspired by this, Meta-CoT decomposes both the editing task and the target, generating task-specific CoT and traversing editing operations on all targets. This decomposition enhances the model's understanding granularity of editing operations and guides it to learn each element of the triplet during training, substantially improving the editing capability. (2) Generalizability. In the second decomposition level, we further break down editing tasks into five fundamental meta-tasks. We find that training on these five meta-tasks, together with the other two elements of the triplet, is sufficient to achieve strong generalization across diverse, unseen editing tasks. To further align the model's editing behavior with its CoT reasoning, we introduce the CoT-Editing Consistency Reward, which encourages more accurate and effective utilization of CoT information during editing. Experiments demonstrate that our method achieves an overall 15.8% improvement across 21 editing tasks, and generalizes effectively to unseen editing tasks when trained on only a small set of meta-tasks. Our code, benchmark, and model are released at https://shiyi-zh0408.github.io/projectpages/Meta-CoT/

Meta-CoT: Enhancing Granularity and Generalization in Image Editing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理