Why Compress What You Can Generate? When GPT-4o Generation Ushers in Image Compression Fields

作者: Yixin Gao, Xiaohan Pan, Xin Li, Zhibo Chen

分类: cs.CV

发布日期: 2025-04-30

💡 一句话要点

利用GPT-4o生成能力，探索AIGC在极低码率图像压缩中的应用，实现优异性能。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 图像压缩 AIGC GPT-4o 文本编码 多模态编码

📋 核心要点

传统图像压缩方法在AIGC时代面临挑战，能否直接利用生成模型替代压缩编码成为关键问题。
论文提出结构光栅扫描提示工程，将图像信息转化为文本提示，引导GPT-4o生成高质量图像。
实验表明，该方法在极低码率下优于现有压缩方法，验证了AIGC在图像压缩领域的潜力。

📝 摘要（中文）

AIGC基础模型的快速发展彻底改变了图像压缩的范式，促使我们思考：如果AIGC模型足够强大，能够仅从紧凑的描述符（如文本或提示）中忠实地生成复杂的结构和精细的细节，为什么还要压缩可以生成的内容？OpenAI最新的GPT-4o在图像生成方面取得了令人印象深刻的跨模态生成、编辑和设计能力，这促使我们通过探索其在图像压缩领域的潜力来回答上述问题。本文研究了两种典型的压缩范式：文本编码和多模态编码（即文本+极低分辨率图像），其中大部分像素级信息通过GPT-4o的图像生成功能生成，而不是压缩。关键挑战在于如何在解码过程中保持语义和结构一致性。为此，我们提出了一种结构光栅扫描提示工程机制，将图像转换为文本空间，并将其压缩作为GPT-4o图像生成的条件。大量实验表明，我们设计的结构光栅扫描提示与GPT-4o的图像生成功能相结合，在超低比特率下实现了优于最新的多模态/生成图像压缩的性能，进一步表明了AIGC生成在图像压缩领域的潜力。

🔬 方法详解

问题定义：论文旨在探索在极低比特率下，如何利用AIGC模型（特别是GPT-4o）的强大生成能力，替代传统的图像压缩方法。现有图像压缩方法在AIGC时代面临挑战，因为它们主要关注像素级别的变换和编码，而忽略了生成模型直接生成图像的可能性。

核心思路：核心思路是将图像信息转化为一种紧凑的描述符（例如文本提示），然后利用GPT-4o的图像生成能力，从这些描述符中重建图像。这样做的目的是避免对像素级别的信息进行压缩，而是直接生成图像，从而在极低比特率下实现高质量的图像重建。

技术框架：整体框架包括两个主要阶段：编码阶段和解码阶段。在编码阶段，首先使用结构光栅扫描提示工程机制将图像转换为文本提示。然后，对这些文本提示进行压缩。在解码阶段，将压缩后的文本提示输入到GPT-4o模型中，生成重建的图像。

关键创新：关键创新在于结构光栅扫描提示工程机制。该机制通过将图像分割成小的结构单元，并按照光栅扫描的顺序生成相应的文本提示，从而在文本空间中保留了图像的结构信息。这种方法与传统的图像压缩方法不同，它不是直接对像素进行编码，而是对图像的结构进行编码。

关键设计：结构光栅扫描提示工程机制的关键设计包括结构单元的大小、光栅扫描的顺序以及文本提示的生成方式。具体参数设置未知，论文可能未详细公开。损失函数未知，可能依赖GPT-4o内部的训练机制。网络结构方面，主要依赖GPT-4o的预训练模型，论文侧重于提示工程的设计。

🖼️ 关键图片

📊 实验亮点

实验结果表明，结合结构光栅扫描提示和GPT-4o的图像生成功能，在超低比特率下实现了优于最新的多模态/生成图像压缩方法的性能。具体性能数据和对比基线在摘要中未明确给出，但强调了其优越性，表明AIGC在图像压缩领域具有巨大潜力。

🎯 应用场景

该研究成果可应用于对存储空间或传输带宽有严格限制的场景，例如移动设备上的图像存储、低带宽网络环境下的图像传输等。未来，结合更先进的AIGC模型，有望实现更高压缩比和更高质量的图像压缩，甚至可以扩展到视频压缩领域。

📄 摘要（原文）

The rapid development of AIGC foundation models has revolutionized the paradigm of image compression, which paves the way for the abandonment of most pixel-level transform and coding, compelling us to ask: why compress what you can generate if the AIGC foundation model is powerful enough to faithfully generate intricate structure and fine-grained details from nothing more than some compact descriptors, i.e., texts, or cues. Fortunately, recent GPT-4o image generation of OpenAI has achieved impressive cross-modality generation, editing, and design capabilities, which motivates us to answer the above question by exploring its potential in image compression fields. In this work, we investigate two typical compression paradigms: textual coding and multimodal coding (i.e., text + extremely low-resolution image), where all/most pixel-level information is generated instead of compressing via the advanced GPT-4o image generation function. The essential challenge lies in how to maintain semantic and structure consistency during the decoding process. To overcome this, we propose a structure raster-scan prompt engineering mechanism to transform the image into textual space, which is compressed as the condition of GPT-4o image generation. Extensive experiments have shown that the combination of our designed structural raster-scan prompts and GPT-4o's image generation function achieved the impressive performance compared with recent multimodal/generative image compression at ultra-low bitrate, further indicating the potential of AIGC generation in image compression fields.

Why Compress What You Can Generate? When GPT-4o Generation Ushers in Image Compression Fields

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理