CLEAR: Cue Learning using Evolution for Accurate Recognition Applied to Sustainability Data Extraction

作者: Peter J. Bentley, Soo Ling Lim, Fuyuki Ishikawa

分类: cs.CV, cs.AI, cs.NE

发布日期: 2025-01-30 (更新: 2025-05-07)

备注: 9 pages plus 2 pages of supplemental material

期刊: Proceedings of the Genetic and Evolutionary Computation Conference 2025 (GECCO 25). ACM, Malaga, Spain

DOI: 10.1145/3712256.3726317

💡 一句话要点

提出CLEAR框架，利用进化算法优化提示词，提升LLM在可持续性数据提取中的图像识别精度。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 图像识别 进化算法 提示词优化 可持续性数据提取

📋 核心要点

现有方法依赖领域专家设计提示词，成本高且效果受限，难以充分利用LLM的图像识别能力。
CLEAR框架通过进化算法自动生成和优化提示词，无需人工干预，提升LLM在特定任务中的识别精度。
实验表明，CLEAR在可持续性数据提取任务中显著优于人工方法，误差率降低高达两个数量级。

📝 摘要（中文）

本文提出了一种名为“基于进化线索学习的精确识别”（CLEAR）的框架，旨在提高大型语言模型（LLM）在图像识别中的准确性，尤其是在提取专业领域数据时。CLEAR结合了LLM和进化计算，自动生成并优化提示词，从而提升图像中特定特征的识别效果。该方法首先自动生成领域特定的新表示，然后使用遗传算法优化合适的文本提示词。本文将CLEAR应用于从建筑物内部和外部图像中识别可持续性数据的实际任务。研究还探讨了可变长度表示与固定长度表示的影响，并展示了如何通过将分类估计重构为实值估计来提高LLM的一致性。实验结果表明，在每个任务中，CLEAR的准确率均高于人类专家识别和人工编写的提示词，误差率降低高达两个数量级，消融研究也证明了解决方案的简洁性。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在图像识别中，尤其是在提取专业领域数据时，对提示词的依赖性问题。现有方法需要领域专家手动设计提示词，这不仅耗时耗力，而且提示词的质量直接影响识别准确率，限制了LLM在特定任务中的应用。

核心思路：论文的核心思路是利用进化算法自动生成和优化提示词，从而避免人工设计提示词的局限性。通过遗传算法搜索最佳提示词组合，使LLM能够更准确地识别图像中的特定特征。

技术框架：CLEAR框架主要包含以下几个阶段：1) 领域特定表示生成：自动生成一种新的领域特定表示，用于描述图像中的特征。2) 提示词进化：使用遗传算法，基于领域特定表示，生成和优化文本提示词。遗传算法包括选择、交叉和变异等操作，以不断改进提示词的质量。3) LLM识别：将生成的提示词输入LLM，进行图像识别。4) 评估与反馈：根据LLM的识别结果，评估提示词的性能，并将评估结果反馈给遗传算法，指导下一轮的提示词进化。

关键创新：CLEAR的关键创新在于将进化计算与LLM相结合，实现了提示词的自动生成和优化。与传统的手动设计提示词方法相比，CLEAR能够更有效地搜索最佳提示词组合，从而提高图像识别的准确率。此外，论文还探索了可变长度表示和实值估计等技术，进一步提升了LLM的性能。

关键设计：在遗传算法中，提示词的表示方式是关键。论文比较了固定长度和可变长度两种表示方式，并发现可变长度表示能够更好地适应不同任务的需求。此外，论文还采用了实值估计方法，将LLM的分类输出转换为实数值，从而提高了LLM的一致性。遗传算法的具体参数设置（如种群大小、交叉率、变异率等）需要根据具体任务进行调整。

📊 实验亮点

实验结果表明，CLEAR在建筑物可持续性数据提取任务中显著优于人工方法，误差率降低高达两个数量级。与人类专家识别和人工编写的提示词相比，CLEAR在每个任务中都实现了更高的准确率。消融研究也证明了CLEAR解决方案的简洁性，表明该方法能够有效地找到关键的提示词。

🎯 应用场景

CLEAR框架具有广泛的应用前景，可应用于各种需要从图像中提取专业领域数据的场景，例如：建筑物可持续性评估、医学图像分析、遥感图像解译等。该方法能够降低对领域专家的依赖，提高数据提取的效率和准确性，为相关领域的研究和应用提供有力支持。

📄 摘要（原文）

Large Language Model (LLM) image recognition is a powerful tool for extracting data from images, but accuracy depends on providing sufficient cues in the prompt - requiring a domain expert for specialized tasks. We introduce Cue Learning using Evolution for Accurate Recognition (CLEAR), which uses a combination of LLMs and evolutionary computation to generate and optimize cues such that recognition of specialized features in images is improved. It achieves this by auto-generating a novel domain-specific representation and then using it to optimize suitable textual cues with a genetic algorithm. We apply CLEAR to the real-world task of identifying sustainability data from interior and exterior images of buildings. We investigate the effects of using a variable-length representation compared to fixed-length and show how LLM consistency can be improved by refactoring from categorical to real-valued estimates. We show that CLEAR enables higher accuracy compared to expert human recognition and human-authored prompts in every task with error rates improved by up to two orders of magnitude and an ablation study evincing solution concision.

CLEAR: Cue Learning using Evolution for Accurate Recognition Applied to Sustainability Data Extraction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理