CLEAR: Cue Learning using Evolution for Accurate Recognition Applied to Sustainability Data Extraction

📄 arXiv: 2501.18504v3 📥 PDF

作者: Peter J. Bentley, Soo Ling Lim, Fuyuki Ishikawa

分类: cs.CV, cs.AI, cs.NE

发布日期: 2025-01-30 (更新: 2025-05-07)

备注: 9 pages plus 2 pages of supplemental material

期刊: Proceedings of the Genetic and Evolutionary Computation Conference 2025 (GECCO 25). ACM, Malaga, Spain

DOI: 10.1145/3712256.3726317


💡 一句话要点

提出CLEAR框架,利用进化算法优化提示词,提升LLM在可持续性数据提取中的图像识别精度。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 图像识别 进化算法 提示词优化 可持续性数据提取

📋 核心要点

  1. 现有方法依赖领域专家设计提示词,成本高且效果受限,难以充分利用LLM的图像识别能力。
  2. CLEAR框架通过进化算法自动生成和优化提示词,无需人工干预,提升LLM在特定任务中的识别精度。
  3. 实验表明,CLEAR在可持续性数据提取任务中显著优于人工方法,误差率降低高达两个数量级。

📝 摘要(中文)

本文提出了一种名为“基于进化线索学习的精确识别”(CLEAR)的框架,旨在提高大型语言模型(LLM)在图像识别中的准确性,尤其是在提取专业领域数据时。CLEAR结合了LLM和进化计算,自动生成并优化提示词,从而提升图像中特定特征的识别效果。该方法首先自动生成领域特定的新表示,然后使用遗传算法优化合适的文本提示词。本文将CLEAR应用于从建筑物内部和外部图像中识别可持续性数据的实际任务。研究还探讨了可变长度表示与固定长度表示的影响,并展示了如何通过将分类估计重构为实值估计来提高LLM的一致性。实验结果表明,在每个任务中,CLEAR的准确率均高于人类专家识别和人工编写的提示词,误差率降低高达两个数量级,消融研究也证明了解决方案的简洁性。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在图像识别中,尤其是在提取专业领域数据时,对提示词的依赖性问题。现有方法需要领域专家手动设计提示词,这不仅耗时耗力,而且提示词的质量直接影响识别准确率,限制了LLM在特定任务中的应用。

核心思路:论文的核心思路是利用进化算法自动生成和优化提示词,从而避免人工设计提示词的局限性。通过遗传算法搜索最佳提示词组合,使LLM能够更准确地识别图像中的特定特征。

技术框架:CLEAR框架主要包含以下几个阶段:1) 领域特定表示生成:自动生成一种新的领域特定表示,用于描述图像中的特征。2) 提示词进化:使用遗传算法,基于领域特定表示,生成和优化文本提示词。遗传算法包括选择、交叉和变异等操作,以不断改进提示词的质量。3) LLM识别:将生成的提示词输入LLM,进行图像识别。4) 评估与反馈:根据LLM的识别结果,评估提示词的性能,并将评估结果反馈给遗传算法,指导下一轮的提示词进化。

关键创新:CLEAR的关键创新在于将进化计算与LLM相结合,实现了提示词的自动生成和优化。与传统的手动设计提示词方法相比,CLEAR能够更有效地搜索最佳提示词组合,从而提高图像识别的准确率。此外,论文还探索了可变长度表示和实值估计等技术,进一步提升了LLM的性能。

关键设计:在遗传算法中,提示词的表示方式是关键。论文比较了固定长度和可变长度两种表示方式,并发现可变长度表示能够更好地适应不同任务的需求。此外,论文还采用了实值估计方法,将LLM的分类输出转换为实数值,从而提高了LLM的一致性。遗传算法的具体参数设置(如种群大小、交叉率、变异率等)需要根据具体任务进行调整。

📊 实验亮点

实验结果表明,CLEAR在建筑物可持续性数据提取任务中显著优于人工方法,误差率降低高达两个数量级。与人类专家识别和人工编写的提示词相比,CLEAR在每个任务中都实现了更高的准确率。消融研究也证明了CLEAR解决方案的简洁性,表明该方法能够有效地找到关键的提示词。

🎯 应用场景

CLEAR框架具有广泛的应用前景,可应用于各种需要从图像中提取专业领域数据的场景,例如:建筑物可持续性评估、医学图像分析、遥感图像解译等。该方法能够降低对领域专家的依赖,提高数据提取的效率和准确性,为相关领域的研究和应用提供有力支持。

📄 摘要(原文)

Large Language Model (LLM) image recognition is a powerful tool for extracting data from images, but accuracy depends on providing sufficient cues in the prompt - requiring a domain expert for specialized tasks. We introduce Cue Learning using Evolution for Accurate Recognition (CLEAR), which uses a combination of LLMs and evolutionary computation to generate and optimize cues such that recognition of specialized features in images is improved. It achieves this by auto-generating a novel domain-specific representation and then using it to optimize suitable textual cues with a genetic algorithm. We apply CLEAR to the real-world task of identifying sustainability data from interior and exterior images of buildings. We investigate the effects of using a variable-length representation compared to fixed-length and show how LLM consistency can be improved by refactoring from categorical to real-valued estimates. We show that CLEAR enables higher accuracy compared to expert human recognition and human-authored prompts in every task with error rates improved by up to two orders of magnitude and an ablation study evincing solution concision.