Semantic search for 100M+ galaxy images using AI-generated captions

📄 arXiv: 2512.11982v1 📥 PDF

作者: Nolan Koblischke, Liam Parker, Francois Lanusse, Irina Espejo Morales, Jo Bovy, Shirley Ho

分类: astro-ph.IM, cs.AI, cs.CV, cs.LG

发布日期: 2025-12-12

备注: Presented at the NeurIPS 2025 AI4Science Workshop

🔗 代码/项目: GITHUB


💡 一句话要点

AION-Search:利用AI生成描述,实现对1.4亿张星系图像的语义搜索。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语义搜索 视觉-语言模型 对比学习 天文图像 零样本学习 图像检索 多模态学习

📋 核心要点

  1. 现有方法依赖人工标注,速度慢,无法有效探索望远镜产生的大量星系图像。
  2. 利用视觉-语言模型生成图像描述,并与预训练天文模型对齐,构建可扩展的语义搜索。
  3. AION-Search在零样本罕见现象搜索中表现出色,VLM重排序方法显著提升了召回率。

📝 摘要(中文)

本研究提出了一种从完全无标签图像数据中创建语义搜索引擎的流程。该方法利用视觉-语言模型(VLMs)为星系图像生成描述,然后将预训练的多模态天文基础模型与这些嵌入的描述进行对比对齐,从而大规模生成可搜索的嵌入。研究发现,当前的VLMs提供的描述信息足以训练一个语义搜索模型,其性能优于直接图像相似性搜索。该模型AION-Search在发现罕见现象方面实现了最先进的零样本性能,尽管它是在随机选择的图像上训练的,没有经过对罕见案例的刻意筛选。此外,引入了一种基于VLM的重排序方法,在Top-100结果中,最具挑战性目标的召回率几乎翻了一番。AION-Search首次实现了可扩展到1.4亿张星系图像的灵活语义搜索,从而能够从以前不可行的搜索中进行发现。这项工作为使大型、未标记的科学图像档案具有语义可搜索性提供了一种方法,扩展了从地球观测到显微镜等领域的数据探索能力。

🔬 方法详解

问题定义:论文旨在解决天文学领域中,海量星系图像数据难以有效检索和探索的问题。传统方法依赖人工标注,成本高、速度慢,无法满足日益增长的数据量需求。现有的图像相似性搜索方法无法理解图像的语义信息,难以发现具有特定科学意义的罕见现象。

核心思路:论文的核心思路是利用视觉-语言模型(VLMs)为星系图像生成文本描述,将图像的视觉信息转化为语义信息。然后,通过对比学习的方式,将图像嵌入和文本嵌入对齐到一个共享的语义空间中。这样,用户就可以通过文本查询来搜索图像,从而实现语义搜索。

技术框架:AION-Search的整体框架包含以下几个主要阶段:1) 使用视觉-语言模型(VLMs)为星系图像生成文本描述;2) 利用对比学习方法,将预训练的多模态天文基础模型与图像描述对齐,生成可搜索的图像嵌入;3) 构建语义搜索引擎,支持基于文本查询的图像检索;4) 引入基于VLM的重排序方法,进一步提升检索结果的准确性。

关键创新:论文的关键创新在于:1) 将视觉-语言模型应用于天文图像的语义搜索,实现了从无标签数据中学习语义信息;2) 提出了一种基于对比学习的图像嵌入和文本嵌入对齐方法,有效提升了语义搜索的准确性;3) 引入了VLM-based重排序方法,显著提升了罕见现象的检索召回率。

关键设计:论文使用了预训练的CLIP模型作为视觉-语言模型,用于生成图像描述。对比学习损失函数采用了InfoNCE损失,用于最大化正样本对之间的相似度,最小化负样本对之间的相似度。VLM-based重排序方法利用VLM计算查询文本和检索到的图像描述之间的相似度,并根据相似度对检索结果进行重新排序。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AION-Search在零样本罕见现象搜索中取得了最先进的性能,无需人工标注数据。通过VLM-based重排序,在Top-100结果中,最具挑战性目标的召回率几乎翻了一番。该模型成功应用于1.4亿张星系图像的语义搜索,验证了其在大规模数据集上的可扩展性。

🎯 应用场景

该研究成果可广泛应用于天文学领域,例如快速发现罕见天文现象、辅助星系分类和形态分析等。此外,该方法也适用于其他科学领域,如地球观测、医学影像分析和材料科学等,为海量科学图像数据的探索和利用提供了新的途径。

📄 摘要(原文)

Finding scientifically interesting phenomena through slow, manual labeling campaigns severely limits our ability to explore the billions of galaxy images produced by telescopes. In this work, we develop a pipeline to create a semantic search engine from completely unlabeled image data. Our method leverages Vision-Language Models (VLMs) to generate descriptions for galaxy images, then contrastively aligns a pre-trained multimodal astronomy foundation model with these embedded descriptions to produce searchable embeddings at scale. We find that current VLMs provide descriptions that are sufficiently informative to train a semantic search model that outperforms direct image similarity search. Our model, AION-Search, achieves state-of-the-art zero-shot performance on finding rare phenomena despite training on randomly selected images with no deliberate curation for rare cases. Furthermore, we introduce a VLM-based re-ranking method that nearly doubles the recall for our most challenging targets in the top-100 results. For the first time, AION-Search enables flexible semantic search scalable to 140 million galaxy images, enabling discovery from previously infeasible searches. More broadly, our work provides an approach for making large, unlabeled scientific image archives semantically searchable, expanding data exploration capabilities in fields from Earth observation to microscopy. The code, data, and app are publicly available at https://github.com/NolanKoblischke/AION-Search