Beyond SEO: A Transformer-Based Approach for Reinventing Web Content Optimisation

📄 arXiv: 2507.03169v1 📥 PDF

作者: Florian Lüttgenau, Imar Colic, Gervasio Ramirez

分类: stat.ML, cs.LG

发布日期: 2025-07-03

备注: 9 pages, 3 figures


💡 一句话要点

提出基于Transformer的GEO方法,提升网页内容在生成式AI搜索中的可见性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 生成式引擎优化 Transformer微调 网页内容优化 生成式AI搜索 内容可见性

📋 核心要点

  1. 传统SEO方法在生成式AI搜索时代面临挑战,内容在LLM输出中的可见性降低。
  2. 提出一种基于Transformer的生成式引擎优化(GEO)方法,通过微调模型来改进网页内容。
  3. 实验表明,该方法显著提升了优化后内容在生成式搜索结果中的可见性,字数和位置调整字数均有提升。

📝 摘要(中文)

随着生成式AI搜索引擎的兴起,传统SEO面临挑战。Gartner预测到2026年,传统搜索的使用量将减少25%。本文提出了一种针对生成式引擎优化(GEO)的领域特定微调方法,该方法转换网页内容,以提高其在大型语言模型输出中的可发现性。我们使用BART-base Transformer在合成生成的训练数据上进行微调,该数据包含1905个清洗后的旅游网站内容对。每对数据由原始网站文本及其GEO优化后的版本组成,优化后的版本包含可信的引用、统计证据和改进的语言流畅性。我们使用内在指标(ROUGE-L, BLEU)和通过Llama-3.3-70B进行的受控实验评估外在可见性。微调后的模型在基线BART上取得了显著的改进:ROUGE-L得分从0.226提升到0.249,BLEU得分从0.173提升到0.200。最重要的是,优化后的内容在生成式搜索响应中表现出显著的可见性提升,绝对字数增加了15.63%,位置调整后的字数指标提高了30.96%。这项工作首次实证表明,有针对性的Transformer微调可以有效地提高网页内容在生成式搜索引擎中的可见性,且计算资源需求适中。我们的结果表明,GEO代表了一种在AI驱动的搜索环境中进行内容优化的可行方法,并提供了具体的证据,表明小规模、领域聚焦的微调可以显著提高内容的可发现性。

🔬 方法详解

问题定义:传统搜索引擎优化(SEO)侧重于关键词排名,但在生成式AI搜索引擎中,内容直接影响LLM的输出。现有方法难以有效提升网页内容在LLM生成结果中的可见性,导致网站流量和用户获取受阻。因此,需要一种新的内容优化策略,以适应AI驱动的搜索环境。

核心思路:本文的核心思路是通过领域特定的微调,使Transformer模型能够将原始网页内容转换为更适合LLM理解和引用的形式。具体而言,通过在包含原始文本和优化文本的数据集上进行训练,模型学习如何添加可信的引用、统计证据和改进语言流畅性,从而提高内容在生成式搜索结果中的相关性和权威性。

技术框架:该方法使用BART-base Transformer作为基础模型。首先,构建一个包含原始网页文本及其GEO优化版本的合成数据集。然后,使用该数据集对BART模型进行微调,使其能够学习将原始文本转换为优化文本。最后,使用微调后的模型对新的网页内容进行优化,并评估其在生成式搜索结果中的可见性。

关键创新:该方法的关键创新在于提出了生成式引擎优化(GEO)的概念,并将其应用于Transformer模型的微调。与传统的SEO方法不同,GEO侧重于优化内容本身,使其更易于被LLM理解和引用。此外,该方法还提出了一种合成数据生成策略,用于创建包含原始文本和优化文本的数据集。

关键设计:该方法使用BART-base Transformer作为基础模型,并使用AdamW优化器进行微调。训练数据包含1905个清洗后的旅游网站内容对。优化目标是最小化原始文本和优化文本之间的交叉熵损失。在推理阶段,使用微调后的模型生成优化后的文本,并将其用于评估生成式搜索结果的可见性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,经过GEO优化后的内容在生成式搜索结果中表现出显著的可见性提升。具体而言,优化后的内容在ROUGE-L得分上提高了0.023 (0.249 vs 0.226),BLEU得分上提高了0.027 (0.200 vs 0.173)。更重要的是,优化后的内容在绝对字数上增加了15.63%,在位置调整后的字数指标上提高了30.96%。

🎯 应用场景

该研究成果可应用于各种需要提高内容在生成式AI搜索中可见性的场景,例如旅游、电商、新闻等。通过GEO优化,网站可以更好地吸引用户,提高品牌知名度,并最终实现商业价值。未来,该方法可以扩展到其他领域,并与其他内容优化技术相结合,以进一步提高内容的可发现性。

📄 摘要(原文)

The rise of generative AI search engines is disrupting traditional SEO, with Gartner predicting 25% reduction in conventional search usage by 2026. This necessitates new approaches for web content visibility in AI-driven search environments. We present a domain-specific fine-tuning approach for Generative Engine Optimization (GEO) that transforms web content to improve discoverability in large language model outputs. Our method fine-tunes a BART-base transformer on synthetically generated training data comprising 1,905 cleaned travel website content pairs. Each pair consists of raw website text and its GEO-optimized counterpart incorporating credible citations, statistical evidence, and improved linguistic fluency. We evaluate using intrinsic metrics (ROUGE-L, BLEU) and extrinsic visibility assessments through controlled experiments with Llama-3.3-70B. The fine-tuned model achieves significant improvements over baseline BART: ROUGE-L scores of 0.249 (vs. 0.226) and BLEU scores of 0.200 (vs. 0.173). Most importantly, optimized content demonstrates substantial visibility gains in generative search responses with 15.63% improvement in absolute word count and 30.96% improvement in position-adjusted word count metrics. This work provides the first empirical demonstration that targeted transformer fine-tuning can effectively enhance web content visibility in generative search engines with modest computational resources. Our results suggest GEO represents a tractable approach for content optimization in the AI-driven search landscape, offering concrete evidence that small-scale, domain-focused fine-tuning yields meaningful improvements in content discoverability.