Beyond SEO: A Transformer-Based Approach for Reinventing Web Content Optimisation

作者: Florian Lüttgenau, Imar Colic, Gervasio Ramirez

分类: stat.ML, cs.LG

发布日期: 2025-07-03

备注: 9 pages, 3 figures

💡 一句话要点

提出基于Transformer的GEO方法，提升网页内容在生成式AI搜索中的可见性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 生成式引擎优化 Transformer微调 网页内容优化 生成式AI搜索 内容可见性

📋 核心要点

传统SEO方法在生成式AI搜索时代面临挑战，内容在LLM输出中的可见性降低。
提出一种基于Transformer的生成式引擎优化(GEO)方法，通过微调模型来改进网页内容。
实验表明，该方法显著提升了优化后内容在生成式搜索结果中的可见性，字数和位置调整字数均有提升。

📝 摘要（中文）

随着生成式AI搜索引擎的兴起，传统SEO面临挑战。Gartner预测到2026年，传统搜索的使用量将减少25%。本文提出了一种针对生成式引擎优化(GEO)的领域特定微调方法，该方法转换网页内容，以提高其在大型语言模型输出中的可发现性。我们使用BART-base Transformer在合成生成的训练数据上进行微调，该数据包含1905个清洗后的旅游网站内容对。每对数据由原始网站文本及其GEO优化后的版本组成，优化后的版本包含可信的引用、统计证据和改进的语言流畅性。我们使用内在指标(ROUGE-L, BLEU)和通过Llama-3.3-70B进行的受控实验评估外在可见性。微调后的模型在基线BART上取得了显著的改进：ROUGE-L得分从0.226提升到0.249，BLEU得分从0.173提升到0.200。最重要的是，优化后的内容在生成式搜索响应中表现出显著的可见性提升，绝对字数增加了15.63%，位置调整后的字数指标提高了30.96%。这项工作首次实证表明，有针对性的Transformer微调可以有效地提高网页内容在生成式搜索引擎中的可见性，且计算资源需求适中。我们的结果表明，GEO代表了一种在AI驱动的搜索环境中进行内容优化的可行方法，并提供了具体的证据，表明小规模、领域聚焦的微调可以显著提高内容的可发现性。

🔬 方法详解

问题定义：传统搜索引擎优化(SEO)侧重于关键词排名，但在生成式AI搜索引擎中，内容直接影响LLM的输出。现有方法难以有效提升网页内容在LLM生成结果中的可见性，导致网站流量和用户获取受阻。因此，需要一种新的内容优化策略，以适应AI驱动的搜索环境。

核心思路：本文的核心思路是通过领域特定的微调，使Transformer模型能够将原始网页内容转换为更适合LLM理解和引用的形式。具体而言，通过在包含原始文本和优化文本的数据集上进行训练，模型学习如何添加可信的引用、统计证据和改进语言流畅性，从而提高内容在生成式搜索结果中的相关性和权威性。

技术框架：该方法使用BART-base Transformer作为基础模型。首先，构建一个包含原始网页文本及其GEO优化版本的合成数据集。然后，使用该数据集对BART模型进行微调，使其能够学习将原始文本转换为优化文本。最后，使用微调后的模型对新的网页内容进行优化，并评估其在生成式搜索结果中的可见性。

关键创新：该方法的关键创新在于提出了生成式引擎优化(GEO)的概念，并将其应用于Transformer模型的微调。与传统的SEO方法不同，GEO侧重于优化内容本身，使其更易于被LLM理解和引用。此外，该方法还提出了一种合成数据生成策略，用于创建包含原始文本和优化文本的数据集。

关键设计：该方法使用BART-base Transformer作为基础模型，并使用AdamW优化器进行微调。训练数据包含1905个清洗后的旅游网站内容对。优化目标是最小化原始文本和优化文本之间的交叉熵损失。在推理阶段，使用微调后的模型生成优化后的文本，并将其用于评估生成式搜索结果的可见性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，经过GEO优化后的内容在生成式搜索结果中表现出显著的可见性提升。具体而言，优化后的内容在ROUGE-L得分上提高了0.023 (0.249 vs 0.226)，BLEU得分上提高了0.027 (0.200 vs 0.173)。更重要的是，优化后的内容在绝对字数上增加了15.63%，在位置调整后的字数指标上提高了30.96%。

🎯 应用场景

该研究成果可应用于各种需要提高内容在生成式AI搜索中可见性的场景，例如旅游、电商、新闻等。通过GEO优化，网站可以更好地吸引用户，提高品牌知名度，并最终实现商业价值。未来，该方法可以扩展到其他领域，并与其他内容优化技术相结合，以进一步提高内容的可发现性。

📄 摘要（原文）

The rise of generative AI search engines is disrupting traditional SEO, with Gartner predicting 25% reduction in conventional search usage by 2026. This necessitates new approaches for web content visibility in AI-driven search environments. We present a domain-specific fine-tuning approach for Generative Engine Optimization (GEO) that transforms web content to improve discoverability in large language model outputs. Our method fine-tunes a BART-base transformer on synthetically generated training data comprising 1,905 cleaned travel website content pairs. Each pair consists of raw website text and its GEO-optimized counterpart incorporating credible citations, statistical evidence, and improved linguistic fluency. We evaluate using intrinsic metrics (ROUGE-L, BLEU) and extrinsic visibility assessments through controlled experiments with Llama-3.3-70B. The fine-tuned model achieves significant improvements over baseline BART: ROUGE-L scores of 0.249 (vs. 0.226) and BLEU scores of 0.200 (vs. 0.173). Most importantly, optimized content demonstrates substantial visibility gains in generative search responses with 15.63% improvement in absolute word count and 30.96% improvement in position-adjusted word count metrics. This work provides the first empirical demonstration that targeted transformer fine-tuning can effectively enhance web content visibility in generative search engines with modest computational resources. Our results suggest GEO represents a tractable approach for content optimization in the AI-driven search landscape, offering concrete evidence that small-scale, domain-focused fine-tuning yields meaningful improvements in content discoverability.

Beyond SEO: A Transformer-Based Approach for Reinventing Web Content Optimisation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理