SemLink: A Semantic-Aware Automated Test Oracle for Hyperlink Verification using Siamese Sentence-BERT

📄 arXiv: 2604.05711v1 📥 PDF

作者: Guan-Yan Yang, Wei-Ling Wen, Shu-Yuan Ku, Farn Wang, Kuo-Hui Yeh

分类: cs.SE, cs.AI, cs.CL, cs.IR

发布日期: 2026-04-07

备注: Accepted at the 19th IEEE International Conference on Software Testing, Verification and Validation (ICST) 2026, Daejeon, Republic of Korea


💡 一句话要点

提出SemLink,利用Siamese Sentence-BERT实现高效的语义超链接自动测试。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语义超链接验证 Siamese网络 Sentence-BERT 自动化测试 Web质量保证

📋 核心要点

  1. 现有超链接验证工具主要依赖HTTP状态码,无法有效检测语义漂移问题,影响用户体验。
  2. SemLink利用Siamese Sentence-BERT网络,通过计算源上下文和目标页面内容的语义相似度进行验证。
  3. SemLink在HWPPs数据集上实现了96.00%的召回率,性能与GPT-5.2相当,但速度提升显著。

📝 摘要(中文)

Web应用严重依赖超链接连接信息资源。然而,Web的动态性导致链接失效和语义漂移。传统验证工具主要检查HTTP状态码,无法检测语义不一致性。大型语言模型(LLM)虽然具备语义理解能力,但存在高延迟、隐私问题和高昂成本。本文提出SemLink,一种用于语义超链接验证的自动测试oracle。SemLink利用Siamese神经网络架构,基于预训练的Sentence-BERT (SBERT)计算超链接源上下文(锚文本、周围DOM元素和视觉特征)与其目标页面内容之间的语义一致性。为了训练和评估模型,我们构建了包含超过60,000个语义对的超链接-网页正例对(HWPPs)数据集。评估表明,SemLink实现了96.00%的召回率,与最先进的LLM (GPT-5.2)相当,但速度快约47.5倍,且计算资源需求显著降低。这项工作弥合了传统语法检查器和昂贵的生成式AI之间的差距,为自动化Web质量保证提供了一个强大而高效的解决方案。

🔬 方法详解

问题定义:论文旨在解决Web应用中超链接的语义漂移问题。传统的超链接验证方法仅检查链接是否有效(HTTP状态码),而忽略了链接指向的页面内容是否仍然与链接上下文相关。这种语义不一致会导致用户体验下降,甚至误导用户。现有方法,如人工检查或使用大型语言模型,成本高昂且效率低下。

核心思路:SemLink的核心思路是利用Siamese神经网络学习超链接源上下文和目标页面内容之间的语义关系。通过预训练的Sentence-BERT (SBERT)模型提取文本特征,并使用Siamese网络结构计算相似度,从而判断链接是否发生了语义漂移。这种方法旨在在保证准确性的前提下,提高验证效率并降低成本。

技术框架:SemLink的整体架构包含以下几个主要模块:1) 数据收集与预处理:构建包含超链接源上下文(锚文本、周围DOM元素、视觉特征)和目标页面内容的HWPPs数据集。2) 特征提取:使用预训练的Sentence-BERT模型将源上下文和目标页面内容编码为向量表示。3) Siamese网络:构建一个Siamese神经网络,分别处理源上下文和目标页面内容的向量表示,并计算它们的相似度得分。4) 判定模块:根据相似度得分判断超链接是否发生了语义漂移。

关键创新:SemLink的关键创新在于:1) 提出了一种基于Siamese Sentence-BERT网络的语义超链接验证方法,能够有效检测语义漂移问题。2) 构建了大规模的HWPPs数据集,为模型的训练和评估提供了数据基础。3) 通过使用SBERT和Siamese网络,在保证准确性的前提下,显著提高了验证效率,降低了计算成本。与现有方法相比,SemLink在效率和成本方面具有显著优势。

关键设计:SemLink的关键设计包括:1) 使用预训练的Sentence-BERT模型作为特征提取器,利用其强大的语义理解能力。2) 采用Siamese网络结构,通过共享权重来学习源上下文和目标页面内容之间的相似度。3) 设计合适的损失函数(例如,对比损失或三元组损失)来训练Siamese网络,使其能够区分语义一致和不一致的超链接。4) 针对不同的Web应用场景,可以调整源上下文的提取方式,例如,可以加入视觉特征或DOM元素信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SemLink在HWPPs数据集上进行了评估,实验结果表明,SemLink实现了96.00%的召回率,与最先进的LLM (GPT-5.2)的性能相当。同时,SemLink的运行速度比GPT-5.2快约47.5倍,且计算资源需求显著降低。这表明SemLink在保证准确性的前提下,显著提高了验证效率,降低了成本。

🎯 应用场景

SemLink可应用于大规模Web应用的自动化测试和质量保证,帮助开发者及时发现和修复语义漂移的超链接,提升用户体验。该技术还可用于搜索引擎优化(SEO),确保链接指向的内容与搜索关键词相关。此外,SemLink还可应用于知识图谱构建和维护,验证实体之间的关系是否仍然有效。

📄 摘要(原文)

Web applications rely heavily on hyperlinks to connect disparate information resources. However, the dynamic nature of the web leads to link rot, where targets become unavailable, and more insidiously, semantic drift, where a valid HTTP 200 connection exists, but the target content no longer aligns with the source context. Traditional verification tools, which primarily function as crash oracles by checking HTTP status codes, often fail to detect semantic inconsistencies, thereby compromising web integrity and user experience. While Large Language Models (LLMs) offer semantic understanding, they suffer from high latency, privacy concerns, and prohibitive costs for large-scale regression testing. In this paper, we propose SemLink, a novel automated test oracle for semantic hyperlink verification. SemLink leverages a Siamese Neural Network architecture powered by a pre-trained Sentence-BERT (SBERT) backbone to compute the semantic coherence between a hyperlink's source context (anchor text, surrounding DOM elements, and visual features) and its target page content. To train and evaluate our model, we introduce the Hyperlink-Webpage Positive Pairs (HWPPs) dataset, a rigorously constructed corpus of over 60,000 semantic pairs. Our evaluation demonstrates that SemLink achieves a Recall of 96.00%, comparable to state-of-the-art LLMs (GPT-5.2), while operating approximately 47.5 times faster and requiring significantly fewer computational resources. This work bridges the gap between traditional syntactic checkers and expensive generative AI, offering a robust and efficient solution for automated web quality assurance.