Topology-Enhanced Alignment for Large Language Models: Trajectory Topology Loss and Topological Preference Optimization

📄 arXiv: 2605.07172v1 📥 PDF

作者: Yurui Pan, Ke Xu, Bo Peng

分类: cs.CL

发布日期: 2026-05-08

备注: Accepted to ACL 2026. 15 pages


💡 一句话要点

提出基于拓扑增强的大语言模型对齐框架,通过轨迹拓扑损失与拓扑偏好优化提升模型生成质量

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 模型对齐 持久同调 拓扑数据分析 偏好优化 表征学习

📋 核心要点

  1. 现有对齐方法多关注局部Token概率或标量奖励,缺乏对隐藏空间中全局语义轨迹几何结构的建模与约束。
  2. 提出轨迹拓扑损失(TTL)与拓扑偏好优化(TPO),利用0维持久同调提取语义桥梁,实现对模型更新方向的拓扑正则化。
  3. 在UltraChat和Anthropic HH-RLHF数据集上验证,该方法在偏好对齐指标及LLM-judge评估中均显著优于现有非拓扑基线。

📝 摘要(中文)

大语言模型(LLM)的对齐过程(如SFT和RLHF/DPO)通常依赖局部Token似然或标量分数,忽略了表征空间的全局几何结构。本文将生成过程视为隐藏空间中的语义轨迹,并提出了一种利用0维持久同调(0-dimensional persistent homology)进行轨迹正则化的对齐框架。首先,在SFT阶段引入轨迹拓扑损失(TTL),通过将提示词与金标准答案的嵌入视为混合点云,利用持久同调提取“提示-答案桥梁”,引导模型更新方向。其次,在DPO阶段提出拓扑偏好优化(TPO),通过构建主题特定的语义偏好向量,在中间隐藏层对齐拒绝与采纳响应之间的改进方向。在Qwen2.5-7B-Instruct上的实验表明,该方法在偏好指标和LLM-judge评估中均优于强基线,且能有效控制毒性,证明了持久同调在可控对齐中的潜力。

🔬 方法详解

问题定义:现有对齐方法(SFT/DPO)主要依赖局部监督,忽略了模型在隐藏空间中生成轨迹的全局几何特征,导致模型在复杂语义空间中的对齐方向不够稳健。

核心思路:将生成过程建模为隐藏空间中的语义轨迹,引入拓扑数据分析(TDA)中的0维持久同调,通过捕捉数据点云的连通性结构(即“拓扑桥梁”)来约束模型的学习方向,从而实现更具全局一致性的对齐。

技术框架:框架包含两个核心模块:一是针对SFT的TTL,通过计算提示词与答案嵌入的持久同调,引导模型更新趋向于拓扑桥梁;二是针对DPO的TPO,在中间层构建语义偏好向量,强制模型在改进方向上与这些拓扑特征对齐。

关键创新:首次将持久同调引入LLM对齐领域,将抽象的拓扑特征转化为可微分的损失函数,实现了对模型隐藏层表征几何结构的显式控制,而非仅仅依赖输出端的概率分布。

关键设计:TTL利用0D持久同调提取提示与答案间的连接性;TPO引入动态加权机制平衡DPO损失与拓扑偏好损失,确保在优化偏好的同时不破坏原有的语言建模能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验在Qwen2.5-7B-Instruct模型上进行,对比了包括最近邻正则化、随机正则化在内的多种强基线。结果显示,TTL与TPO在自动偏好指标和LLM-judge评估中均取得一致性提升,且在保持模型生成多样性的同时,有效降低了输出的毒性水平,验证了拓扑几何特征在优化模型对齐方向上的显著优势。

🎯 应用场景

该研究适用于需要高精度语义对齐的场景,如法律咨询、医疗诊断及复杂逻辑推理任务。通过引入拓扑约束,模型能更好地保持生成内容的逻辑连贯性与语义稳定性,在减少幻觉与毒性输出方面具有显著的实际应用价值,为构建更可控、更符合人类价值观的AI系统提供了新路径。

📄 摘要(原文)

Alignment of large language models (LLMs) via SFT and RLHF/DPO typically ignores the global geometry of the representation space, relying instead on local token likelihoods or scalar scores. We view generation as tracing a semantic trajectory in hidden space and propose a topology-enhanced alignment framework that regularizes these trajectories using 0-dimensional persistent homology. First, for SFT, we introduce Trajectory Topology Loss (TTL). Treating prompt and gold-answer embeddings as a mixed point cloud, we use a 0D persistent homology algorithm to extract "prompt-answer bridges." TTL aligns the model's actual update direction with these topological bridges rather than arbitrary directions. Second, for DPO, we propose Topological Preference Optimization (TPO). TPO constructs topic-specific semantic preference vectors and aligns the improvement direction between rejected and chosen responses with these vectors in an intermediate hidden layer. We also introduce a dynamic weighting scheme to balance DPO and TPO losses. Evaluating on Qwen2.5-7B-Instruct using UltraChat and Anthropic HH-RLHF, our topology-enhanced objectives consistently outperform strong non-topological baselines (e.g., per-example, nearest-neighbor, random regularizers) on automatic preference metrics and LLM-judge evaluations, while maintaining or improving toxicity. Results show persistent homology and trajectory geometry offer a promising direction for controllable alignment.