Topology-Enhanced Alignment for Large Language Models: Trajectory Topology Loss and Topological Preference Optimization

作者: Yurui Pan, Ke Xu, Bo Peng

分类: cs.CL

发布日期: 2026-05-08

备注: Accepted to ACL 2026. 15 pages

💡 一句话要点

提出基于拓扑增强的大语言模型对齐框架，通过轨迹拓扑损失与拓扑偏好优化提升模型生成质量

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 模型对齐 持久同调 拓扑数据分析 偏好优化 表征学习

📋 核心要点

现有对齐方法多关注局部Token概率或标量奖励，缺乏对隐藏空间中全局语义轨迹几何结构的建模与约束。
提出轨迹拓扑损失（TTL）与拓扑偏好优化（TPO），利用0维持久同调提取语义桥梁，实现对模型更新方向的拓扑正则化。
在UltraChat和Anthropic HH-RLHF数据集上验证，该方法在偏好对齐指标及LLM-judge评估中均显著优于现有非拓扑基线。

📝 摘要（中文）

大语言模型（LLM）的对齐过程（如SFT和RLHF/DPO）通常依赖局部Token似然或标量分数，忽略了表征空间的全局几何结构。本文将生成过程视为隐藏空间中的语义轨迹，并提出了一种利用0维持久同调（0-dimensional persistent homology）进行轨迹正则化的对齐框架。首先，在SFT阶段引入轨迹拓扑损失（TTL），通过将提示词与金标准答案的嵌入视为混合点云，利用持久同调提取“提示-答案桥梁”，引导模型更新方向。其次，在DPO阶段提出拓扑偏好优化（TPO），通过构建主题特定的语义偏好向量，在中间隐藏层对齐拒绝与采纳响应之间的改进方向。在Qwen2.5-7B-Instruct上的实验表明，该方法在偏好指标和LLM-judge评估中均优于强基线，且能有效控制毒性，证明了持久同调在可控对齐中的潜力。

🔬 方法详解

问题定义：现有对齐方法（SFT/DPO）主要依赖局部监督，忽略了模型在隐藏空间中生成轨迹的全局几何特征，导致模型在复杂语义空间中的对齐方向不够稳健。

核心思路：将生成过程建模为隐藏空间中的语义轨迹，引入拓扑数据分析（TDA）中的0维持久同调，通过捕捉数据点云的连通性结构（即“拓扑桥梁”）来约束模型的学习方向，从而实现更具全局一致性的对齐。

技术框架：框架包含两个核心模块：一是针对SFT的TTL，通过计算提示词与答案嵌入的持久同调，引导模型更新趋向于拓扑桥梁；二是针对DPO的TPO，在中间层构建语义偏好向量，强制模型在改进方向上与这些拓扑特征对齐。

关键创新：首次将持久同调引入LLM对齐领域，将抽象的拓扑特征转化为可微分的损失函数，实现了对模型隐藏层表征几何结构的显式控制，而非仅仅依赖输出端的概率分布。

关键设计：TTL利用0D持久同调提取提示与答案间的连接性；TPO引入动态加权机制平衡DPO损失与拓扑偏好损失，确保在优化偏好的同时不破坏原有的语言建模能力。

🖼️ 关键图片

📊 实验亮点

实验在Qwen2.5-7B-Instruct模型上进行，对比了包括最近邻正则化、随机正则化在内的多种强基线。结果显示，TTL与TPO在自动偏好指标和LLM-judge评估中均取得一致性提升，且在保持模型生成多样性的同时，有效降低了输出的毒性水平，验证了拓扑几何特征在优化模型对齐方向上的显著优势。

🎯 应用场景

该研究适用于需要高精度语义对齐的场景，如法律咨询、医疗诊断及复杂逻辑推理任务。通过引入拓扑约束，模型能更好地保持生成内容的逻辑连贯性与语义稳定性，在减少幻觉与毒性输出方面具有显著的实际应用价值，为构建更可控、更符合人类价值观的AI系统提供了新路径。

📄 摘要（原文）

Alignment of large language models (LLMs) via SFT and RLHF/DPO typically ignores the global geometry of the representation space, relying instead on local token likelihoods or scalar scores. We view generation as tracing a semantic trajectory in hidden space and propose a topology-enhanced alignment framework that regularizes these trajectories using 0-dimensional persistent homology. First, for SFT, we introduce Trajectory Topology Loss (TTL). Treating prompt and gold-answer embeddings as a mixed point cloud, we use a 0D persistent homology algorithm to extract "prompt-answer bridges." TTL aligns the model's actual update direction with these topological bridges rather than arbitrary directions. Second, for DPO, we propose Topological Preference Optimization (TPO). TPO constructs topic-specific semantic preference vectors and aligns the improvement direction between rejected and chosen responses with these vectors in an intermediate hidden layer. We also introduce a dynamic weighting scheme to balance DPO and TPO losses. Evaluating on Qwen2.5-7B-Instruct using UltraChat and Anthropic HH-RLHF, our topology-enhanced objectives consistently outperform strong non-topological baselines (e.g., per-example, nearest-neighbor, random regularizers) on automatic preference metrics and LLM-judge evaluations, while maintaining or improving toxicity. Results show persistent homology and trajectory geometry offer a promising direction for controllable alignment.

Topology-Enhanced Alignment for Large Language Models: Trajectory Topology Loss and Topological Preference Optimization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理