R-Log: Incentivizing Log Analysis Capability in LLMs via Reasoning-based Reinforcement Learning

作者: Yilun Liu, Ziang Chen, Song Xu, Minggui He, Shimin Tao, Weibin Meng, Yuming Xie, Tao Han, Chunguang Zhao, Jingzhou Du, Daimeng Wei, Shenglin Zhang, Yongqian Sun

分类: cs.SE, cs.AI

发布日期: 2025-09-30 (更新: 2025-12-29)

备注: Accepted by ICSE 2026 (SEIP Track)

💡 一句话要点

R-Log：通过基于推理的强化学习，提升LLM在日志分析中的能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 日志分析 大型语言模型 推理 强化学习 自动化运维

📋 核心要点

现有基于监督微调的日志分析方法易过拟合，且易受长上下文干扰，产生幻觉。
R-Log模拟人类工程师的分析过程，通过推理学习规则，并利用强化学习优化模型。
实验表明，R-Log在真实日志分析任务中显著优于现有方法，尤其是在未见场景下。

📝 摘要（中文）

现代软件系统中日志数据的日益复杂，促使人们使用大型语言模型（LLM）进行自动日志分析。目前的方法通常依赖于在日志-标签对上进行直接监督微调（SFT）。然而，这加剧了通用LLM和专用日志数据之间的领域差异，导致过拟合。此外，SFT的不平衡损失计算通常允许冗长的上下文淹没模型答案中关键的、简洁的细节，从而导致幻觉。为了解决这些限制，我们提出了R-Log，一种新颖的基于推理的范例，它反映了人类工程师结构化的、逐步的分析过程。这种方法通过学习结论背后的潜在规则来增强泛化能力。我们进一步采用强化学习（RL）来优化模拟运维环境中的模型，从而通过直接奖励正确的结果来减少幻觉。R-Log首先在由2k+推理轨迹组成的精选数据集上进行冷启动，该数据集由人工运维实践中的13种策略指导，以建立初始推理能力。然后，使用联合奖励函数通过RL来改进此能力。在真实日志上的经验评估表明，R-Log在五个日志分析任务中优于现有方法，尤其是在未见场景中（提升228.05%）。我们还设计了R-Log-fast，速度提高了5倍，同时保持了93%的功效。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在日志分析任务中存在的过拟合和幻觉问题。现有方法主要依赖于监督微调，直接在日志-标签对上训练LLM，但这种方法忽略了日志数据的特殊性，导致模型难以泛化到新的场景，并且容易受到噪声数据的干扰。此外，长文本日志中关键信息容易被淹没，导致模型产生错误的结论（幻觉）。

核心思路：R-Log的核心思路是模仿人类专家进行日志分析的推理过程，将复杂的分析任务分解为一系列步骤，并通过学习这些步骤之间的逻辑关系来提高模型的泛化能力和鲁棒性。此外，论文还引入了强化学习，通过奖励正确的分析结果来减少模型的幻觉。

技术框架：R-Log的技术框架主要包括两个阶段：推理能力初始化和强化学习优化。在推理能力初始化阶段，论文构建了一个包含2k+推理轨迹的数据集，这些轨迹模拟了人类专家在日志分析中的思考过程。然后，使用这些数据对LLM进行冷启动，使其具备初步的推理能力。在强化学习优化阶段，论文构建了一个模拟运维环境，并使用强化学习算法对模型进行训练，使其能够根据环境反馈调整推理策略，从而提高分析的准确性和效率。

关键创新：R-Log的关键创新在于引入了基于推理的范例和强化学习优化。传统的监督微调方法将日志分析视为一个黑盒问题，而R-Log则试图揭示日志分析背后的逻辑关系，并通过学习这些关系来提高模型的泛化能力。此外，强化学习的引入使得模型能够根据实际应用场景进行优化，从而更好地适应不同的日志数据和分析需求。

关键设计：R-Log的关键设计包括：1) 精心设计的推理轨迹数据集，涵盖了13种人工运维实践策略；2) 联合奖励函数，综合考虑了分析结果的准确性和效率；3) 模拟运维环境，能够提供真实的反馈信号，用于强化学习训练；4) R-Log-fast，通过知识蒸馏等技术，在保证性能的同时提高了推理速度。

🖼️ 关键图片

📊 实验亮点

R-Log在五个真实世界的日志分析任务上超越了现有方法，尤其是在未见过的场景中，性能提升高达228.05%。此外，R-Log-fast版本在保持93%性能的同时，推理速度提升了5倍，展示了该方法在实际应用中的潜力。

🎯 应用场景

R-Log可应用于各种软件系统的自动化运维场景，例如故障诊断、性能监控、安全审计等。通过自动分析日志数据，R-Log可以帮助运维人员快速定位问题、提高系统可用性、降低运维成本。未来，R-Log有望成为智能运维平台的核心组件，推动运维自动化水平的提升。

📄 摘要（原文）

The growing complexity of log data in modern software systems has prompted the use of Large Language Models (LLMs) for automated log analysis. Current approaches typically rely on direct supervised fine-tuning (SFT) on log-label pairs. However, this exacerbates the domain discrepancy between general-purpose LLMs and specialized log data, causing overfitting. Furthermore, SFT's imbalanced loss computation often allows lengthy contexts to overwhelm critical, concise details in model answers, leading to hallucinations. To address these limitations, we propose R-Log, a novel reasoning-based paradigm that mirrors the structured, step-by-step analytical process of human engineers. This approach enhances generalizability by learning the underlying rules behind conclusions. We further employ Reinforcement Learning (RL) to optimize the model within a simulated O&M environment, thereby reducing hallucinations by directly rewarding correct outcomes. R-Log is first cold-started on a curated dataset of 2k+ reasoning trajectories, guided by 13 strategies from manual O&M practices, to establish an initial reasoning capability. This ability is then refined via RL using a joint reward function. Empirical evaluations on real-world logs show that R-Log outperforms existing methods across five log analysis tasks, particularly in unseen scenarios (by 228.05%). We also designed R-Log-fast with 5x speedup while keeping 93% of the efficacy.

R-Log: Incentivizing Log Analysis Capability in LLMs via Reasoning-based Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理