ESG-Bench: Benchmarking Long-Context ESG Reports for Hallucination Mitigation

📄 arXiv: 2603.13154v1 📥 PDF

作者: Siqi Sun, Ben Peng Wu, Mali Jin, Peizhen Bai, Hanpei Zhang, Xingyi Song

分类: cs.CL, cs.AI

发布日期: 2026-03-13

备注: To be published in the AAAI 2026 proceedings


💡 一句话要点

提出ESG-Bench基准数据集,用于评估和缓解大语言模型在ESG报告分析中的幻觉问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: ESG报告分析 大型语言模型 幻觉缓解 问答系统 思维链 基准数据集 合规性

📋 核心要点

  1. 现有方法难以有效处理ESG报告的长文本和复杂性,导致分析自动化程度低且结果不可靠。
  2. 论文提出ESG-Bench数据集,通过构建问答任务并标注幻觉,系统评估和提升LLM在ESG报告分析中的能力。
  3. 实验表明,基于CoT的方法能显著减少幻觉,且提升效果可迁移至其他QA任务,验证了方法的有效性。

📝 摘要(中文)

随着企业责任日益包含环境、社会和治理(ESG)标准,ESG报告正成为许多地区的法律要求,也是记录可持续发展实践和评估企业长期及伦理表现的关键渠道。然而,ESG披露的长度和复杂性使其难以解释和可靠地自动化分析。为了支持可扩展和可信的分析,本文介绍了ESG-Bench,这是一个用于ESG报告理解和缓解大型语言模型(LLM)中幻觉的基准数据集。ESG-Bench包含人工标注的问答(QA)对,这些问答对基于真实的ESG报告上下文,并带有细粒度的标签,指示模型输出是否得到事实支持或产生幻觉。将ESG报告分析构建为具有可验证性约束的QA任务,可以系统地评估LLM提取和推理ESG内容的能力,并提供一个新的用例:缓解在社会敏感、合规关键环境中的幻觉。我们设计了特定于任务的思维链(CoT)提示策略,并使用CoT注释的理由在ESG-Bench上微调了多个最先进的LLM。我们的实验表明,这些基于CoT的方法在减少幻觉方面大大优于标准提示和直接微调,并且这些收益可以转移到ESG领域之外的现有QA基准。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在处理和理解长篇幅、复杂的ESG(环境、社会和治理)报告时容易产生的“幻觉”问题。现有方法难以准确提取和推理ESG报告中的信息,导致分析结果不可靠,尤其是在社会敏感和合规性要求高的场景下,幻觉会带来严重风险。

核心思路:论文的核心思路是将ESG报告的分析任务转化为一个问答(QA)任务,并构建一个包含人工标注的QA对的数据集ESG-Bench。通过对模型输出进行细粒度的标注,区分事实支持和幻觉,从而能够系统地评估和改进LLM在ESG报告分析中的表现。同时,利用思维链(Chain-of-Thought, CoT)提示策略,引导模型进行更深入的推理,减少幻觉的产生。

技术框架:整体框架包括以下几个主要阶段:1) 构建ESG-Bench数据集,包含基于真实ESG报告的QA对,并标注答案是否为幻觉;2) 设计特定于ESG报告分析的CoT提示策略,引导LLM进行推理;3) 在ESG-Bench数据集上微调多个最先进的LLM,使用CoT标注的理由进行训练;4) 评估微调后的模型在ESG-Bench以及其他QA基准上的表现,验证方法的有效性。

关键创新:最重要的技术创新点在于将幻觉缓解问题与ESG报告分析相结合,并构建了专门的ESG-Bench数据集。此外,针对ESG报告的特点,设计了任务特定的CoT提示策略,并利用CoT标注的理由进行微调,显著提升了模型在ESG报告分析中的准确性和可靠性。

关键设计:论文中关键的设计包括:1) ESG-Bench数据集的构建,保证了数据的质量和多样性,覆盖了ESG报告的各个方面;2) CoT提示策略的设计,通过引导模型逐步推理,减少了幻觉的产生;3) 微调过程中,使用了CoT标注的理由作为训练信号,帮助模型学习更准确的推理路径。具体的参数设置和网络结构等技术细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于CoT的方法在ESG-Bench数据集上显著优于标准提示和直接微调,有效降低了幻觉的产生。更重要的是,这种提升效果可以迁移到ESG领域之外的现有QA基准上,表明该方法具有一定的通用性。具体的性能数据和提升幅度在论文中未明确给出,属于未知信息。

🎯 应用场景

该研究成果可应用于金融分析、企业风险评估、合规性检查等领域。通过提高LLM在ESG报告分析中的准确性和可靠性,可以帮助投资者、监管机构和企业更好地理解和评估企业的可持续发展表现,促进负责任的投资和商业行为,并降低因错误信息导致的决策风险。未来可扩展到其他类型的长文本报告分析。

📄 摘要(原文)

As corporate responsibility increasingly incorporates environmental, social, and governance (ESG) criteria, ESG reporting is becoming a legal requirement in many regions and a key channel for documenting sustainability practices and assessing firms' long-term and ethical performance. However, the length and complexity of ESG disclosures make them difficult to interpret and automate the analysis reliably. To support scalable and trustworthy analysis, this paper introduces ESG-Bench, a benchmark dataset for ESG report understanding and hallucination mitigation in large language models (LLMs). ESG-Bench contains human-annotated question-answer (QA) pairs grounded in real-world ESG report contexts, with fine-grained labels indicating whether model outputs are factually supported or hallucinated. Framing ESG report analysis as a QA task with verifiability constraints enables systematic evaluation of LLMs' ability to extract and reason over ESG content and provides a new use case: mitigating hallucinations in socially sensitive, compliance-critical settings. We design task-specific Chain-of-Thought (CoT) prompting strategies and fine-tune multiple state-of-the-art LLMs on ESG-Bench using CoT-annotated rationales. Our experiments show that these CoT-based methods substantially outperform standard prompting and direct fine-tuning in reducing hallucinations, and that the gains transfer to existing QA benchmarks beyond the ESG domain.