HoWToBench: Holistic Evaluation for LLM's Capability in Human-level Writing using Tree of Writing

作者: Andrew Zhuoer Feng, Cunxiang Wang, Yu Luo, Lin Fan, Yilin Zhou, Zikang Wang, Xiaotao Gu, Jie Tang, Hongning Wang, Minlie Huang

分类: cs.CL

发布日期: 2026-04-21

备注: 49 pages, 6 figures, 19 tables, ACL 2026 main

💡 一句话要点

提出HoWToBench基准与Tree-of-Writing评估方法，解决LLM写作能力评估难题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM评估 写作评估 Tree-of-Writing 中文写作基准 HowToBench

📋 核心要点

现有LLM写作评估方法难以有效评估千字级开放写作，且LLM-as-a-judge方法在聚合子特征时存在隐式不一致性。
论文提出Tree-of-Writing (ToW)方法，通过树状结构显式建模子特征的聚合权重，解决评估不一致问题。
构建大规模中文写作基准HowToBench，实验表明ToW与人类判断高度相关，且对文本扰动具有鲁棒性。

📝 摘要（中文）

大型语言模型(LLM)写作能力的评估仍然是一个重大挑战，这归因于写作技能的多维度特性以及现有指标的局限性。传统基于参考的指标或现代LLM-as-a-judge方法无法充分评估LLM在千字级别和开放式写作中的表现。本文提出了Tree-of-Writing (ToW)，以解决LLM-as-a-judge在文本评估中聚合所有子特征时经常发现的隐式不一致性。ToW通过显式建模子特征的聚合权重，采用树状结构的工作流程。同时，本文提出了HowToBench，这是一个大规模中文写作基准，包含12种类型和1302条指令，涵盖三个任务类别：上下文补全、大纲引导写作和开放式生成。ToW成功地减轻了偏差，与人类判断实现了0.93的皮尔逊相关系数。此外，我们发现基于重叠的文本生成指标和流行的LLM-as-a-judge实践容易受到文本扰动的影响，而ToW对它们具有鲁棒性。我们还发现，在Guide任务中，输入长度与内容相关分数之间存在负相关，表明它不能简单地通过输入侧的信息堆砌来改进。

🔬 方法详解

问题定义：现有的大型语言模型（LLM）写作能力评估方法存在局限性，尤其是在长文本和开放式写作场景下。传统的基于参考的指标（如BLEU、ROUGE）无法捕捉文本的流畅性、创造性和逻辑性等高层次特征。而新兴的LLM-as-a-judge方法，虽然能够评估更复杂的文本属性，但在聚合多个子特征（如连贯性、相关性等）时，往往存在隐式的不一致性，导致评估结果与人类判断存在偏差。此外，现有方法容易受到文本扰动的影响，缺乏鲁棒性。

核心思路：论文的核心思路是构建一个树状结构的评估框架Tree-of-Writing (ToW)，显式地建模各个子特征之间的聚合权重。通过将写作质量分解为多个层次的子特征，并使用树状结构来表示这些特征之间的关系，ToW能够更准确地捕捉文本的整体质量。同时，通过显式地学习各个子特征的权重，ToW能够解决LLM-as-a-judge方法中存在的隐式不一致性问题，提高评估结果的准确性和可靠性。

技术框架：ToW的整体框架包含以下几个主要步骤：1) 将写作任务分解为多个子特征，例如主题相关性、逻辑连贯性、语言流畅性等。2) 构建一个树状结构，表示这些子特征之间的层次关系。树的叶节点对应于最细粒度的子特征，而根节点对应于整体的写作质量。3) 使用LLM-as-a-judge方法评估每个子特征的得分。4) 使用一个可学习的聚合函数，将子特征的得分自底向上地聚合，最终得到整体的写作质量得分。这个聚合函数可以是一个简单的加权平均，也可以是一个更复杂的神经网络。

关键创新：ToW最重要的技术创新点在于其树状结构的评估框架和显式的权重建模。与传统的LLM-as-a-judge方法相比，ToW能够更准确地捕捉文本的整体质量，并解决评估过程中存在的隐式不一致性问题。此外，ToW对文本扰动具有更强的鲁棒性，能够提供更可靠的评估结果。

关键设计：ToW的关键设计包括：1) 子特征的选取和分解，需要根据具体的写作任务进行设计，以确保能够全面地覆盖文本的各个方面。2) 树状结构的构建，需要根据子特征之间的关系进行设计，以确保能够准确地表示这些特征之间的层次关系。3) 聚合函数的选择和训练，需要根据具体的任务和数据进行选择和训练，以确保能够准确地聚合子特征的得分。

🖼️ 关键图片

📊 实验亮点

实验结果表明，ToW与人类判断的皮尔逊相关系数达到0.93，显著优于传统的基于重叠的文本生成指标和流行的LLM-as-a-judge方法。此外，ToW对文本扰动具有更强的鲁棒性，能够提供更可靠的评估结果。研究还发现，在Guide任务中，输入长度与内容相关分数之间存在负相关，表明简单地增加输入信息并不能有效提升写作质量。

🎯 应用场景

该研究成果可广泛应用于LLM写作能力的自动评估、写作教学辅助、内容生成质量控制等领域。通过更准确地评估LLM的写作能力，可以促进LLM在创意写作、新闻报道、文档撰写等方面的应用，并为LLM的持续改进提供有价值的反馈。

📄 摘要（原文）

Evaluating the writing capabilities of large language models (LLMs) remains a significant challenge due to the multidimensional nature of writing skills and the limitations of existing metrics. LLM's performance in thousand-words level and open-ended writing is inadequately assessed by traditional reference-based metrics or modern LLM-as-a-judge methods. We propose Tree-of-Writing (ToW), to resolve the implicit inconsistency often found when LLM-as-a-judge aggregates all sub-features in text evaluation. ToW incorporates a tree-structured workflow by explicitly modeling the aggregation weights of sub-features. We also present HowToBench, a large-scale Chinese writing benchmark encompassing 12 genres and 1302 instructions across three task categories: contextual completion, outline-guided writing, and open-ended generation. ToW successfully mitigates the biases, achieving a 0.93 Pearson correlation with human judgments. Furthermore, we detect that both overlap-based text generation metrics and popular LLM-as-a-judge practices are vulnerable to textual disturbances, while ToW is robust to them. We also uncover a negative correlation between input length and content-related scores in the Guide task, showcasing that it cannot be simply improved by input-side information piling.

HoWToBench: Holistic Evaluation for LLM's Capability in Human-level Writing using Tree of Writing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理