IS-CoT: Breaking the Long-form Generation Collapse via Interleaved Structural Thinking

📄 arXiv: 2606.09709v1 📥 PDF

作者: Zechen Sun, Yuyang Sun, Zecheng Tang, Juntao Li, Wenpeng Hu, Wenliang Chen, Zhunchen Luo, Guotong Geng, Min Zhang

分类: cs.CL

发布日期: 2026-06-08


💡 一句话要点

提出IS-CoT框架以解决长文本生成中的崩溃问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长文本生成 动态适应 计划-写作-反思 推理增强 大型语言模型

📋 核心要点

  1. 现有的推理增强模型在长文本生成中表现不佳,尤其是当文本长度超过2000字时,性能显著下降。
  2. IS-CoT框架通过将动态的计划-写作-反思循环嵌入生成过程,解决了静态层次规划的局限性,实现了策略的持续适应。
  3. IS-Writer-8B在长文本基准测试中表现优异,相较于DeepSeek-V3.2提升了3.08分,展现出强大的长度合规性和连贯性。

📝 摘要(中文)

生成连贯且可控的长文本内容一直是大型语言模型(LLMs)面临的挑战。尽管增强推理的模型在逻辑密集型领域取得了一定成功,但在开放式写作中,当目标长度超过2000字时,其性能急剧下降。我们将这一失败归因于静态层次规划的局限性,无法在扩展上下文中提供动态指导。为此,我们提出了交错结构思维链(IS-CoT)框架,该框架将动态的计划-写作-反思循环嵌入生成过程中,使策略能够持续适应并实现全局对齐。基于该框架,我们构建了一个高质量的交错推理轨迹数据集,并训练了IS-Writer-8B。实验表明,IS-Writer-8B在长文本基准测试中实现了最先进的性能,展现出与显著更大专有模型相竞争的长度合规性和连贯性。

🔬 方法详解

问题定义:本论文旨在解决大型语言模型在长文本生成中面临的崩溃问题,尤其是在文本长度超过2000字时,现有方法的性能显著下降,无法提供有效的动态指导。

核心思路:论文提出的IS-CoT框架通过嵌入动态的计划-写作-反思循环,克服了静态层次规划的不足,使得生成过程能够根据上下文的变化进行策略调整。

技术框架:IS-CoT框架包括三个主要模块:计划模块负责生成写作策略,写作模块执行文本生成,反思模块则评估生成结果并调整策略,形成闭环反馈。

关键创新:IS-CoT的核心创新在于其动态适应能力,与传统的静态层次规划方法相比,能够在长文本生成中实现更高的连贯性和一致性。

关键设计:在模型训练中,采用了多教师管道构建高质量的交错推理轨迹数据集,确保了模型在生成过程中的策略灵活性和有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

IS-Writer-8B在长文本基准测试中表现出色,相较于DeepSeek-V3.2提升了3.08分,展现出强大的长度合规性和连贯性,证明了IS-CoT框架的有效性和创新性。

🎯 应用场景

该研究的潜在应用领域包括内容创作、教育、自动化写作等,能够为需要生成长文本的任务提供更高效的解决方案。IS-CoT框架的动态适应能力将推动长文本生成技术的发展,提升用户体验和内容质量。

📄 摘要(原文)

Generating coherent and controllable long-form content remains a persistent challenge for Large Language Models (LLMs). While reasoning-enhanced models have demonstrated success in logic-intensive domains, our evaluation reveals that they suffer from a severe length collapse in open-ended writing, where performance degrades sharply as target lengths exceed 2,000 words. We attribute this failure to the limitation of static hierarchical planning, which struggles to provide dynamic guidance over extended contexts. To bridge this gap, we introduce the Interleaved Structural Chain-of-Thought (IS-CoT) framework. Unlike external agentic workflows, IS-CoT embeds a dynamic Plan-Write-Reflect cycle into the generation process, enabling continuous strategy adaptation and global alignment without additional assistance. Based on this framework, we construct a high-quality dataset of interleaved reasoning traces via a multi-teacher pipeline and train IS-Writer-8B. Experiments demonstrate that IS-Writer-8B achieves state-of-the-art performance on challenging long-form benchmarks (e.g., +3.08 vs. DeepSeek-V3.2 on LongBench-Write), exhibiting robust length compliance and coherence competitive with significantly larger proprietary models.