How Frontier LLMs Adapt to Neurodivergence Context: A Measurement Framework for Surface vs. Structural Change in System-Prompted Responses
作者: Ishan Gupta, Pavlo Buryi
分类: cs.CL, cs.AI, cs.HC
发布日期: 2026-04-30
备注: 15 pages, 3 figures, 2 tables. Benchmark, code, and data available at https://github.com/ishansgupta/ndbench
💡 一句话要点
NDBench:评估前沿LLM在神经多样性语境下的适应性及结构性调整
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 神经多样性 基准测试 系统提示工程 适应性评估
📋 核心要点
- 现有LLM在处理神经多样性(ND)人群需求时,缺乏有效的评估和适应机制,可能产生有害或不适宜的输出。
- 论文提出NDBench基准测试,通过系统提示工程,促使LLM适应不同的ND特征,并分析其输出的结构性变化。
- 实验表明,LLM在明确指令下能显著调整输出结构,但仅靠ND特征断言难以有效抑制潜在危害,需进一步提升适应性。
📝 摘要(中文)
本文旨在研究基于聊天的前沿大型语言模型(LLM)是否能根据系统提示中的神经多样性(ND)语境调整其输出,并描述这些调整的性质。为此,作者提出了NDBench,一个包含576个输出的基准测试,涉及两个前沿模型、三种系统提示类型(基线、ND特征断言、以及带有明确调整指令的ND特征断言)、四种典型的ND特征,以及跨四个类别的24个提示,其中一个类别涉及对抗性掩码策略。研究结果表明,LLM在ND语境下表现出显著的适应性,完全指示条件下产生更长、结构更清晰的输出,具有更高的token计数、更多标题和更细粒度的步骤。这种适应性本质上是结构性的:列表密度变化不大,但标题和每步细节的频率显著增加。仅ND角色断言未能抑制潜在的有害倾向,只有在明确指示的情况下,掩码强化才有所降低(36-44%的降幅)。LLM的危害评估可靠性分析表明,只有六个维度中的两个(掩码和强化、验证质量)超过了预定义的评委间一致性标准(alpha >= 0.67)。NDBench及其提示、输出、代码和其他资源已公开,形成了一个可复现的框架,用于审计未来LLM对ND意识的适应性。
🔬 方法详解
问题定义:论文旨在解决前沿LLM在神经多样性(ND)语境下的适应性问题。现有LLM在处理涉及ND人群的请求时,可能缺乏足够的敏感性和适应性,导致产生不准确、不友好甚至有害的回复。现有方法缺乏系统性的评估框架,难以衡量LLM对ND语境的理解和适应程度。
核心思路:论文的核心思路是通过构建一个包含多种ND特征和提示策略的基准测试(NDBench),来评估LLM在不同ND语境下的输出变化。通过分析输出的结构性特征(如token数量、标题数量、步骤粒度等),来量化LLM的适应程度和潜在的有害倾向。核心在于探究LLM是否能够理解并尊重ND人群的需求,并据此调整其回复方式。
技术框架:NDBench包含以下主要组成部分: 1. LLM选择:选择两个前沿的聊天式LLM进行评估。 2. 系统提示类型:设计三种系统提示:基线提示、ND特征断言提示、以及带有明确调整指令的ND特征断言提示。 3. ND特征:选择四种典型的ND特征(具体特征未知)。 4. 提示类别:设计四个类别的提示,包含24个具体提示,其中一类采用对抗性掩码策略。 5. 输出分析:分析LLM在不同提示下的输出,评估其结构性特征和潜在危害。
关键创新:论文的关键创新在于提出了NDBench基准测试,这是一个专门用于评估LLM在ND语境下适应性的可复现框架。该框架通过系统提示工程和结构性输出分析,提供了一种量化LLM适应程度和潜在危害的方法。此外,对抗性掩码策略的引入,有助于识别LLM中存在的潜在有害倾向。
关键设计:论文的关键设计包括: 1. 系统提示设计:精心设计的系统提示旨在引导LLM理解并适应不同的ND特征。 2. 对抗性掩码策略:通过掩盖提示中的关键信息,来测试LLM是否会产生有害或不准确的回复。 3. 结构性输出分析:通过分析输出的token数量、标题数量、步骤粒度等结构性特征,来量化LLM的适应程度。 4. 危害评估:采用LLM进行危害评估,并进行可靠性分析,筛选出可靠的评估维度。
📊 实验亮点
实验结果表明,在明确指令下,LLM能够显著调整输出结构,产生更长、结构更清晰的回复。例如,token计数、标题数量和步骤粒度显著增加(p < 10^-8,Holm校正)。然而,仅靠ND特征断言不足以抑制潜在危害,只有在明确指示的情况下,掩码强化才有所降低(36-44%的降幅)。
🎯 应用场景
该研究成果可应用于提升LLM在医疗、教育、客户服务等领域的应用效果,尤其是在与神经多样性人群交互的场景中。通过NDBench,开发者可以评估和改进LLM的ND意识和适应性,从而构建更具包容性和公平性的AI系统。未来,该研究可以扩展到更多类型的ND特征和LLM,并探索更有效的适应策略。
📄 摘要(原文)
We examine if frontier chat-based large language models (LLMs) adjust their outputs based on neurodivergence (ND) context in system prompts and describe the nature of these adjustments. Specifically, we propose NDBench, a 576-output benchmark involving two frontier models, three system prompt types (baseline, ND-profile assertion, and ND-profile assertion with explicit instructions for adjustments), four canonical ND profiles, and 24 prompts across four categories, one of which involves an adversarial masking strategy. Four trends emerge consistently from our findings. First, LLMs show significant adaptation under ND context, where fully instructed conditions yield lengthier and more structured outputs, characterized by higher token counts, more headings, and more granular steps (p < 10^-8, Holm-corrected). Second, such adaptation is largely structural in nature: although list density does not change much, there is a marked rise in the frequency of headings and per-step detail. Third, ND persona assertion alone fails to suppress potentially harmful tendencies, as masking-reinforcement decreases only in explicitly instructed cases (36-44% reduction); the reduction rate barely changes in persona assertion conditions. Moreover, reliability analysis of LLM-based harm assessment reveals that only two out of the six dimensions (masking and reinforcement, validation quality) exceed the pre-defined inter-judge agreement criterion (alpha >= 0.67) and thus can be considered primary results. NDBench is made publicly available along with its prompts, outputs, code, and other resources, forming a reproducible framework for auditing future LLMs' adaptation to ND awareness.