Depth and Autonomy: A Framework for Evaluating LLM Applications in Social Science Research

📄 arXiv: 2510.25432v1 📥 PDF

作者: Ali Sanaei, Ali Rajabzadeh

分类: cs.CL

发布日期: 2025-10-29

备注: Presented at the Annual Meeting of the American Political Science Association, Vancouver, BC, September 11--14 2025


💡 一句话要点

提出基于深度和自主性的LLM应用评估框架,提升社科研究可靠性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 社会科学研究 定性研究 解释深度 自主性 可信度 可审计性

📋 核心要点

  1. 定性社科研究中LLM应用面临解释偏差、低可靠性和弱审计性等挑战。
  2. 论文提出基于解释深度和自主性双维度框架,用于LLM应用分类和设计指导。
  3. 该框架鼓励分解任务,降低模型自主性,并在监督下谨慎提升解释深度。

📝 摘要(中文)

大型语言模型(LLMs)正日益被各个领域的研究人员所使用,定性社会科学也不例外。然而,这种应用面临着持续的挑战,包括解释性偏差、低可靠性和弱可审计性。我们引入了一个框架,该框架将LLM的使用置于解释深度和自主性两个维度上,从而提供了一种直接的方法来对定性研究中的LLM应用进行分类,并得出实际的设计建议。我们根据Web of Science上所有已发表的社会科学论文(这些论文将LLM作为工具使用,而不是严格作为研究对象)展示了这两个维度的文献现状。我们的方法不是给予模型广泛的自由,而是鼓励研究人员将任务分解为可管理的片段,就像他们将工作委派给有能力的本科研究助理一样。通过保持较低水平的自主性,并仅在必要且受监督的情况下选择性地增加解释深度,人们可以合理地获得LLM的好处,同时保持透明度和可靠性。

🔬 方法详解

问题定义:论文旨在解决社会科学研究中,特别是定性研究中,使用大型语言模型(LLMs)时面临的可靠性、透明度和可审计性问题。现有方法往往赋予LLMs过高的自主性,导致研究结果难以验证,并可能引入研究者无法控制的偏差。这阻碍了LLMs在社会科学研究中的广泛应用。

核心思路:论文的核心思路是将LLM在社会科学研究中的应用,置于“解释深度”和“自主性”两个维度上进行评估和设计。通过控制LLM的自主性,并根据研究需要谨慎地增加解释深度,可以在利用LLM强大能力的同时,最大限度地降低其带来的风险,保证研究结果的可靠性和可信度。

技术框架:该框架并非一个具体的算法或模型,而是一个概念性的评估和设计框架。它包含以下几个关键步骤:1) 确定研究任务;2) 分析任务所需的解释深度;3) 评估LLM在任务中的自主性水平;4) 根据评估结果,调整LLM的使用方式,例如分解任务、增加人工干预等,以达到期望的解释深度和自主性水平。

关键创新:该框架的关键创新在于提出了“解释深度”和“自主性”这两个维度,为评估和设计LLM在社会科学研究中的应用提供了一个新的视角。与以往关注LLM性能的指标不同,该框架更加关注LLM的可解释性和可控性,这对于社会科学研究至关重要。

关键设计:该框架强调任务分解和人工监督。研究人员应将复杂的任务分解为更小的、更易于管理的子任务,并对LLM的输出进行人工审查和验证。此外,框架建议使用提示工程(Prompt Engineering)来引导LLM的行为,并限制其自主性。具体的参数设置和网络结构取决于所使用的LLM和具体的任务。

📊 实验亮点

论文通过对Web of Science上已发表的社会科学论文进行分析,展示了现有LLM应用在解释深度和自主性两个维度上的分布情况。分析结果表明,现有研究普遍存在LLM自主性过高的问题,而解释深度往往不足。这为该框架的应用提供了实证依据。

🎯 应用场景

该研究成果可应用于社会学、政治学、心理学等多个社会科学领域,帮助研究人员更有效地利用LLM进行数据分析、文献综述、理论构建等工作。通过提高LLM应用的可信度和透明度,促进社会科学研究的进步,并为政策制定提供更可靠的依据。

📄 摘要(原文)

Large language models (LLMs) are increasingly utilized by researchers across a wide range of domains, and qualitative social science is no exception; however, this adoption faces persistent challenges, including interpretive bias, low reliability, and weak auditability. We introduce a framework that situates LLM usage along two dimensions, interpretive depth and autonomy, thereby offering a straightforward way to classify LLM applications in qualitative research and to derive practical design recommendations. We present the state of the literature with respect to these two dimensions, based on all published social science papers available on Web of Science that use LLMs as a tool and not strictly as the subject of study. Rather than granting models expansive freedom, our approach encourages researchers to decompose tasks into manageable segments, much as they would when delegating work to capable undergraduate research assistants. By maintaining low levels of autonomy and selectively increasing interpretive depth only where warranted and under supervision, one can plausibly reap the benefits of LLMs while preserving transparency and reliability.