Controlled Territory and Conflict Tracking (CONTACT): (Geo-)Mapping Occupied Territory from Open Source Intelligence

作者: Paul K. Mandal, Cole Leo, Connor Hurley

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-04-18

备注: 7 pages, 1 figure, 1 table

🔗 代码/项目: GITHUB

💡 一句话要点

提出CONTACT框架，利用开源情报和LLM进行受控区域和冲突追踪的地理信息映射。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 开源情报 领土控制 大型语言模型 提示调优 冲突追踪

📋 核心要点

现有领土控制评估方法依赖大量人工标注，成本高昂且效率低下，难以快速适应动态变化。
CONTACT框架利用大型语言模型，通过少量标注数据和提示调优，实现对领土控制相关信息的自动提取和预测。
实验表明，基于BLOOMZ的CONTACT模型在领土控制预测任务上优于SetFit基线，并在低资源场景下表现出更好的泛化能力。

📝 摘要（中文）

本文提出了一种名为CONTACT的框架，该框架利用大型语言模型（LLM）和最少的监督来预测领土控制情况。该框架使用开源情报提供的非结构化文本数据，为领土控制评估提供信息。我们评估了两种方法：SetFit，一种基于嵌入的小样本分类器；以及一种应用于BLOOMZ-560m的提示调优方法，BLOOMZ-560m是一种多语言生成LLM。我们的模型在一个小型手工标注的新闻文章数据集上进行训练，这些文章涵盖了ISIS在叙利亚和伊拉克的活动，使用提示条件提取控制相关的信号，如军事行动、伤亡和位置参考。结果表明，基于BLOOMZ的模型优于SetFit基线，并且基于提示的监督提高了在低资源环境中的泛化能力。CONTACT证明，使用少样本方法微调的LLM可以减少标注负担，并支持从开放式OSINT流中进行结构化推断。代码可在https://github.com/PaulKMandal/CONTACT/ 获取。

🔬 方法详解

问题定义：论文旨在解决从开源情报（OSINT）中自动提取和预测领土控制信息的问题。现有方法通常依赖于大量人工标注数据，这既耗时又昂贵，并且难以快速适应不断变化的局势。特别是在冲突地区，准确和及时的领土控制信息对于人道主义援助、安全评估和政策制定至关重要。

核心思路：论文的核心思路是利用大型语言模型（LLM）的强大语言理解和生成能力，通过少量标注数据和提示调优（Prompt Tuning）的方式，使模型能够从非结构化的OSINT文本中提取出与领土控制相关的关键信息，例如军事行动、伤亡情况和地理位置等。这种方法旨在减少对大量标注数据的依赖，并提高模型在低资源环境下的泛化能力。

技术框架：CONTACT框架包含以下主要步骤：1) 数据收集：从新闻文章等OSINT来源收集文本数据。2) 数据标注：人工标注少量数据，用于训练和评估模型。3) 模型选择：选择合适的LLM作为基础模型，例如BLOOMZ-560m。4) 提示调优：设计合适的提示（Prompts），引导LLM提取领土控制相关的信息。5) 模型训练：使用标注数据和提示对LLM进行微调。6) 领土控制预测：使用训练好的模型对新的OSINT文本进行分析，预测领土控制情况。

关键创新：该论文的关键创新在于将提示调优技术应用于领土控制预测任务，并证明了这种方法在低资源环境下的有效性。与传统的监督学习方法相比，提示调优能够利用LLM的先验知识，减少对大量标注数据的需求。此外，该论文还探索了使用LLM进行结构化信息提取的可能性，即从非结构化的文本中提取出特定类型的实体和关系。

关键设计：论文中关键的设计包括：1) 提示的设计：提示需要能够清晰地引导LLM提取领土控制相关的信号，例如“提取军事行动”、“提取伤亡情况”等。2) 损失函数：使用交叉熵损失函数对LLM进行微调，目标是使模型能够准确地预测文本中是否存在领土控制相关的信息。3) 模型选择：选择BLOOMZ-560m作为基础模型，因为它是一种多语言的生成式LLM，具有较强的语言理解和生成能力。

🖼️ 关键图片

📊 实验亮点

实验结果表明，基于BLOOMZ-560m的CONTACT模型在领土控制预测任务上优于SetFit基线。具体而言，CONTACT模型在准确率、召回率和F1值等指标上均取得了显著提升，证明了提示调优方法在低资源环境下的有效性。此外，实验还验证了CONTACT模型在不同类型的OSINT数据上的泛化能力。

🎯 应用场景

CONTACT框架可应用于冲突地区的态势感知、人道主义援助规划、安全风险评估等领域。通过自动分析开源情报，该框架能够为决策者提供及时、准确的领土控制信息，辅助制定合理的应对策略。未来，该技术还可扩展到其他领域，如自然灾害监测、公共卫生事件预警等。

📄 摘要（原文）

Open-source intelligence provides a stream of unstructured textual data that can inform assessments of territorial control. We present CONTACT, a framework for territorial control prediction using large language models (LLMs) and minimal supervision. We evaluate two approaches: SetFit, an embedding-based few-shot classifier, and a prompt tuning method applied to BLOOMZ-560m, a multilingual generative LLM. Our model is trained on a small hand-labeled dataset of news articles covering ISIS activity in Syria and Iraq, using prompt-conditioned extraction of control-relevant signals such as military operations, casualties, and location references. We show that the BLOOMZ-based model outperforms the SetFit baseline, and that prompt-based supervision improves generalization in low-resource settings. CONTACT demonstrates that LLMs fine-tuned using few-shot methods can reduce annotation burdens and support structured inference from open-ended OSINT streams. Our code is available at https://github.com/PaulKMandal/CONTACT/.

Controlled Territory and Conflict Tracking (CONTACT): (Geo-)Mapping Occupied Territory from Open Source Intelligence

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理