Decoding Neighborhood Environments with Large Language Models

作者: Andrew Cart, Shaohu Zhang, Melanie Escue, Xugui Zhou, Haitao Zhao, Prashanth BusiReddyGari, Beiyu Lin, Shuang Li

分类: cs.AI, cs.CV

发布日期: 2025-05-13

备注: 8 pages

💡 一句话要点

利用大型语言模型解码社区环境：无需训练，实现高精度环境要素识别。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 社区环境解码 目标检测 YOLOv11 提示工程

📋 核心要点

传统社区环境评估方法成本高昂且难以扩展，限制了对大规模社区环境的有效分析。
该研究探索利用大型语言模型直接解码社区环境要素，无需传统机器学习的训练数据标注过程。
实验表明，通过结合YOLOv11目标检测和LLM推理，无需训练即可实现超过88%的准确率。

📝 摘要（中文）

社区环境，如住房质量、道路和人行道等，对人类健康和福祉有显著影响。传统评估方法（如实地调查和地理信息系统）耗费资源，难以大规模应用。机器学习虽有自动化分析潜力，但标注训练数据费时费力，且缺乏易用模型。本研究探索了ChatGPT和Gemini等大型语言模型（LLM）在解码社区环境（如人行道和电线）方面的可行性。研究首先训练了一个基于YOLOv11的鲁棒模型，在检测六种环境指标（路灯、人行道、电线、公寓、单车道道路和多车道道路）方面达到了99.13%的平均准确率。然后，评估了ChatGPT、Gemini、Claude和Grok四个LLM在识别这些指标方面的可行性、鲁棒性和局限性，重点关注提示策略和微调的影响。通过对前三个LLM进行多数投票，实现了超过88%的准确率，表明LLM可以成为一种无需任何训练即可解码社区环境的有用工具。

🔬 方法详解

问题定义：现有社区环境评估方法，如人工调查和GIS，耗时耗力，难以大规模应用。机器学习方法需要大量标注数据，标注过程同样费时费力，且缺乏易于使用的模型，限制了其应用范围。因此，如何高效、低成本地解码社区环境成为一个亟待解决的问题。

核心思路：本研究的核心思路是利用大型语言模型（LLM）的强大语义理解和推理能力，直接从图像中识别社区环境要素，而无需传统的机器学习训练过程。通过巧妙的提示工程（Prompt Engineering）和模型集成，充分挖掘LLM的潜力。

技术框架：整体框架包含两个主要阶段：1) 使用YOLOv11训练一个目标检测模型，用于检测图像中的六种关键环境要素（路灯、人行道、电线、公寓、单车道道路和多车道道路）。2) 将检测到的要素信息输入到四个不同的LLM（ChatGPT、Gemini、Claude和Grok）中，通过不同的提示策略，评估它们识别和理解这些要素的能力。最后，采用多数投票的方式集成多个LLM的输出，以提高整体准确率。

关键创新：该研究的关键创新在于探索了LLM在社区环境解码方面的潜力，并验证了无需训练即可实现较高准确率的可能性。与传统机器学习方法相比，该方法显著降低了数据标注成本和模型训练复杂度。此外，研究还深入分析了不同提示策略对LLM性能的影响，为后续研究提供了有价值的参考。

关键设计：YOLOv11模型用于目标检测，其具体参数设置未在摘要中详细说明。LLM的使用主要集中在提示工程上，研究尝试了不同的提示策略，例如提供要素的描述、上下文信息等，以引导LLM进行正确的推理。最终，采用多数投票的方式集成多个LLM的输出，以提高整体鲁棒性和准确率。具体投票策略未在摘要中详细说明。

🖼️ 关键图片

📊 实验亮点

研究结果表明，基于YOLOv11的目标检测模型在六种环境指标的检测中达到了99.13%的平均准确率。通过对ChatGPT、Gemini、Claude和Grok四个LLM进行评估，并采用多数投票策略，最终实现了超过88%的准确率，证明了LLM在无需训练的情况下解码社区环境的可行性。

🎯 应用场景

该研究成果可广泛应用于城市规划、公共卫生、环境监测等领域。通过自动解码社区环境，可以快速评估社区的宜居性、健康风险和基础设施状况，为政府决策提供数据支持。此外，该方法还可以用于构建智能城市平台，为居民提供个性化的服务和信息。

📄 摘要（原文）

Neighborhood environments include physical and environmental conditions such as housing quality, roads, and sidewalks, which significantly influence human health and well-being. Traditional methods for assessing these environments, including field surveys and geographic information systems (GIS), are resource-intensive and challenging to evaluate neighborhood environments at scale. Although machine learning offers potential for automated analysis, the laborious process of labeling training data and the lack of accessible models hinder scalability. This study explores the feasibility of large language models (LLMs) such as ChatGPT and Gemini as tools for decoding neighborhood environments (e.g., sidewalk and powerline) at scale. We train a robust YOLOv11-based model, which achieves an average accuracy of 99.13% in detecting six environmental indicators, including streetlight, sidewalk, powerline, apartment, single-lane road, and multilane road. We then evaluate four LLMs, including ChatGPT, Gemini, Claude, and Grok, to assess their feasibility, robustness, and limitations in identifying these indicators, with a focus on the impact of prompting strategies and fine-tuning. We apply majority voting with the top three LLMs to achieve over 88% accuracy, which demonstrates LLMs could be a useful tool to decode the neighborhood environment without any training effort.

Decoding Neighborhood Environments with Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理