短视频驱动的城市意象深度学习感知方法 - 作品赏析 - 2023年第二十一届SuperMap杯高校GIS大赛

短视频驱动的城市意象深度学习感知方法

参赛院校：深圳大学

指导老师：涂伟

队员姓名：陈夏娜、余俊娴、朱颖颖、吴若楠

论文背景

城市意象是人们感受到的城市表达，也是人们对城市的直接或间接的经验性的空间认识。近年来，抖音、快手等短视频平台快速崛起，短视频正在成为一种新的数据源，能直观地反映人对于城市环境的感知意象。如何应用新数据、新视角大范围地认知与解析城市意象，已经成为城市研究热点之一。本文为短视频风靡等新型数据环境下的城市意象研究提供新思路，为城市形象推广提供新方法。

本研究利用短视频，提出融合深度学习和空间分析的城市意象认知方法，如图1示通过深度神经网络对短视频进行像素级语义分割与识别，定量化解构城市空间的意象组成，并进行聚类分析，分别提取并总结不同尺度下的城市意象特征。利用粤港澳大湾区的抖音短视频进行实验。实验结果表明融合短视频和深度学习模型能够有效揭示城市空间意象。

图 1 融合短视频和深度学习的城市空间意象解构流程

研究方法

本文提出融合短视频和深度学习，智能解构城市空间意象的研究方法。具体地，以粤港澳大湾区内“9+2”个城市为研究区域（如图2示），利用Segformer进行短视频语义分割，解译短视频中城市物质环境组成(包括古建筑、现代建筑、交通、天空、水、植被和其他共7类)，生成城市空间视觉描述数据，利用层次聚类法和K-means聚类法来解构城市空间意象。基于SuperMap平台进行数据管理，对地标意象作空间分布可视化与核密度分析。

图 2 研究区域

对各城市所有影像数据取平均值并计算标准差得到城市级空间语义数据表，对各地标的所有影像数据取平均值得到地标级空间语义数据表，具体公式如下:

针对城市级的短视频，为比较城市意象的变化幅度，计算各类语义的变异系数，度量两个或多个观测值样本的变异程度，表达式如下：

模型验证

表1给出各空间语义的评价指标PA和IoU。除了其他类，预测类别正确的像素数占总像素数的比例（PA）均在0.5以上，最高可达0.92。表2 给出了总体的IoU、Acc和Kappa系数。mIoU为0.56，说明城市图像分割结果与原始图像真值的重合程度超过了50%。语义分割的像素准确率（Acc）则达到了78%，总体Kappa系数为0.72。因此，深度学习语义分割模型性能良好，能够满足后续城市级空间意象和地标空间意象分析的需要。