前言

        本篇是小编在空间数据分析课上做的实验案例,从实验背景到各个部分的完整实现,跟大家分享如何利用arcgis、geoda等多种高效的工具来进行空间数据的分析和可视化。

        无废话,纯干货,有不周到的欢迎大家指正,也欢迎大家分享自己的思路见解!

一、正文

(一)实验目的

        社会弱势性是指个人、家庭或群体因资源缺乏,难以获取充足的食物、良好的住房条件、平等的教育机会、充分的就业机会等,从而影响其正常生活水平的不平等现象。本实验以中部五省(河南、安徽、湖北、湖南、江西)为研究区域,通过主成分分析构建社会弱势性综合评价指数,结合空间自相关分析、聚类分析和空间回归模型,研究社会弱势性的空间分布格局及其与城市化水平的关系。 

        实验目的: 

  • 理解多维度指标集成的原理和方法
  • 了解不同空间权重矩阵对空间自相关分析的影响
  • 掌握空间回归模型在实际问题中的应用

(二)实验过程与结果展示

     1.探索性数据分析

      1)步骤:

  • 在SPSS软件中打开原始数据文件--社会经济指标.xlsx
  • 将18个经济指标作为分析变量,在通用方法处选择“描述”,点击开始分析,得到原始数据的常用统计量。

      2)结果:

     (1)基础指标

     (2)深入指标


    2.综合指标构建

     1)步骤

        在尝试用SPSS发现效率不高之后,决定改用python来进行实现。在VScode中新建.py文件,导入数据分析必要的第三方库,利用程序实现数据标准化->主成分分析->社会弱势性综合指标构建->保存结果到csv类型文件这一全过程。

     (1)极差标准化

        PCA对数据敏感,首先要做的就是对数据的标准化处理,防止量纲差异导致方差大得到变量主导主成分,针对正负向指标,分别实现其标准化公式。

    (2)KMO检验

        在进行PCA分析前做KMO检验是必要的,通过KMO检验,我们能够知道信息是否可被有效提取,即PCA有没有做的意义。 (注:KMO算法实现由AI生成)

    (3)Bartlett检验

        Bartlett检验和KMO是互补但都必要的。Bartlett检验能够给出变量之间的相关性是否”非随机”,即变量之间有没有关联,若变量完全独立,靠PCA进行降维也就毫无意义。

    (4)主成分分析

     (5)综合指数CI计算

    2)结果

   (1)方差解释率表

        在此以累计方差解释率≥80%为标准,选择前五个主成分。

    (2)载荷系数表

        通过载荷系数表就可以直观看出各个变量在各主成分中的”贡献”,载荷绝对值越接近于1,说明这一变量对这一个主成分的主导作用就越强。

    (3)线性组合系数矩阵

        总结前五个主成分的含义(此含义由AI分析生成,辅助大家理解):

  1. PC1:基础生存与民生弱势维度。文盲率、无业率、住房相关等在PC1上的载荷绝对值大,因此PC1综合反映基础生存与民生领域的弱势聚集程度。
  2. PC2:人口结构与家庭弱势维度。老龄化/少儿占比偏高与离婚率高等在PC2上载荷相对突出,这是人口结构与家庭特征带来的社会弱势性。
  3. PC3:教育与基础设施弱势维度。文盲率、住房无厨房载荷高,因此PC3反映的是教育与基础设施水平带来的弱势性。
  4. PC4:经济与就业质量弱势维度。文盲率、无业率等载荷高,且为正向指标。而白领比例、大专以上学历等负向指标的载荷则相对低,因此PC4也是作为弱势维度。
  5. PC5:家庭与人口结构的补充维度。离婚率等在PC5上仍有很高载荷,因此作为PC2的补充。

    (4)综合指标CI的构建结果

        注:归一化后,其值越接近1则说明社会弱势行水平越高,越接近0则说明该地社会弱势性水平越低。       


    3.空间格局分析

     1)步骤

     (1)由于此步只需要CI字段,且在1.2.5只需要用到城市化水平字段,故首先对前问得到的综合指标CI.csv进行简化,只保留作为关联字段的PAC和CI_norm,城市化水平三个字段。

     (2)将.shp文件导入,通过join工具,以PAC为关联字段,将综合指数.csv文件包含的字段连接到要素的属性表。

     (3)右键图层进入属性对话框,进入symbology窗口,进行基于分位数分级法的可视化操作。

    2)结果

        从图上可以看出,位于不同CI等级的地区的分布有一定聚集性,为之后进行空间模式分析提供了一个参考依据,即社会弱势性在空间上可能是存在着一定的模式。


    4.空间模式分析

     1)步骤

    (1)将1.2.3处理后的,包含CI_norm,Urban(城市化水平)属性的.shp导出,然后打开Geoda,完成文件加载。

     (2)注意,由于要对要素进行空间权重矩阵的构建等操作,所以首先要做的,是将要素放到投影坐标系下。在Geoda中,首先查看要素类的坐标系信息,然后将导入的要素类文件另存,在另存的选项卡下的CRS(坐标参考系统)输入框中,删除原有内容,替换为目标投影坐标系的参数。

     (3)构建基于邻接关系的权重矩阵

        在Geoda的工具栏选择空间权重管理工具,首先构建基于一/二阶Queen的空间权重矩阵,然后构建一/二阶基于Rook的空间权重矩阵,过程及对结果如下:

        注:其实小编对这一部分存疑,Queen和Rank算法实际上是不适用于点要素的空间权重矩阵的构建的,在这一部分,小编更倾向于相信基于距离的空间权重矩阵构建的结果。(当然也有可能是小编学艺不精对知识理解的太浅陋,欢迎家人们赐教!)

    (4)构建基于距离关系的权重矩阵

        先在arcmap中估计了点与点之间的距离范围,在Geoda中构建基于欧式距离的空间权重矩阵时选择153136作为阈值。最后做K近邻,选取邻居数K=4,结果如图:

    (5)全局空间自相关

        在空间分析选项卡下选择全局Moran’s I,选择CI作为第一变量,分别基于前问得到的六类权重矩阵做全局莫兰指数求解,得到结果如下:

        首先,在两类邻接矩阵(Queen/Rook)的基础上构建的莫兰指数,其一阶值要比二阶相对大得多,这是因为一阶仅判断直接相邻,而二阶还会在一阶的基础上判断相邻的相邻,范围的扩大稀释了局部的关联性,导致莫兰指数的降低。

        再看在距离矩阵的基础上构建的莫兰指数,两者数值大致相同,莫兰指数都在0.3这一级别,说明CI在距离权重下的全局空间正相关有一定稳定性,反映出中部五省的弱势性水平有着较为显著的 “高 - 高” 或 “低 - 低” 聚集,和在1.2.3利用arcmap得到的可视化结果相互印证。

        最后对两类矩阵得到的结果进行对比,发现基于距离矩阵和邻接距离(一阶)构建的全局莫兰指数相差在0.1左右,基于距离矩阵的结果反映出更显著的高高/低低聚集现象。这是因为”邻接矩阵”以是否直接相邻作为空间关联的判断依据,但是这存在一个问题,就是有些非直接相邻但空间距离很近的对象也可能存在潜在的联系。而通过”距离矩阵”来构建全局莫兰指数,通过量化对象的实际距离并赋予不同权重,更好的捕捉对象间的关联性,这也正是老师讲到的地理学第一定律的体现。

    (6)局部空间自相关

        与前一步相同,这一次基于欧氏距离构建的权重矩阵,求局部Moran’s I,结果如下:

 

        从图上可以看出,社会弱势性CI存在局部聚集特征,其中高高聚集的有6个,低低聚集的有9个。然而结果出现52个不显著区域,就是说大部分的区域CI未呈现显著的空间局部关联,也就是说,大多数区域,不随着地理局部而呈现CI高低聚集的规律。究其原因,我想大概是因为我们的社会弱势性核心指标并没有包含地理坐标等数据,所以用基于欧式距离矩阵来构建局部莫兰指数,当指标的相关和距离的相关没有一定的交叠时,结果就会呈现无显著关联吧。

    (7)聚类分析

        此处仍然选择利用python,进行聚类分析,生成的聚类树状图如下所示,通过观察,确定最佳聚类个数为4,图中从左到右依次为1-4类。

        然后对每个聚类结果,构建其模式特征,结果如下。

        对于全局空间自相关,从表中结果可看出,同类区域(弱势程度相似)的 **“社会弱势驱动因素” 具有空间相关性(比如 “弱势性强” 的区域,都受 “基础民生差、人口家庭压力大” 等共同因素影响,且相邻区域易共享相似发展条件),导致相似弱势程度的区域在空间上整体聚集,从而表现出全局空间自相关。

        对于局部空间自相关,“高弱势类” 的区域在小范围相邻时,因共同受 “基础民生差、人口家庭压力大” 等因素驱动,形成 “热点(高弱势聚集区)”;“低弱势类” 的区域相邻时,因共享 “基础民生优、经济就业好” 等优势,形成“冷点(低弱势聚集区)”,进而呈现局部的空间聚集规律。


    5.空间回归分析

     1)步骤

    (1)首先利用Geoda打开前问已经处理好的.shp数据,在工具栏选择回归,将因变量设置为Urban字段,自变量设置为弱势性指数CI。

    (2)执行普通线性回归。选择一阶Queen矩阵作为空间权重矩阵,得到结果如下:

    (3)执行空间回归。在回归面板选择空间误差模型,得到结果如下:

        从两种回归得到的结果来看,最直观的就是普通线性回归不适合对空间数据进行分析,OLS假设的“空间独立”本身就和现实矛盾,而用空间回归则更好的贴合了空间数据的特性。但在此两类回归的自变量表现都不显著,还有很多的改进空间。

二、小结

        本实验以构建社会弱势性为主要目的,重点介绍了空间自相关分析、聚类分析和空间回归技术的应用,并利用指标成果进行了社会弱势性空间格局、空间分布模式和空间类型模式的相关系分析。

1. 研究发现: 

   - 社会弱势性呈现显著空间聚集特征; 

   - 与城市化水平呈负相关关系。 

2. 方法讨论: 

   - 不同空间权重矩阵对结果有影响; 

   - Queen邻接矩阵比Rook包含更多邻接关系; 

   - 基于距离的矩阵能更好反映局部空间特性。 

3. 局限性: 

   - 数据样本量有限; 

   - 空间权重矩阵选择需进一步优化。 

4. 应用价值: 

   - 为区域发展政策制定提供参考; 

   - 方法可推广至其他社会问题的空间分析

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐