作者:十只北羊鱼 | 来源:互联网 | 2023-07-16 10:44
文章目录
- 一、 已有数据
- 二、 相关处理数据准备以及处理
- 1. 栅格数据
- 2. 叠加分析
- 3. 生成目标区域(自主进行区域的合并即可)
- 4. 统计不同区域中各个土地利用类型的面积
- 5. 普通最小二乘进行回归(未挑选因子)
- 5.1 将表与矢量数据进行一对一的链接
- 5.2 普通最小二乘的使用
- 5.3 报表的查看
- 5.4 相关的精度进行评定
- 6 因子挑选重新进行建立回归方程
- 7. 建立回归方程 (分类实验测试)(挑选了相关因子)(最终选择四大类9小类)(基于标准的划分)
- 7.1 分为几大类后的方程
- 五大类 耕地 林地 草地 住宅用地 商业用地
- 四大类 耕地 林地 草地 住宅用地
- 四大类中 9 小类
- 五大类中 12 小类
- 8. 模拟人口 根据文献中的四大类的 9 小类作为因子
- 8.1 可变面积划分方案一
- 8.1 模拟结果统计以及精度评定
- 8.2 可变面积划分方案二
- 8.2 模拟结果统计以及精度评定
- 8.3 可变面积划分方案三
- 8.3 模拟结果统计以及精度评定
- 9. 在统计面积时,采用不同的像元大小进行土地利用类型面积统计(挑选合适分辨率)(下面的不同方案指的是上文中的三种不同的区域划分方案)
- 9.1(2 cell)
- 9.2 (5 cell)
- 9.3 (10cell)
- 9.4 (20cell)
- 9.5 分辨率选择结论
- 10. 全部因子加入回归分析进行模拟人口结果
- 11. 探索性回归分析
- 1. 工具位置
- 2. 相关参数挑选
- 3. 基于解释变量数量的最佳模型
- 4. 根据挑探索回归选出的因子进行方案的回归分析(选择上面分析得到的三种模型中的第一个,红框已经标出)
- 5 由探索性回归挑选的因子而得到的回归方程(OLS)(此方程基于标准)
- 5.1 回归报表:
- 5.2 回归方程:
- 5.3 不同方案人口模拟以及精度评定(基于10m的栅格数据统计的土地利用类型面积而做)
- 5.3.1 方案一划分
- 5.3.2 方案二划分
- 5.3.2 方案三划分
- 12. 精度评定汇总(基于不同栅格精度,不同方案,探索性回归整合)
- 13. 对于数据处理的挖掘分析
- 13.1 回归方程的评价(文献挑选因子与探索性回归方程比较)
- 13.2 关于分辨率的
- 14 人口密度 土地占有率 回归分析
- 14.1 文献方向------建立回归方程
- 14.2 探索性回归方向
- 三、 附录 全部土地利用类型进行的回归的回归方程(测试用过)
- 1. 全部加入回归的因子有:
- 2. 相关性图表
- 3. 土地利用类型划分表
一、 已有数据
原始数据_EA(原始的伦敦的各个小的行政规划 里面的每个小规划单位有人口数据以及相关的小面积)
源数据_EA (一个参考的标准的将原始数据的二次划分,划分成一些比较大的单位 即小单位的合并)
Landuse (土地利用 区域内的不同的土地利用类型的面积
1.1 关于土地利用类型数据的说明
在所下载的伦敦土地利用数据中,一共有19中土地利用类型,下载后根据相关文献得知,土地利用类型与耕地,林地,草地,住宅用地相关性较强,所以挑选出来做回归分析,在19类型中,属于耕地,林地,草地,住宅用地共有 9 个小类,所以后面的回归分析基于此 9 小类处理。
二、 相关处理数据准备以及处理
1. 栅格数据
Landuse矢量数据转换成栅格数据:10米,值:code,命名:LU_EA_Raster。
工具:Conversion Tools-to Raster-Feature to Raster
2. 叠加分析
源数据_EA和原始数据_EA进行叠加分析按区域统计y值
工具:Analysis Tools-Overlay-Spatial Join
参数选择:one to one ,contains
3. 生成目标区域(自主进行区域的合并即可)
区域合并为30-40平方公里,命名 目标区域_EA
4. 统计不同区域中各个土地利用类型的面积
使用面积制表的功能
此处打开 arcgis 的搜索工具
面积制表
TabulateArea
进行相关参数的设置即可
面积的制作表格
https://desktop.arcgis.com/zh-cn/arcmap/10.3/tools/spatial-analyst-toolbox/tabulate-area.htm
5. 普通最小二乘进行回归(未挑选因子)
5.1 将表与矢量数据进行一对一的链接
在矢量数据右键进行 join 即可
5.2 普通最小二乘的使用
5.3 报表的查看
5.4 相关的精度进行评定
新建字段 为Residual的双倍 RR 设置成 double类型 计算出 RR 的平均值(字段统计)直接开根号即可
均方根误差:32,545.84180638448
标准化值:0.3254273420436881
6 因子挑选重新进行建立回归方程
田永中等(2004)在2000年中国人口分布影响因素的主成分分析中发现了耕地对于人口密度来讲,相关系数高达0.949,于欣鑫等(2015)在青岛地区人口密度空间化模拟研究表明耕地,居住区,林地3种土地利用类型与人口相关系数可以达到0.80以上,水域草地和未利用土地与人口密度的相关系数均小于0.2,相关性不强;江东、杨小唤等(2002)在基于RS、GIS的人口空间分布研究中经过筛选,选择了耕地、林地、草地、农村居民点、城镇居民点、工交建设用地作为模型中的因子;
7. 建立回归方程 (分类实验测试)(挑选了相关因子)(最终选择四大类9小类)(基于标准的划分)
四大类是:耕地 林地 草地 住宅用地
九小类是:
7.1 分为几大类后的方程
五大类 耕地 林地 草地 住宅用地 商业用地
均方根误差: 47052.46176789463
标准化值:0.470479690180711
耕地 林地 草地 住宅用地 商业用地
四大类 耕地 林地 草地 住宅用地
均方根误差:50479.29406504035e
标准化值:0.504744741081033
四大类中 9 小类
均方根误差:45812.36255398550
标准化值:0.458079882135993
五大类中 12 小类
均方根误差:34199.74333246568
标准化值:0.341964778095781
8. 模拟人口 根据文献中的四大类的 9 小类作为因子
回归方程采用上面的四大类中 9 小类的回归结果
Y = 49944.034734 + 0.004136 *x1- 0.023265 * x2 + 0.003905 *x3 - 0.020625 * x4 + 0.007767 * x5 - 0.002897 * x6 - 0.008433 * x7 -0.016327 * x8 + 0.316676 * x9
x1 到 x9 分别对应下面的顺序
8.1 可变面积划分方案一
8.1 模拟结果统计以及精度评定
精度评定采用均方根误差并计算标准化值
误差计算公式:abs(原始人口 - 模拟人口 ) / 原始人口
8.2 可变面积划分方案二
8.2 模拟结果统计以及精度评定
精度评定采用均方根误差并计算标准化值
误差计算公式:abs(原始人口 - 模拟人口 ) / 原始人口
8.3 可变面积划分方案三
8.3 模拟结果统计以及精度评定
精度评定采用均方根误差并计算标准化值
误差计算公式:abs(原始人口 - 模拟人口 ) / 原始人口
9. 在统计面积时,采用不同的像元大小进行土地利用类型面积统计(挑选合适分辨率)(下面的不同方案指的是上文中的三种不同的区域划分方案)
9.1(2 cell)
相关的精度评定 以及统计结果
探索性回归_参考标准
方案 1
方案 2
方案 3
9.2 (5 cell)
探索性回归_参考标准
方案 1
方案 2
方案 3
9.3 (10cell)
探索性回归_参考标准
方案 1
方案 2
方案 3
9.4 (20cell)
探索性回归_参考标准
方案 1
方案 2
方案 3
9.5 分辨率选择结论
从标准化值来看当选择的像元分辨率越高,相应的人口密度的模拟精度会随之提高,但是考虑到计算机的运行时间以及保证一定的精度,以及相关数据对比,将分辨率设置在 5 ~ 10 之间比较合适
10. 全部因子加入回归分析进行模拟人口结果
方案1
方案2
方案3
结论
将所有的因子加入回归模拟人口,相比挑选部分因子,其精度较高,方程的项数也更多,但是实际情况中,不会一股脑将全部的因子加进去,需要通过一定手段进行因子的挑选得到好的人口密度的模拟模型。
11. 探索性回归分析
1. 工具位置
2. 相关参数挑选
3. 基于解释变量数量的最佳模型
此模型是基于基准的划分得到的(基准的划分有71个划分单元,如下所示)
4. 根据挑探索回归选出的因子进行方案的回归分析(选择上面分析得到的三种模型中的第一个,红框已经标出)
5 由探索性回归挑选的因子而得到的回归方程(OLS)(此方程基于标准)
5.1 回归报表:
5.2 回归方程:
Y = 10625.593015 - 0.011358 * x1 - 0.008730 * x2 + 0.115421 * x3 - 0.034894 * x4 + 0.007372 *x5 + 0.022352 * x6 -0.147975 * x7 - 0.019122 * x8 + 0.113022 * x9
5.3 不同方案人口模拟以及精度评定(基于10m的栅格数据统计的土地利用类型面积而做)
5.3.1 方案一划分
总体概览
局部放大:
5.3.2 方案二划分
总体概览:
局部放大:
5.3.2 方案三划分
总体概览
局部放大
12. 精度评定汇总(基于不同栅格精度,不同方案,探索性回归整合)
13. 对于数据处理的挖掘分析
13.1 回归方程的评价(文献挑选因子与探索性回归方程比较)
下面是文献阅读所挑选的因子:
均方根误差:45812.36255398550
标准化值:0.458079882135993
下面是探索性所挑选的因子:
回归方程对比分析(挑选几个回归报表的参数进行对比分析):
- 从回归系数标准差来看,基于文献所挑选的因子而形成的回归方程的回归系数标准差相较基于探索性回归分析的得到的模型的回归系数标准差较大;
- 探索性的方差膨胀因子(VIF)整体来讲,比基于文献所构造的模型的数值要低,说明其因子的冗余度较低;
- 从 Multiple R-Squared:多重R平方系数 Adjusted R-Squared:校正R平方系数来看
探索性回归分析中的多重R平方系数为0.7535,校正R平方系数为0.6918;
基于文献所挑选因子回归方程中:多重R平方系数为0.561952,校正R平方系数为0.497321;
通常来讲,这两个参数会进行一起使用,它们的值在0 ~ 1之间,指的是在回归方程中的自变量对于因变量的解释能力,从回归分析来说,探索性回归分析的模型的性能会更加的好一些。 - 综上,基于探索性回归分析所建立起来的模型相对基于文献所挑选的因子模型的精度要更高,模型也更加的准确
13.2 关于分辨率的
在进行人口的模拟时候,由于回归方程中的的自变量是土地利用类型的面积,而在进行面积统计的时候,不同的栅格数据的精度,对于面积的统计结果有一定的影响,从而对于人口的最终模拟结果有一定的影响,所以确定合适的栅格分辨率是必要的。
14 人口密度 土地占有率 回归分析
14.1 文献方向------建立回归方程
Y = 178346.13774 - 32803.58927 - 588447.7057 - 377860.5226 - 1088738.673 - 23931.25490 - 280297.4209 - 255264.6494 - 195405.6398 + 2625462.2668
14.2 探索性回归方向
Y = 103558.72844 - 467438.3100 - 422455.5389 + 2224701.3733 - 543006.7135 + 32348.943254 + 317196.76343 - 5431647.795 - 492478.4801 + 64623.946504
三、 附录 全部土地利用类型进行的回归的回归方程(测试用过)
1. 全部加入回归的因子有:
!
2. 相关性图表
3. 土地利用类型划分表