热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

工具投影没反应_从空间格网开始,谈投影坐标,空间索引与快速空间连接

写在前面空间数据的巨量化的背后,是对空间处理工具的处理速度的挑战。当你试图用半小时完成一个简单的空间连接的时候,就意味着你手里的这一套算法与工具
写在前面

空间数据的巨量化的背后,是对空间处理工具的处理速度的挑战。当你试图用半小时完成一个简单的空间连接的时候,就意味着你手里的这一套算法与工具,基本已经被判了死刑。而现实则是,市面上流行的大部分空间处理工具,如ArcGIS和Geopandas,在处理速度上都广为诟病。在动辄上亿个点面的空间处理中,十分之吃力,甚至无法运行。这个时候,如何找到更快的计算方法,就十分重要了。

本文介绍了一种通过空间索引来完成点面间快速空间连接的方法,在一定程度上参考了我之前做的点线间空间连接方法:https://zhuanlan.zhihu.com/p/53992405。方法的基本思路十分简单,就是把面转化为格点,然后借助空间索引快速定位出点集间的最小距离。本文尚未涉及分布式空间计算如GeoSpark,完全基于本地Python实现,并与Geopandas的空间连接结果进行了对比。

空间格网的构建与投影

习惯使用ArcGIS的同学在听到空间格网后的第一反应应该就是Fishnet和Tessellation了,没错,他们都是非常好用的空间格网产生工具。但既然本文讨论的提速,我们就没必要再借助ArcGIS了。我们来试图自己生成一个空间格网。

初学者容易弄错的一点就是:空间格网还不容易,给我一个多边形的最大顶点与最小顶点的经纬度,然后等距插值一下不就出来了。但这其中隐藏了一个bug,那就是经纬度的等距偏移,不等于距离的等距偏移。引用一下这段话[1]:

Each degree of latitude is approximately 69 miles (111 kilometers) apart. The range varies (due to the earth's slightly ellipsoid shape) from 68.703 miles (110.567 km) at the equator to 69.407 (111.699 km) at the poles.
A degree of longitude is widest at the equator at 69.172 miles (111.321) and gradually shrinks to zero at the poles.

简而言之,经纬度是球面坐标的表达,并不是我们传统意义的平面坐标,因此在空间处理时,任何涉及到距离计算的操作,都一定要预先定义好投影坐标。投影坐标就像把地球仪摊平了,球面变成了平面,这时候各种建立在平面坐标系上面的距离计算公式也就可以使用了。

那如何确定所在的地区的投影坐标呢?在图源没有指定具体坐标系统的情况下,绝大多数我们地理坐标系都会使用WGS84,而投影坐标系都会使用UTM分区系统。

a4c9daf0bb2e4759a386c0747a46e281.png

了解了投影之后,思路的确就很简单了,找到多边形的顶点经纬度后,先投影,再插值,即可得到真正意义的等距格点了,然后再基于得到的格点生成buffer即可。至于如何得到具体的UTM分区,我们也不需要去地图上对着自个比对,直接写代码即可输出对应的UTM分区了。在Geopandas中,WGS84的代号为EPSG:4326,而北半球UTM的代号为EPSG:326+分区号;南半球为EPSG:327+分区号。

import geopandas as gpd
import pandas as pd
import numpy as np
from geopandas import GeoDataFrame
from shapely.geometry import Point
import pyproj
import utm
import math
from geopandas.tools import sjoin
import datetime
import os
import matplotlib.pyplot as plt
import mapclassify
import scipy.spatial# Get the UTM code
def convert_wgs_to_utm(lon, lat):utm_band = str((math.floor((lon + 180) / 6) % 60) + 1)if len(utm_band) == 1:utm_band = '0' + utm_bandif lat >= 0:epsg_code = '326' + utm_band # lat>0: N;else:epsg_code = '327' + utm_bandreturn epsg_code# Read PGCOUNTY
# 'D:COVID19RNN_COVID_DataShapefileNational_County_4326.shp'
poly = gpd.GeoDataFrame.from_file(r'D:COVID19RNN_COVID_DataShapefileNational_County_4326.shp', crs={'init': 'EPSG:4326'})
# Get the bounds
poly_bound = poly.geometry.bounds
# Get the utm code
utm_code = convert_wgs_to_utm(poly_bound['minx'][0], poly_bound['miny'][0])
# Project the lat/lon to meters
transformed_min = pyproj.transform(pyproj.Proj(init='EPSG:4326'), pyproj.Proj(init='EPSG:{0}'.format(utm_code)),poly_bound['minx'][0], poly_bound['miny'][0]) # lon lat
transformed_max = pyproj.transform(pyproj.Proj(init='EPSG:4326'), pyproj.Proj(init='EPSG:{0}'.format(utm_code)),poly_bound['maxx'][0], poly_bound['maxy'][0]) # lon lat
# Make a grid
Buffer_Value = 100
xmin, xmax, ymin, ymax = transformed_min[0], transformed_max[0], transformed_min[1], transformed_max[1]
xx, yy = np.meshgrid(np.arange(xmin, xmax, Buffer_Value), np.arange(ymin, ymax, Buffer_Value)) # meter
# Output
Grid_Point = GeoDataFrame({'geometry': [Point(x, y) for x, y in zip(xx.flatten(), yy.flatten())]})
Grid_Point.crs = {'init': 'EPSG:{0}'.format(utm_code)}
Grid_Point = Grid_Point.to_crs({'init': 'EPSG:4326'})
# Within
pointInPolys = sjoin(Grid_Point, poly, how='inner', op='within').reset_index(drop=True)
pointInPolys .to_file("result2.shp") # output shp to test
# Buffer
Buffer_S = pointInPolys.buffer(Buffer_Value / 2, cap_style=3).reset_index(drop=True) # cap_style=3
Buffer_S = Buffer_S.reset_index()
Buffer_S.columns = ['B_ID', 'geometry']
Buffer_S = gpd.GeoDataFrame(Buffer_S, geometry='geometry')
Buffer_S.crs = {'init': 'EPSG:{0}'.format(utm_code)}
Buffer_S = Buffer_S.to_crs({'init': 'EPSG:4326'})

在代码的最后,我们把得到的结果导出成shp文件在ARCGIS中打开,可见这正是我们需要的格点了。

74a9dec6ada29c04f569cbcee8582999.png
空间索引与空间连接

在得到空间格点之后,点面的空间连接实际就变成了点点的最短距离。在这方面的研究则十分成熟了[2],但依然要注意,点点的空间距离必须基于投影坐标计算。换而言之,我们的经纬度除了用来绘图,其余场景应当尽量避免使用才对。

在这里我们继续采用CKDtree。在计算之前,先确保把所有的经纬度全部投影到对应的坐标系中去了:

# The points of grids
pointInPolys = pointInPolys.to_crs({'init': 'EPSG:{0}'.format(utm_code)})
pointInPolys['lon'] = pointInPolys.geometry.apply(lambda p: p.x)
pointInPolys['lat'] = pointInPolys.geometry.apply(lambda p: p.y)
ref_points = pointInPolys[['lon', 'lat']].values# The points we need to join with spatial grids
table = pd.read_pickle('MDPG_device_new_data_%04s' % date)
# table = table.sample(10000)
table['Time_index'] = round((table['DateTime'] - Today).dt.total_seconds() / (Time_Bandwith * 60))
points = np.dstack(pyproj.transform(pyproj.Proj(init='EPSG:4326'), pyproj.Proj(init='EPSG:{0}'.format(utm_code)),table['Longitude'].values, table['Latitude'].values))[0] # lon lat
dist_ckd1, indexes_ckd1 = scipy.spatial.cKDTree(ref_points).query(points)
table['Min_Distance'] = dist_ckd1
table['B_ID'] = indexes_ckd1
# plt.plot(table['Min_Distance1'] - table['Min_Distance'], 'o')
table &#61; table[table[&#39;Min_Distance&#39;] <&#61; Buffer_Value / 2]

我们把结果与Geopandas的sjoin对比一下&#xff0c;Geopandas虽然也引入了空间索引&#xff08;rtree&#xff09;[3]&#xff0c;但速度依然是硬伤&#xff0c;这与其本身的空间数据结构有很大关系。

TjInPolys &#61; gpd.GeoDataFrame(table, geometry&#61;gpd.points_from_xy(x&#61;table.Longitude, y&#61;table.Latitude))
TjInPolys.crs &#61; {&#39;init&#39;: &#39;EPSG:4326&#39;}
TjInPolys &#61; sjoin(TjInPolys, Buffer_S, how&#61;&#39;inner&#39;, op&#61;&#39;within&#39;).reset_index(drop&#61;True)
print(len(TjInPolys))
TjInPolys &#61; TjInPolys.merge(table, on&#61;[&#39;Cuebiq_ID&#39;, &#39;DateTime&#39;], how&#61;&#39;outer&#39;)
plt.plot(TjInPolys[&#39;B_ID&#39;], TjInPolys[&#39;B_ID_right&#39;], &#39;o&#39;, alpha&#61;0.1,color&#61;&#39;k&#39;)

先看空间索引的散点图&#xff0c;两者完全一致&#xff0c;说明通过空间格点&#43;CKDTREE可以完美实现空间连接的功能。

eeca630b577da9a8f12a94477feeae34.png

再对比一下运行速度&#xff0c;我测试了100000个sample&#xff0c;500000个sample&#xff0c;1000000个sample与32265个面的空间连接速度&#xff08;后者为Geopandas的sjoin&#xff09;&#xff1a;

  1. 100000个&#xff1a;0.437787s&#xff1b;4.85921s
  2. 500000个&#xff1a;1.578362s&#xff1b;21.562538s
  3. 1000000个&#xff1a;3.45322s&#xff1b;42.703092s

可见速度提升了至少10倍以上&#xff0c;且会随着样本量的增大&#xff0c;提升速度更为明显。

最后&#xff0c;画个图展示一下对每个格网计数点位后的效果&#xff08;其实就很类似热力图&#xff09;。可见我们的格点基于点位个数上色后&#xff0c;几乎复盘了城市的道路系统&#xff0c;且存在道路等级越高颜色越深&#xff08;观测到的点位信息越多&#xff09;的趋势。

Encounter &#61; table.groupby([&#39;Time_index&#39;, &#39;B_ID&#39;])[&#39;Cuebiq_ID&#39;].nunique().reset_index()
# Count and output
Slice &#61; Encounter.groupby([&#39;index_right&#39;]).sum()[&#39;Cuebiq_ID&#39;].reset_index()
Slice.columns &#61; [&#39;B_ID&#39;, &#39;Count&#39;]
Buffer_S_N &#61; Buffer_S.merge(Slice, on&#61;&#39;B_ID&#39;, how&#61;&#39;left&#39;)
Buffer_S_N &#61; Buffer_S_N.fillna(0)
fig, ax &#61; plt.subplots(nrows&#61;1, ncols&#61;1, figsize&#61;(12, 6))
# scheme &#61; mapclassify.Quantiles(Buffer_S_N[&#39;Count&#39;], k&#61;6)
Buffer_S_N.plot(column&#61;&#39;Count&#39;, ax&#61;ax, legend&#61;True, scheme&#61;&#39;quantiles&#39;, k&#61;5,legend_kwds&#61;dict(loc&#61;4, frameon&#61;False), linewidth&#61;0.1, edgecolor&#61;&#39;white&#39;,cmap&#61;&#39;OrRd&#39;)

337dbbf3715e12b005b295477d372c8a.png

参考

  1. ^1 https://gis.stackexchange.com/questions/142326/calculating-longitude-length-in-miles
  2. ^2 https://zhuanlan.zhihu.com/p/53992405
  3. ^3 https://gis.stackexchange.com/questions/175228/geopandas-spatial-join-extremely-slow



推荐阅读
  • 欢乐的票圈重构之旅——RecyclerView的头尾布局增加
    项目重构的Git地址:https:github.comrazerdpFriendCircletreemain-dev项目同步更新的文集:http:www.jianshu.comno ... [详细]
  • 在Android开发中,使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法,并提供了具体的代码实现。通过获取图片的宽高,计算目标宽度和高度,并创建新图实现等比例缩放。 ... [详细]
  • 十大经典排序算法动图演示+Python实现
    本文介绍了十大经典排序算法的原理、演示和Python实现。排序算法分为内部排序和外部排序,常见的内部排序算法有插入排序、希尔排序、选择排序、冒泡排序、归并排序、快速排序、堆排序、基数排序等。文章还解释了时间复杂度和稳定性的概念,并提供了相关的名词解释。 ... [详细]
  • Java太阳系小游戏分析和源码详解
    本文介绍了一个基于Java的太阳系小游戏的分析和源码详解。通过对面向对象的知识的学习和实践,作者实现了太阳系各行星绕太阳转的效果。文章详细介绍了游戏的设计思路和源码结构,包括工具类、常量、图片加载、面板等。通过这个小游戏的制作,读者可以巩固和应用所学的知识,如类的继承、方法的重载与重写、多态和封装等。 ... [详细]
  • 本文介绍了C#中生成随机数的三种方法,并分析了其中存在的问题。首先介绍了使用Random类生成随机数的默认方法,但在高并发情况下可能会出现重复的情况。接着通过循环生成了一系列随机数,进一步突显了这个问题。文章指出,随机数生成在任何编程语言中都是必备的功能,但Random类生成的随机数并不可靠。最后,提出了需要寻找其他可靠的随机数生成方法的建议。 ... [详细]
  • 基于Socket的多个客户端之间的聊天功能实现方法
    本文介绍了基于Socket的多个客户端之间实现聊天功能的方法,包括服务器端的实现和客户端的实现。服务器端通过每个用户的输出流向特定用户发送消息,而客户端通过输入流接收消息。同时,还介绍了相关的实体类和Socket的基本概念。 ... [详细]
  • 超级简单加解密工具的方案和功能
    本文介绍了一个超级简单的加解密工具的方案和功能。该工具可以读取文件头,并根据特定长度进行加密,加密后将加密部分写入源文件。同时,该工具也支持解密操作。加密和解密过程是可逆的。本文还提到了一些相关的功能和使用方法,并给出了Python代码示例。 ... [详细]
  • 本文介绍了pack布局管理器在Perl/Tk中的使用方法及注意事项。通过调用pack()方法,可以控制部件在显示窗口中的位置和大小。同时,本文还提到了在使用pack布局管理器时,应注意将部件分组以便在水平和垂直方向上进行堆放。此外,还介绍了使用Frame部件或Toplevel部件来组织部件在窗口内的方法。最后,本文强调了在使用pack布局管理器时,应避免在中间切换到grid布局管理器,以免造成混乱。 ... [详细]
  • 向QTextEdit拖放文件的方法及实现步骤
    本文介绍了在使用QTextEdit时如何实现拖放文件的功能,包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数,并结合QMimeData和QUrl等类,可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]
  • 不同优化算法的比较分析及实验验证
    本文介绍了神经网络优化中常用的优化方法,包括学习率调整和梯度估计修正,并通过实验验证了不同优化算法的效果。实验结果表明,Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]
  • HTML学习02 图像标签的使用和属性
    本文介绍了HTML中图像标签的使用和属性,包括定义图像、定义图像地图、使用源属性和替换文本属性。同时提供了相关实例和注意事项,帮助读者更好地理解和应用图像标签。 ... [详细]
  • IjustinheritedsomewebpageswhichusesMooTools.IneverusedMooTools.NowIneedtoaddsomef ... [详细]
  • 基于dlib的人脸68特征点提取(眨眼张嘴检测)python版本
    文章目录引言开发环境和库流程设计张嘴和闭眼的检测引言(1)利用Dlib官方训练好的模型“shape_predictor_68_face_landmarks.dat”进行68个点标定 ... [详细]
  • 本文介绍了贝叶斯垃圾邮件分类的机器学习代码,代码来源于https://www.cnblogs.com/huangyc/p/10327209.html,并对代码进行了简介。朴素贝叶斯分类器训练函数包括求p(Ci)和基于词汇表的p(w|Ci)。 ... [详细]
  • 微信官方授权及获取OpenId的方法,服务器通过SpringBoot实现
    主要步骤:前端获取到code(wx.login),传入服务器服务器通过参数AppID和AppSecret访问官方接口,获取到OpenId ... [详细]
author-avatar
百变精装绣
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有