热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

利用GDAL库在Python中高效读取与处理栅格数据的详细指南

GDAL原生支持超过100种栅格数据类型,涵盖所有主流GIS与RS数据格式,包括 ArcInfo grids, ArcSDE raster, Imagine, Idrisi


GDAL原生支持超过100种栅格数据类型,涵盖所有主流GIS与RS数据格式,包括

ArcInfo grids, ArcSDE raster, Imagine, Idrisi, ENVI, GRASS, GeoTIFF

HDF4, HDF5

USGS DOQ, USGS DEM

ECW, MrSID

TIFF, JPEG, JPEG2000, PNG, GIF, BMP

完整的支持列表可以参考http://www.gdal.org/formats_list.html

导入GDAL支持库

旧版本(1.5以前):import gdal, gdalconst

新版本(1.6以后):from osgeo import gdal, gdalconst

gdal和gdalconst最好都要导入,其中gdalconst中的常量都加了前缀,力图与其他的module冲突最小。所以对gdalconst你可以直接这样导入:from osgeo.gdalconst import *

GDAL数据驱动,与OGR数据驱动类似,需要先创建某一类型的数据驱动,再创建响应的栅格数据集。

一次性注册所有的数据驱动,但是只能读不能写:gdal.AllRegister()

单独注册某一类型的数据驱动,这样的话可以读也可以写,可以新建数据集:

driver = gdal.GetDriverByName('HFA')

driver.Register()

打开已有的栅格数据集:

fn = 'aster.img'

ds = gdal.Open(fn, GA_ReadOnly)

if ds is None:

print 'Could not open ' + fn

sys.exit(1)

读取栅格数据集的x方向像素数,y方向像素数,和波段数

cols = ds.RasterXSize

rows = ds.RasterYSize

bands = ds.RasterCount

注意后面没有括号,因为他们是属性(properties)不是方法(methods)

读取地理坐标参考信息(georeference info)

GeoTransform是一个list,存储着栅格数据集的地理坐标信息

adfGeoTransform[0] /* top left x 左上角x坐标*/

adfGeoTransform[1] /* w--e pixel resolution 东西方向上的像素分辨率*/

adfGeoTransform[2] /* rotation, 0 if image is "north up" 如果北边朝上,地图的旋转角度*/

adfGeoTransform[3] /* top left y 左上角y坐标*/

adfGeoTransform[4] /* rotation, 0 if image is "north up" 如果北边朝上,地图的旋转角度*/

adfGeoTransform[5] /* n-s pixel resolution 南北方向上的像素分辨率*/

注意栅格数据集的坐标一般都是以左上角为基准的。

下面的例子是从一个栅格数据集中取出Geotransform作为一个list,然后读取其中的数据

geotransform = ds.GetGeoTransform()

originX = geotransform[0]

originY = geotransform[3]originY = geotransform[3]

pixelWidth = geotransform[1]

pixelHeight = geotransform[5]

计算某一坐标对应像素的相对位置(pixel offset),也就是该坐标与左上角的像素的相对位置,按像素数计算,计算公式如下:

xOffset = int((x – originX) / pixelWidth)

yOffset = int((y – originY) / pixelHeight)

读取某一像素点的值,需要分两步

首先读取一个波段(band):GetRasterBand(),其参数为波段的索引号

然后用ReadAsArray(, , , ),读出从(xoff,yoff)开始,大小为(xsize,ysize)的矩阵。如果将矩阵大小设为1X1,就是读取一个像素了。但是这一方法只能将读出的数据放到矩阵中,就算只读取一个像素也是一样。例如:

band = ds.GetRasterBand(1)

data = band.ReadAsArray(xOffset, yOffset, 1, 1)

如果想一次读取一整张图,那么将offset都设定为0,size则设定为整个图幅的size,例如:

data = band.ReadAsArray(0, 0, cols, rows)

但是要注意,从data中读取某一像素的值,必须要用data[yoff, xoff]。注意不要搞反了。数学中的矩阵是[row,col],而这里恰恰相反!这里面row对应y轴,col对应x轴。

注意在适当的时候释放内存,例如band = None 或者dataset = None。尤其当图很大的时候

如何更有效率的读取栅格数据?显然一个一个的读取效率非常低,将整个栅格数据集都塞进二维数组也不是个好办法,因为这样占的内存还是很多。更好的方法是按块(block)来存取数据,只把要用的那一块放进内存。本周的样例代码中有一个utils模块,可以读取block大小。

例如:

import utils

blockSize = utils.GetBlockSize(band)

xBlockSize = blockSize[0]

yBlockSize = blockSize[1]

平铺(tiled),即栅格数据按block存储。有的格式,例如GeoTiff没有平铺,一行是一个block。Erdas imagine格式则按64x64像素平铺。

如果一行是一个block,那么按行读取是比较节省资源的。

如果是平铺的数据结构,那么设定ReadAsArray()的参数值,让它一次只读入一个block,就是效率最高的方法了。例如:

rows = 13, cols = 11, xBSize = 5, yBSize = 5

for i in range(0, rows, yBSize):

if i + yBSize

numRows = yBSize

else:

numRows = rows – i

for j in range(0, cols, xBSize):

if j + xBSize

numCols = xBSize

else:

numCols = colsnumCols = cols – j

data = band.ReadAsArray(j, i, numCols, numRows)

这一段代码具有通用性,可以时常拿来用的。

下面介绍一点二维数组的处理技巧

这里要用到两个库,Numeric和numpy。Numeric比较老了,FWTools用它。自己安装配置的话还是配功能更强的numpy。

数据类型转换:

data = band.ReadAsArray(j, i, nCols, nRows)

data = data.astype(Numeric.Float) # Numeric

data = data.astype(numpy.float) # numpy

或者简单点只写一句

data = band.ReadAsArray(j, i, nCols, nRows).astype(Numeric.Float)

掩膜mask

这是Numeric和numpy库的功能,输入一个数组和条件,输出一个二值数组。例如

mask = Numeric.greater(data, 0)mask = Numeric.greater(data, 0)

>>> a = Numeric.array([0, 4, 6, 0, 2])

>>> print a

[0 4 6 0 2]

>>> mask = Numeric.greater(a, 0)

>>> print mask

[0 1 1 0 1]

数组求和

>>> a = Numeric.array([0, 4, 6, 0, 2])

>>> print a>>> print a

[0 4 6 0 2]

>>> print Numeric.sum(a)

12

如果是二维数组,那sum就会返回一个一维数组

>>> b = Numeric.array([a, [5, 10, 0, 3, 0]])

>>> print b

[[ 0 4 6 0 2]

[ 5 10 0 3 0]]

>>> print Numeric.sum(b)>>> print Numeric.sum(b)

[ 5 14 6 3 2]

所以,二维数组的求和就要这样

>>> print Numeric.sum(Numeric.sum(b))

30

这里有一个小技巧,统计大于0的像素个数,可以联合运用mask和sum两个函数

>>> print a

[0 4 6 0 2]

>>> mask = Numeric.greater(a, 0)

>>> print mask

[0 1 1 0 1]

>>> print Numeric.sum(mask)

3

以上就是python gdal教程之:用gdal读取栅格数据的内容,更多相关内容请关注PHP中文网(www.gxlcms.com)!


推荐阅读
  • 本文探讨了在Lumen框架中实现自定义表单验证功能的方法与挑战。Lumen的表单验证机制默认返回无状态的JSON格式API响应,这给初学者带来了一定的难度。通过深入研究Validate类,作者分享了如何有效配置和使用自定义验证规则,以提升表单数据的准确性和安全性。 ... [详细]
  • JVM参数设置与命令行工具详解
    JVM参数配置与命令行工具的深入解析旨在优化系统性能,通过合理设置JVM参数,确保在高吞吐量的前提下,有效减少垃圾回收(GC)的频率,进而降低系统停顿时间,提升服务的稳定性和响应速度。此外,本文还将详细介绍常用的JVM命令行工具,帮助开发者更好地监控和调优JVM运行状态。 ... [详细]
  • 在处理大规模并发请求时,传统的多线程或多进程模型往往无法有效解决性能瓶颈问题。尽管它们在处理小规模任务时能提升效率,但在高并发场景下,系统资源的过度消耗和上下文切换的开销会显著降低整体性能。相比之下,Python 的 `asyncio` 模块通过协程提供了一种轻量级且高效的并发解决方案。本文将深入解析 `asyncio` 模块的原理及其在实际应用中的优化技巧,帮助开发者更好地利用协程技术提升程序性能。 ... [详细]
  • 本文介绍了一种简化版的在线购物车系统,重点探讨了用户登录和购物流程的设计与实现。该系统通过优化界面交互和后端逻辑,提升了用户体验和操作便捷性。具体实现了用户注册、登录验证、商品浏览、加入购物车以及订单提交等功能,旨在为用户提供高效、流畅的购物体验。 ... [详细]
  • Django框架下的对象关系映射(ORM)详解
    在Django框架中,对象关系映射(ORM)技术是解决面向对象编程与关系型数据库之间不兼容问题的关键工具。通过将数据库表结构映射到Python类,ORM使得开发者能够以面向对象的方式操作数据库,从而简化了数据访问和管理的复杂性。这种技术不仅提高了代码的可读性和可维护性,还增强了应用程序的灵活性和扩展性。 ... [详细]
  • 本文深入探讨了 HTML 中的 `margin` 属性,详细解析了其基本特性和应用场景。文章不仅介绍了 `margin` 的基本概念,还重点讨论了垂直外边距合并现象,并分析了 `margin` 在块级元素与内联元素中的不同表现。通过实例和代码示例,帮助读者全面理解 `margin` 的使用技巧和常见问题。 ... [详细]
  • 推荐一个适合前PHP开发者学习Python基础的优质网站
    如果你曾是PHP开发人员,对PHP函数了如指掌(笔者本人就有这样的背景),而现在因职业发展或个人兴趣需要转向Python学习,推荐一个专为这类开发者设计的优质网站。该平台不仅提供Python基础教程,还结合了PHP开发者熟悉的概念,帮助你快速上手Python编程。 ... [详细]
  • 深入解析 Spring MVC 的核心原理与应用实践
    本文将详细探讨Spring MVC的核心原理及其实际应用,首先从配置web.xml文件入手,解析其在初始化过程中的关键作用,接着深入分析请求处理流程,包括控制器、视图解析器等组件的工作机制,并结合具体案例,展示如何高效利用Spring MVC进行开发,为读者提供全面的技术指导。 ... [详细]
  • 本文详细介绍了在Ubuntu操作系统中使用GDB调试工具深入分析和调试标准库函数`printf`的源代码过程。通过具体步骤和实例,展示了如何设置断点、查看变量值及跟踪函数调用栈,帮助开发者更好地理解`printf`函数的工作原理及其内部实现细节。 ... [详细]
  • 表面缺陷检测数据集综述及GitHub开源项目推荐
    本文综述了表面缺陷检测领域的数据集,并推荐了多个GitHub上的开源项目。通过对现有文献和数据集的系统整理,为研究人员提供了全面的资源参考,有助于推动该领域的发展和技术进步。 ... [详细]
  • 【Python爬虫实操】 不创作小说,专精网站内容迁移,超高效!(含源代码)
    本文详细介绍了如何利用Python爬虫技术实现高效网站内容迁移,涵盖前端、后端及Android相关知识点。通过具体实例和源代码,展示了如何精准抓取并迁移网站内容,适合对Python爬虫实战感兴趣的开发者参考。 ... [详细]
  • 在 Python 中,魔法方法 `__dict__` 和 `__getattr__` 具有重要的作用和灵活的应用。`__dict__` 是一个用于存储对象属性的字典,其中键为属性名,值为对应的属性值。通过 `__dict__`,可以动态地访问和修改对象的属性。而 `__getattr__` 方法则在尝试访问对象中不存在的属性时被调用,提供了一种优雅的处理方式,避免了属性访问错误。这两个魔法方法在实现复杂的数据结构和动态行为时尤为有用。 ... [详细]
  • IIS 7及7.5版本中应用程序池的最佳配置策略与实践
    在IIS 7及7.5版本中,优化应用程序池的配置是提升Web站点性能的关键步骤。具体操作包括:首先定位到目标Web站点的应用程序池,然后通过“应用程序池”菜单找到对应的池,右键选择“高级设置”。在一般优化方案中,建议调整以下几个关键参数:1. **基本设置**: - **队列长度**:默认值为1000,可根据实际需求调整队列长度,以提高处理请求的能力。此外,还可以进一步优化其他参数,如处理器使用限制、回收策略等,以确保应用程序池的高效运行。这些优化措施有助于提升系统的稳定性和响应速度。 ... [详细]
  • 基于STM32的智能太阳能路灯设计与华为云IOT集成方案
    基于STM32的智能太阳能路灯设计与华为云IOT集成方案 ... [详细]
  • 使用 Vue 集成 iScroll 实现移动端表格横向滚动与固定列功能 ... [详细]
author-avatar
小小的dream
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有